HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

46 papers found

KI kann wissenschaftlichen Geschmack erlernen
AI Can Learn Scientific Taste

Mar 15

ByJingqi Tong, Mingzhe Li, Hangcheng Li, Yongzhuo Yang, Yurong Mou, Weijie Ma, Zhiheng Xi, Hongji Chen, Xiaoran Liu, Qinyuan Cheng, Ming Zhang, Qiguang Chen, Weifeng Ge, Qipeng Guo, Tianlei Ying, Tianxiang Sun, Yining Zheng, Xinchi Chen, Jun Zhao, Ning Ding, Xuanjing Huang, Yugang Jiang, Xipeng Qiu

393

Große Wissenschaftler verfügen über ein starkes Urteilsvermögen und Weitsicht, was eng mit dem zusammenhängt, was wir als wissenschaftlichen Geschmack bezeichnen. Hier verwenden wir den Begriff, um die Fähigkeit zu beschreiben, Forschungsideen mit hohem potenziellem Impact zu beurteilen und vorzuschlagen. Die meisten verwandten Forschungsarbeiten konzentrieren sich jedoch darauf, die Ausführungsfähigkeit eines KI-Wissenschaftlers zu verbessern, während die Verbesserung des wissenschaftlichen Geschmacks einer KI weitgehend unerforscht bleibt. In dieser Arbeit schlagen wir Reinforcement Learning from Community Feedback (RLCF) vor, ein Trainingsparadigma, das großskalige Community-Signale als Supervision nutzt, und formulieren das Lernen von wissenschaftlichem Geschmack als ein Problem der Präferenzmodellierung und -anpassung. Für die Präferenzmodellierung trainieren wir Scientific Judge anhand von 700.000 feld- und zeitlich abgeglichenen Paaren von hoch- vs. niedrig-zitierten Publikationen, um Ideen zu bewerten. Für die Präferenzanpassung trainieren wir unter Verwendung von Scientific Judge als Belohnungsmodell ein Policy-Modell, Scientific Thinker, um Forschungsideen mit hohem potenziellem Impact vorzuschlagen. Experimente zeigen, dass Scientific Judge state-of-the-art LLMs (z.B. GPT-5.2, Gemini 3 Pro) übertrifft und sich auf Tests mit zukünftigen Jahren, ungesehene Felder und Peer-Review-Präferenzen verallgemeinert. Darüber hinaus schlägt Scientific Thinker Forschungsideen mit höherem potenziellem Impact vor als Vergleichsmodelle. Unsere Ergebnisse zeigen, dass KI wissenschaftlichen Geschmack erlernen kann, was einen wichtigen Schritt auf dem Weg zu KI-Wissenschaftlern auf menschlichem Niveau darstellt.

Aufmerksamkeitsresiduen
Attention Residuals

Mar 16

ByKimi Team, Guangyu Chen, Yu Zhang, Jianlin Su, Weixin Xu, Siyuan Pan, Yaoyu Wang, Yucheng Wang, Guanduo Chen, Bohong Yin, Yutian Chen, Junjie Yan, Ming Wei, Y. Zhang, Fanqing Meng, Chao Hong, Xiaotong Xie, Shaowei Liu, Enzhe Lu, Yunpeng Tai, Yanru Chen, Xin Men, Haiqing Guo, Y. Charles, Haoyu Lu, Lin Sui, Jinguo Zhu, Zaida Zhou, Weiran He, Weixiao Huang, Xinran Xu, Yuzhi Wang, Guokun Lai, Yulun Du, Yuxin Wu, Zhilin Yang, Xinyu Zhou

153

Residualverbindungen mit PreNorm sind in modernen großen Sprachmodellen Standard, akkumulieren jedoch alle Schichtenausgaben mit festen Einheitsgewichten. Diese gleichförmige Aggregation führt zu einem unkontrollierten Wachstum des Hidden-State mit zunehmender Tiefe, wodurch der Beitrag jeder Schicht fortschreitend verdünnt wird. Wir schlagen Attention Residuals (AttnRes) vor, das diese feste Akkumulation durch Softmax-Attention über vorherige Schichtenausgaben ersetzt. Dies ermöglicht es jeder Schicht, frühere Repräsentationen mit gelernten, eingabeabhängigen Gewichten selektiv zu aggregieren. Um den Speicher- und Kommunikationsmehraufwand zu adressieren, der durch das Attention-Mechanismus über alle vorherigen Schichtenausgaben beim Training großskaliger Modelle entsteht, führen wir Block AttnRes ein. Dies unterteilt die Schichten in Blöcke und wendet Attention auf Block-Repräsentationen an, wodurch der Speicherbedarf reduziert wird, während der Großteil der Vorteile von vollständigem AttnRes erhalten bleibt. In Kombination mit cache-basierter Pipeline-Kommunikation und einer Zwei-Phasen-Berechnungsstrategie wird Block AttnRes zu einem praktischen Drop-in-Ersatz für standardmäßige Residualverbindungen mit minimalem Overhead. Skalierungsgesetz-Experimente bestätigen, dass die Verbesserung über verschiedene Modellgrößen hinweg konsistent ist, und Ablationstudien validieren den Nutzen der inhaltsabhängigen, tiefenweisen Selektion. Wir integrieren AttnRes weiterhin in die Kimi Linear-Architektur (48B gesamt / 3B aktivierte Parameter) und führen ein Pre-Training auf 1,4T Tokens durch. Hier mildert AttnRes die PreNorm-Verdünnung ab, was zu gleichmäßigeren Ausgabeamplituden und Gradientenverteilungen über die Tiefe hinweg führt und die Leistung bei nachgelagerten Aufgaben in allen evaluierten Bereichen verbessert.

HSImul3R: Physik-in-the-Loop-Rekonstruktion simulationsfähiger Mensch-Szenen-Interaktionen
HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions

Mar 16

ByYukang Cao, Haozhe Xie, Fangzhou Hong, Long Zhuo, Zhaoxi Chen, Liang Pan, Ziwei Liu

149

Wir stellen HSImul3R vor, einen einheitlichen Rahmen für die simulationsfertige 3D-Rekonstruktion von Mensch-Szene-Interaktionen (HSI) aus beiläufigen Aufnahmen, einschließlich Sparse-View-Bildern und monokularen Videos. Bestehende Methoden leiden unter einer Wahrnehmungs-Simulations-Lücke: visuell plausible Rekonstruktionen verletzen oft physikalische Constraints, was zu Instabilität in Physik-Engines und zum Scheitern in embodied KI-Anwendungen führt. Um diese Lücke zu schließen, führen wir eine physikalisch fundierte bidirektionale Optimierungspipeline ein, die den Physiksimulator als aktiven Supervisor behandelt, um menschliche Dynamik und Szenengeometrie gemeinsam zu verfeinern. In Vorwärtsrichtung setzen wir zielgerichtetes Reinforcement Learning für die Szene ein, um die menschliche Bewegung unter dualer Aufsicht von Bewegungsgenauigkeit und Kontaktstabilität zu optimieren. In Rückwärtsrichtung schlagen wir die direkte Simulationsbelohnungsoptimierung vor, die Simulationsfeedback zu Gravitationsstabilität und Interaktionserfolg nutzt, um die Szenengeometrie zu verbessern. Wir stellen außerdem HSIBench vor, einen neuen Benchmark mit diversen Objekten und Interaktionsszenarien. Umfangreiche Experimente zeigen, dass HSImul3R die ersten stabilen, simulationsfertigen HSI-Rekonstruktionen erzeugt und direkt auf humanoide Roboter in der realen Welt eingesetzt werden kann.

Verankerung von Welt-Simulationsmodellen in einer realen Metropole
Grounding World Simulation Models in a Real-World Metropolis

Mar 16

ByJunyoung Seo, Hyunwook Choi, Minkyung Kwon, Jinhyeok Choi, Siyoon Jin, Gayoung Lee, Junho Kim, JoungBin Lee, Geonmo Gu, Dongyoon Han, Sangdoo Yun, Seungryong Kim, Jin-Hwa Kim

145

Was wäre, wenn ein Welt-Simulationsmodell nicht nur eine imaginäre Umgebung, sondern eine tatsächlich existierende Stadt darstellen könnte? Bisherige generative Weltmodelle synthetisieren visuell plausible, aber künstliche Umgebungen, indem sie sämtliche Inhalte erzeugen. Wir stellen das Seoul World Model (SWM) vor, ein stadtgroßes Weltmodell, das auf der realen Stadt Seoul basiert. SWM verankert die autoregressive Videogenerierung durch retrieval-augmentierte Konditionierung auf nahegelegene Street-View-Bilder. Diese Konzeption bringt jedoch mehrere Herausforderungen mit sich, darunter zeitliche Fehlausrichtung zwischen abgerufenen Referenzen und der dynamischen Zielszene, begrenzte Trajektorienvielfalt und Datenlücken durch kameramontierte Aufnahmen in großen Intervallen. Wir begegnen diesen Herausforderungen durch cross-temporale Paarung, einen umfangreichen synthetischen Datensatz für diverse Kameratrajektorien und eine View-Interpolations-Pipeline, die aus spärlichen Street-View-Bildern kohärente Trainingsvideos synthetisiert. Zusätzlich führen wir eine Virtual-Lookahead-Sink ein, um die Langzeiterzeugung zu stabilisieren, indem jedes Segment kontinuierlich an einem zukünftigen Standort neu in einem abgerufenen Bild verankert wird. Wir evaluieren SWM im Vergleich zu aktuellen Video-Weltmodellen in drei Städten: Seoul, Busan und Ann Arbor. SWM übertrifft bestehende Methoden bei der Erzeugung von räumlich treuen, zeitlich konsistenten Langzeitvideos, die in realen urbanen Umgebungen über mehrere hundert Meter verankert sind, und unterstützt dabei diverse Kamerabewegungen und textgesteuerte Szenariovariationen.

EnterpriseOps-Gym: Umgebungen und Bewertungen für zustandsbehaftetes agentenbasiertes Planen und Werkzeugeinsatz in Unternehmensumgebungen
EnterpriseOps-Gym: Environments and Evaluations for Stateful Agentic Planning and Tool Use in Enterprise Settings

Mar 13

ByShiva Krishna Reddy Malay, Shravan Nayak, Jishnu Sethumadhavan Nair, Sagar Davasam, Aman Tiwari, Sathwik Tejaswi Madhusudhan, Sridhar Krishna Nemala, Srinivas Sunkara, Sai Rajeswar

142

Große Sprachmodelle entwickeln sich von passiven Informationslieferanten zu aktiven Agenten für komplexe Arbeitsabläufe. Ihr Einsatz als zuverlässige KI-Mitarbeiter in Unternehmen wird jedoch durch Benchmarks gebremst, die die Komplexität professioneller Umgebungen nicht erfassen, insbesondere den Bedarf an langfristiger Planung bei persistenten Zustandsänderungen und strengen Zugriffsprotokollen. In dieser Arbeit stellen wir EnterpriseOps-Gym vor, einen Benchmark zur Bewertung agentenbasierter Planung in realistischen Unternehmensumgebungen. Konkret bietet EnterpriseOps-Gym eine containerisierte Sandbox mit 164 Datenbanktabellen und 512 funktionalen Tools, um reale Suchreibung zu simulieren. In dieser Umgebung werden Agenten an 1.150 von Experten kuratierten Aufgaben aus acht geschäftskritischen Bereichen (einschließlich Kundenservice, Personalwesen und IT) evaluiert. Unsere Evaluation von 14 führenden Modellen zeigt kritische Limitationen aktuellster Modelle auf: Das beste Modell, Claude Opus 4.5, erreicht nur eine Erfolgsquote von 37,4%. Eine weitergehende Analyse zeigt, dass das Vorgeben menschlicher Oracle-Pläne die Leistung um 14-35 Prozentpunkte verbessert, was strategisches Reasoning als primären Engpass identifiziert. Zudem scheitern Agenten häufig daran, undurchführbare Aufgaben abzulehnen (bestes Modell: 53,9%), was zu unbeabsichtigten und potenziell schädlichen Nebeneffekten führt. Unsere Ergebnisse unterstreichen, dass aktuelle Agenten noch nicht bereit für den autonomen Unternehmenseinsatz sind. Im weiteren Sinne bietet EnterpriseOps-Gym eine konkrete Testumgebung, um die Robustheit agentenbasierter Planung in professionellen Workflows voranzutreiben.

OpenSeeker: Demokratisierung von Frontier-Suchagenten durch vollständig offene Trainingsdaten
OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

Mar 16

ByYuwen Du, Rui Ye, Shuo Tang, Xinyu Zhu, Yijun Lu, Yuzhu Cai, Siheng Chen

141

Tiefgreifende Suchfähigkeiten sind zu einer unverzichtbaren Kompetenz für fortschrittliche Large Language Model (LLM)-Agenten geworden. Dennoch wird die Entwicklung hochleistungsfähiger Suchagenten aufgrund fehlender transparenter, hochwertiger Trainingsdaten weiterhin von Industriegiganten dominiert. Diese anhaltende Datenknappheit hat den Fortschritt der breiten Forschungsgemeinde bei der Entwicklung und Innovation in diesem Bereich grundlegend behindert. Um diese Lücke zu schließen, stellen wir OpenSeeker vor, den ersten vollständig quelloffenen Suchagenten (d.h. Modell und Daten), der durch zwei zentrale technische Innovationen Spitzenleistungen erzielt: (1) Faktenbasierte, skalierbare, steuerbare QA-Synthese, die den Web-Graphen durch topologische Expansion und Entitätsverschleierung reverse-engineering betreibt, um komplexe, multi-hop Reasoning-Aufgaben mit kontrollierbarer Abdeckung und Komplexität zu generieren. (2) Denoisierte Trajektoriensynthese, die einen retrospektiven Zusammenfassungsmechanismus zur Rauschunterdrückung der Trajektorie einsetzt und so die Lehrer-LLMs dazu anregt, hochwertige Aktionen zu generieren. Experimentelle Ergebnisse zeigen, dass OpenSeeker, trainiert (ein einziger Trainingslauf) mit nur 11.700 synthetisierten Stichproben, state-of-the-art Leistungen in mehreren Benchmarks erreicht, darunter BrowseComp, BrowseComp-ZH, xbench-DeepSearch und WideSearch. Bemerkenswerterweise übertrifft OpenSeeker, trainiert mit einfachem SFT, den zweitbesten vollständig quelloffenen Agenten DeepDive deutlich (z.B. 29,5 % zu 15,3 % bei BrowseComp) und übertrifft sogar industrielle Mitbewerber wie Tongyi DeepResearch (trainiert mittels umfangreichen kontinuierlichen Pre-Trainings, SFT und RL) bei BrowseComp-ZH (48,4 % zu 46,7 %). Wir stellen den vollständigen Trainingsdatensatz und die Modellgewichte vollständig quelloffen zur Verfügung, um die Forschung an Spitzen-Suchagenten zu demokratisieren und ein transparenteres, kooperativeres Ökosystem zu fördern.

Mischung-der-Tiefen-Aufmerksamkeit
Mixture-of-Depths Attention

Mar 16

ByLianghui Zhu, Yuxin Fang, Bencheng Liao, Shijie Wang, Tianheng Cheng, Zilong Huang, Chen Chen, Lai Wei, Yutao Zeng, Ya Wang, Yi Lin, Yu Li, Xinggang Wang

Die Skalierung der Tiefe ist ein entscheidender Treiber für große Sprachmodelle (LLMs). Allerdings leiden LLMs mit zunehmender Tiefe häufig unter Signalverschlechterung: informative Merkmale, die in flachen Schichten gebildet werden, werden durch wiederholte Residual-Updates allmählich verdünnt, was ihre Wiederherstellung in tieferen Schichten erschwert. Wir führen Mixture-of-Depths-Attention (MoDA) ein, einen Mechanismus, der jedem Attention-Head erlaubt, auf Sequenz-KV-Paare der aktuellen Schicht und Tiefen-KV-Paare aus vorhergehenden Schichten zuzugreifen. Wir beschreiben weiterhin einen hardwareeffizienten Algorithmus für MoDA, der nicht-kontinuierliche Speicherzugriffsmuster auflöst und 97,3 % der Effizienz von FlashAttention-2 bei einer Sequenzlänge von 64K erreicht. Experimente mit 1,5B-Parameter-Modellen zeigen, dass MoDA durchgängig starke Baseline-Methoden übertrifft. Bemerkenswerterweise verbessert es die durchschnittliche Perplexität um 0,2 über 10 Validierungs-Benchmarks hinweg und steigert die durchschnittliche Leistung um 2,11 % bei 10 Downstream-Aufgaben, bei einem vernachlässigbaren Rechenaufwand von 3,7 % zusätzlichen FLOPs. Wir stellen zudem fest, dass die Kombination von MoDA mit Post-Norm eine bessere Leistung erzielt als die Verwendung mit Pre-Norm. Diese Ergebnisse deuten darauf hin, dass MoDA eine vielversprechende Grundkomponente für die Tiefenskalierung ist. Der Code ist unter https://github.com/hustvl/MoDA veröffentlicht.

Effektive Destillation für hybride xLSTM-Architekturen
Effective Distillation to Hybrid xLSTM Architectures

Mar 16

ByLukas Hauzenberger, Niklas Schmidinger, Thomas Schmied, Anamaria-Roberta Hartl, David Stap, Pieter-Jan Hoedt, Maximilian Beck, Sebastian Böck, Günter Klambauer, Sepp Hochreiter

Es gab zahlreiche Versuche, quadratische auf Aufmerksamkeit basierende große Sprachmodelle (LLMs) in subquadratische linearisierte Architekturen zu destillieren. Trotz intensiver Forschung erreichen solche destillierten Modelle jedoch oft nicht die Leistung ihrer Lehrer-LLMs bei verschiedenen Downstream-Aufgaben. Wir setzen uns das Ziel einer verlustfreien Destillation, die wir anhand toleranzkorrigierter Gewinn- und Unentschieden-Raten zwischen Schüler und Lehrer auf Aufgabensets definieren. Zu diesem Zweck führen wir eine effektive Destillations-Pipeline für xLSTM-basierte Schüler-Modelle ein. Wir schlagen eine zusätzliche Verschmelzungsphase vor, bei der individuell linearisierte Experten zu einem einzigen Modell kombiniert werden. Wir zeigen die Wirksamkeit dieser Pipeline, indem wir Basis- und instruktionsfeinabgestimmte Modelle aus den Llama-, Qwen- und Olmo-Familien destillieren. In vielen Szenarien erreichen unsere xLSTM-basierten Schüler-Modelle den Großteil der Lehrerleistung und übertreffen diese sogar bei einigen Downstream-Aufgaben. Unsere Beiträge sind ein wichtiger Schritt hin zu energieeffizienteren und kostengünstigeren Ersatzmodellen für transformerbasierte LLMs.

Anatomie einer Lüge: Ein mehrstufiges Diagnoseframework zur Nachverfolgung von Halluzinationen in visuell-sprachlichen Modellen
Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models

Mar 16

ByLexiang Xiong, Qi Li, Jingwen Ye, Xinchao Wang

Vision-Language Models (VLMs) neigen häufig zu "Halluzinationen" – der Generierung plausibel klingender, aber faktisch falscher Aussagen – was eine kritische Hürde für ihren vertrauenswürdigen Einsatz darstellt. In dieser Arbeit schlagen wir ein neues Paradigma zur Diagnose von Halluzinationen vor, indem wir sie von statischen Ausgabefehlern zu dynamischen Pathologien der rechnerischen Kognition eines Modells umdeuten. Unser Framework basiert auf einem normativen Prinzip der rechnerischen Rationalität, das es uns erlaubt, die Generierung eines VLM als dynamische kognitive Trajektorie zu modellieren. Wir entwickeln eine Reihe informationstheoretischer Sonden, die diese Trajektorie auf einen interpretierbaren, niedrigdimensionalen Kognitiven Zustandsraum projizieren. Unsere zentrale Entdeckung ist ein steuerndes Prinzip, das wir als geometrisch-informationstheoretische Dualität bezeichnen: Die geometrische Abnormalität einer kognitiven Trajektorie in diesem Raum ist grundsätzlich äquivalent zu ihrer hohen informationstheoretischen Überraschung (Surprisal). Die Halluzinationserkennung wird damit zu einem Problem der geometrischen Anomalieerkennung. Evaluierungen in verschiedenen Szenarien – von strengen binären Frage-Antwort-Aufgaben (POPE) und umfassendem Reasoning (MME) bis hin zu ungebundenem, freiem Captioning (MS-COCO) – zeigen, dass unser Framework state-of-the-art Leistung erzielt. Entscheidend ist, dass es mit hoher Effizienz unter schwacher Supervision arbeitet und selbst bei stark kontaminierten Kalibrierungsdaten äußerst robust bleibt. Dieser Ansatz ermöglicht eine kausale Zuordnung von Fehlern, indem beobachtbare Fehler auf bestimmte pathologische Zustände abgebildet werden: perzeptive Instabilität (gemessen durch Perzeptuelle Entropie), logisch-kausale Fehlfunktion (gemessen durch Inferenziellen Konflikt) und Entscheidungsunschärfe (gemessen durch Entscheidungsentropie). Letztendlich eröffnet dies einen Weg zum Aufbau von KI-Systemen, deren Entscheidungsfindung durch Design transparent, überprüfbar und diagnostizierbar ist.

Sichere und skalierbare Web-Agenten-Lernverfahren mittels rekonstruierter Websites
Safe and Scalable Web Agent Learning via Recreated Websites

Mar 11

ByHyungjoo Chae, Jungsoo Park, Alan Ritter

Das Training autonomer Web-Agenten wird grundlegend durch die Umgebungen limitiert, in denen sie lernen: Echte Websites sind unsicher zu erkunden, schwer zurückzusetzen und bieten selten überprüfbare Rückmeldungen. Wir stellen VeriEnv vor, ein Framework, das Sprachmodelle als Umgebungsersteller behandelt und automatisch reale Websites in vollständig ausführbare, verifizierbare synthetische Umgebungen klont. Durch die Bereitstellung von kontrolliertem internem Zugriff via eines Python-SDK ermöglicht VeriEnv Agenten, sich selbst Aufgaben mit deterministischen, programmatisch überprüfbaren Belohnungen zu generieren, was die Abhängigkeit von heuristischen oder LLM-basierten Bewertungen beseitigt. Dieses Design entkoppelt das Lernen der Agenten von unsicheren Interaktionen in der realen Welt und ermöglicht gleichzeitig skalierbare Selbstentwicklung durch Umgebungserweiterung. In Experimenten mit Web-Agenten-Benchmarks zeigen wir, dass mit VeriEnv trainierte Agenten auf ungesehene Websites generalisieren, websitespezifische Meisterschaft durch sich selbst weiterentwickelndes Training erreichen und von der Skalierung der Anzahl an Trainingsumgebungen profitieren. Code und Ressourcen werden bei Annahme unter https://github.com/kyle8581/VeriEnv veröffentlicht.

ViFeEdit: Ein videofreier Tuner für Ihren Video-Diffusion-Transformer
ViFeEdit: A Video-Free Tuner of Your Video Diffusion Transformer

Mar 16

ByRuonan Yu, Zhenxiong Tan, Zigeng Chen, Songhua Liu, Xinchao Wang

Diffusion Transformer (DiTs) haben bemerkenswerte Skalierbarkeit und Qualität in der Bild- und Videogenerierung demonstriert, was das wachsende Interesse an ihrer Erweiterung für kontrollierbare Generierungs- und Bearbeitungsaufgaben weckt. Im Vergleich zu ihren Pendants in der Bildverarbeitung sind die Fortschritte bei der Videokontrolle und -bearbeitung jedoch nach wie vor begrenzt, hauptsächlich aufgrund der Knappheit gepaarter Videodaten und der hohen Rechenkosten für das Training von Videodiffusionsmodellen. Um dieses Problem zu lösen, schlagen wir in diesem Artikel ein videofreies Feinabstimmungsframework namens ViFeEdit für Videodiffusion-Transformer vor. Ohne jegliche Form von Videotrainingsdaten zu benötigen, erreicht ViFeEdit eine vielseitige Videogenerierung und -bearbeitung, die ausschließlich mit 2D-Bildern adaptiert wird. Kern unseres Ansatzes ist eine architektonische Neuparametrisierung, die die räumliche Unabhängigkeit von der vollständigen 3D-Aufmerksamkeit in modernen Videodiffusion-Transformer-Modellen entkoppelt. Dies ermöglicht eine visuell originalgetreue Bearbeitung bei gleichzeitiger Aufrechterhaltung der zeitlichen Konsistenz mit nur minimalen zusätzlichen Parametern. Darüber hinaus arbeitet dieses Design in einer Dual-Path-Pipeline mit separaten Zeitschritt-Einbettungen für die Rauschplanung und zeigt eine starke Anpassungsfähigkeit an diverse Konditionierungssignale. Umfangreiche Experimente belegen, dass unsere Methode vielversprechende Ergebnisse bei der kontrollierbaren Videogenerierung und -bearbeitung liefert, obwohl sie nur mit minimalem Training auf 2D-Bilddaten auskommt. Der Code ist verfügbar unter https://github.com/Lexie-YU/ViFeEdit.

POLCA: Stochastische generative Optimierung mit LLM
POLCA: Stochastic Generative Optimization with LLM

Mar 16

ByXuanfei Ren, Allen Nie, Tengyang Xie, Ching-An Cheng

Die Optimierung komplexer Systeme, von LLM-Prompts bis hin zu Multi-Turn-Agenten, erfordert traditionell arbeitsintensive manuelle Iterationen. Wir formalisieren diese Herausforderung als ein stochastisches generatives Optimierungsproblem, bei dem ein generatives Sprachmodell als Optimierer agiert und durch numerische Belohnungen und Textfeedback geleitet wird, um das beste System zu finden. Wir stellen Prioritized Optimization with Local Contextual Aggregation (POLCA) vor, einen skalierbaren Rahmen, der entwickelt wurde, um Stochastizität in der Optimierung – wie verrauschtes Feedback, Stichproben-Minibatches und stochastisches Systemverhalten – zu handhaben und gleichzeitig die unkontrollierte Ausweitung des Lösungsraums effektiv zu verwalten. POLCA verwaltet eine Prioritätswarteschlange, um den Trade-off zwischen Exploration und Exploitation zu steuern, und verfolgt systematisch Kandidatenlösungen sowie deren Bewertungshistorien. Um die Effizienz zu steigern, integrieren wir einen ε-Net-Mechanismus zur Aufrechterhaltung der Parameterdiversität und einen LLM-Summarizer zur Durchführung von Meta-Learning über historische Versuche hinweg. Wir beweisen theoretisch, dass POLCA unter Stochastizität gegen nahezu optimale Kandidatenlösungen konvergiert. Wir evaluieren unseren Rahmen anhand diverser Benchmarks, darunter τ-bench, HotpotQA (Agentenoptimierung), VeriBench (Code-Übersetzung) und KernelBench (CUDA-Kernel-Generierung). Experimentelle Ergebnisse zeigen, dass POLCA eine robuste, proben- und zeiteffiziente Leistung erzielt und durchgängig state-of-the-art Algorithmen bei deterministischen und stochastischen Problemen übertrifft. Die Codebasis für diese Arbeit ist öffentlich unter https://github.com/rlx-lab/POLCA verfügbar.

EvoClaw: Bewertung von KI-Agenten für kontinuierliche Softwareevolution
EvoClaw: Evaluating AI Agents on Continuous Software Evolution

Mar 13

ByGangda Deng, Zhaoling Chen, Zhongming Yu, Haoyang Fan, Yuhong Liu, Yuxin Yang, Dhruv Parikh, Rajgopal Kannan, Le Cong, Mengdi Wang, Qian Zhang, Viktor Prasanna, Xiangru Tang, Xingyao Wang

Mit der zunehmenden Verbreitung von KI-Agenten als langlaufende Systeme wird es unerlässlich, autonom angepasste Software zu konstruieren und kontinuierlich weiterzuentwickeln, um Interaktionen in dynamischen Umgebungen zu ermöglichen. Bisherige Benchmarks bewerten Agenten jedoch anhand isolierter, einmaliger Programmieraufgaben und vernachlässigen dabei die zeitlichen Abhängigkeiten und die technische Schuld, die der Evolution realer Software inhärent sind. Um diese Lücke zu schließen, stellen wir DeepCommit vor: eine agentenbasierte Pipeline, die verifizierbare Meilenstein-DAGs aus verrauschten Commit-Logs rekonstruiert, wobei Meilensteine als semantisch kohäsive Entwicklungsziele definiert sind. Diese ausführbaren Sequenzen ermöglichen EvoClaw, einen neuartigen Benchmark, der von Agenten verlangt, die Systemintegrität aufrechtzuerhalten und die Fehlerakkumulation zu begrenzen – Dimensionen langfristiger Softwareevolution, die in aktuellen Benchmarks weitgehend fehlen. Unsere Evaluation von 12 Frontier-Modellen über 4 Agenten-Frameworks hinweg offenbart eine kritische Schwachstelle: Die Gesamtleistungswerte fallen signifikant von >80 % bei isolierten Aufgaben auf höchstens 38 % in kontinuierlichen Szenarien ab, was das erhebliche Unvermögen der Agenten im Umgang mit langfristiger Wartung und Fehlerfortpflanzung aufzeigt.

WebVR: Benchmarking multimodaler LLMs zur Webseiten-Rekreation aus Videos mittels human-aligned visueller Bewertungskriterien
WebVR: Benchmarking Multimodal LLMs for WebPage Recreation from Videos via Human-Aligned Visual Rubrics

Mar 11

ByYuhong Dai, Yanlin Lai, Mitt Huang, Hangyu Guo, Dingming Li, Hongbo Peng, Haodong Li, Yingxiu Zhao, Haoran Lyu, Zheng Ge, Xiangyu Zhang, Daxin Jiang

Bestehende Benchmarks für Webseiten-Generierung verwenden Textprompts oder statische Screenshots als Eingabe. Videos hingegen vermitteln natürlicherweise reichhaltigere Signale wie Interaktionsabläufe, Übergangszeitpunkte und Bewegungsflüssigkeit, die für die originalgetreue Nachbildung von Webseiten entscheidend sind. Trotz dieses Potenzials bleibt die videobasierte Webseiten-Generierung weitgehend unerforscht, da es keinen speziellen Benchmark für diese Aufgabe gibt. Um diese Lücke zu schließen, stellen wir WebVR vor – einen Benchmark, der evaluiert, ob MLLMs Webseiten aus Demonstrationsvideos originalgetreu nachbilden können. WebVR umfasst 175 Webseiten aus verschiedenen Kategorien, die alle durch eine kontrollierte Synthese-Pipeline erstellt wurden, anstatt durch Web-Crawling. Dies gewährleistet abwechslungsreiche und realistische Demonstrationen ohne Überschneidungen mit bestehenden Online-Seiten. Zusätzlich entwickeln wir einen detaillierten, menschlich abgestimmten Bewertungsmaßstab, der die generierten Webseiten in mehreren Dimensionen evaluiert. Experimente mit 19 Modellen zeigen erhebliche Defizite bei der Nachbildung fein abgestimmter Stilelemente und Bewegungsqualität, während die automatisierte Bewertung basierend auf unserem Maßstab eine 96%ige Übereinstimmung mit menschlichen Präferenzen erreicht. Wir veröffentlichen den Datensatz, das Evaluationstoolkit und Baseline-Ergebnisse, um zukünftige Forschung zur Video-zu-Webseite-Generierung zu unterstützen.

TERMINATOR: Erlernen optimaler Austrittspunkte für frühzeitiges Stoppen in Chain-of-Thought-Reasoning
TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning

Mar 13

ByAlliot Nagle, Jakhongir Saydaliev, Dhia Garbaya, Michael Gastpar, Ashok Vardhan Makkuva, Hyeji Kim

Große Reasoning-Modelle (LRMs) erzielen beeindruckende Leistungen bei komplexen Reasoning-Aufgaben durch Chain-of-Thought (CoT)-Reasoning, das es ihnen ermöglicht, Zwischendenkschritte zu generieren, bevor sie zur endgültigen Antwort gelangen. Allerdings neigen LRMs oft zu erheblichem „Overthinking“, indem sie übermäßig viel Rechenzeit aufwenden, selbst nachdem die Antwort bereits früh generiert wurde. Frühere Arbeiten haben die Existenz einer optimalen Reasoning-Länge identifiziert, bei deren Trunkierung die CoT-Ausgaben deutlich verkürzt werden können, ohne dass sich die Leistung praktisch ändert. Die Bestimmung optimaler CoT-Längen für praktische Datensätze ist jedoch höchst anspruchsvoll, da diese vollständig aufgaben- und modellabhängig sind. In diesem Beitrag gehen wir genau dieses Problem an und entwerfen TERMINATOR, eine Early-Exit-Strategie für LRMs während der Inferenz, um Overthinking zu mildern. Die zentrale Idee von TERMINATOR ist, dass die erste Generierung der endgültigen Antwort eines LRMs oft vorhersagbar ist, und wir nutzen diese ersten Antwortpositionen, um einen neuartigen Datensatz optimaler Reasoning-Längen zum Training von TERMINATOR zu erstellen. Durch diesen Ansatz erreicht TERMINATOR signifikante Verkürzungen der CoT-Längen um durchschnittlich 14 %–55 % über vier anspruchsvolle praktische Datensätze hinweg: MATH-500, AIME 2025, HumanEval und GPQA, wobei er gleichzeitig aktuelle state-of-the-art Methoden übertrifft.

Motivation in großen Sprachmodellen
Motivation in Large Language Models

Mar 15

ByOmer Nahum, Asael Sklar, Ariel Goldstein, Roi Reichart

Motivation ist ein zentraler Antrieb menschlichen Verhaltens, der Entscheidungen, Ziele und Aufgabenleistung prägt. Da große Sprachmodelle (LLMs) zunehmend mit menschlichen Präferenzen abgeglichen werden, stellen wir die Frage, ob sie so etwas wie Motivation aufweisen. Wir untersuchen, ob LLMs unterschiedliche Motivationsniveaus "berichten", wie diese Berichte mit ihrem Verhalten zusammenhängen und ob externe Faktoren sie beeinflussen können. Unsere Experimente zeigen konsistente und strukturierte Muster, die der menschlichen Psychologie ähneln: Die selbstberichtete Motivation steht im Einklang mit verschiedenen Verhaltenssignaturen, variiert je nach Aufgabentyp und kann durch externe Manipulationen moduliert werden. Diese Ergebnisse demonstrieren, dass Motivation ein kohärenter, organisierender Konstrukt für das Verhalten von LLMs ist, das Berichte, Entscheidungen, Anstrengung und Leistung systematisch verbindet und motivationale Dynamiken offenbart, die denen in der menschlichen Psychologie gleichen. Diese Perspektive vertieft unser Verständnis des Modellverhaltens und seiner Verbindung zu menscheninspirierten Konzepten.

Mach es SING: Analyse semantischer Invarianten in Klassifikatoren
Make it SING: Analyzing Semantic Invariants in Classifiers

Mar 15

ByHarel Yadid, Meir Yossef Levi, Roy Betser, Guy Gilboa

Alle Klassifikatoren, einschließlich modernster Bildverarbeitungsmodelle, besitzen Invarianten, die teilweise in der Geometrie ihrer linearen Abbildungen begründet sind. Diese Invarianten, die im Nullraum des Klassifikators liegen, induzieren äquivalente Eingabemengen, die auf identische Ausgaben abgebildet werden. Der semantische Gehalt dieser Invarianten bleibt vage, da bestehende Ansätze Schwierigkeiten haben, menscheninterpretierbare Informationen bereitzustellen. Um diese Lücke zu schließen, stellen wir SING (Semantic Interpretation of the Null-space Geometry) vor, eine Methode, die in Bezug auf das Netzwerk äquivalente Bilder konstruiert und den verfügbaren Variationen semantische Interpretationen zuweist. Wir verwenden eine Abbildung von Netzwerkfeatures zu multimodalen Vision-Language-Modellen. Dies ermöglicht es uns, natürliche Sprachbeschreibungen und visuelle Beispiele der induzierten semantischen Verschiebungen zu erhalten. SING kann auf ein einzelnes Bild angewendet werden, um lokale Invarianten aufzudecken, oder auf Bildersets, was eine breite statistische Analyse auf Klassen- und Modellebene ermöglicht. So zeigt unsere Methode beispielsweise, dass ResNet50 relevante semantische Attribute in den Nullraum "leakt", während DinoViT, ein mit selbstüberwachtem DINO vortrainierter ViT, überlegen darin ist, Klassensemantik über den invarianten Raum hinweg beizubehalten.

MMOU: Ein umfassender Benchmark für massives Multi-Task-Omni-Verständnis und -Argumentation für lange und komplexe Videos aus der realen Welt
MMOU: A Massive Multi-Task Omni Understanding and Reasoning Benchmark for Long and Complex Real-World Videos

Mar 14

ByArushi Goel, Sreyan Ghosh, Vatsal Agarwal, Nishit Anand, Kaousheik Jayakumar, Lasha Koroshinadze, Yao Xu, Katie Lyons, James Case, Karan Sapra, Kevin J. Shih, Siddharth Gururani, Abhinav Shrivastava, Ramani Duraiswami, Dinesh Manocha, Andrew Tao, Bryan Catanzaro, Mohammad Shoeybi, Wei Ping

Multimodale Large Language Models (MLLMs) haben bei isolierter Betrachtung eine starke Leistung im Verständnis visueller und auditiver Inhalte gezeigt. Ihre Fähigkeit, omni-modale (visuelle, auditive und textuelle) Signale in langen und komplexen Videos gemeinsam zu verarbeiten, ist jedoch weitgehend unerforscht. Wir stellen MMOU vor, einen neuen Benchmark, der entwickelt wurde, um multimodales Verständnis und Schlussfolgerungen unter diesen anspruchsvellen, realen Bedingungen systematisch zu bewerten. MMOU besteht aus 15.000 sorgfältig zusammengestellten Fragen, die 9038 aus dem Internet stammenden Videos unterschiedlicher Länge zugeordnet sind. Diese Videos umfassen diverse Domänen und weisen einen reichen, eng gekoppelten audiovisuellen Inhalt auf. Der Benchmark deckt 13 grundlegende Fähigkeitskategorien ab, die alle die Integration von Informationen über Modalitäten und Zeit hinweg erfordern. Alle Fragen wurden von professionellen Annotatoren in mehreren Durchgängen manuell annotiert, um hohe Qualität und Schlussfolgerungstreue zu gewährleisten. Wir evaluieren mehr als 20 state-of-the-art, open-source und proprietäre multimodale Modelle mit MMOU. Die Ergebnisse zeigen erhebliche Leistungslücken: Das beste Closed-Source-Modell erreicht nur 64,2 % Genauigkeit, während das stärkste Open-Source-Modell lediglich auf 46,8 % kommt. Unsere Ergebnisse unterstreichen die Herausforderungen des langformatigen omni-modalen Verstehens und zeigen, dass aktuelle Modelle häufig scheitern, selbst grundlegende Fähigkeiten in langen Videos anzuwenden. Durch eine detaillierte Analyse identifizieren wir weiterhin systematische Fehlermodi und liefern Einblicke darin, wo und warum aktuelle Modelle versagen.

Verstehen von Argumentationsfähigkeiten in LLMs durch strategische Informationsallokation unter Unsicherheit
Understanding Reasoning in LLMs through Strategic Information Allocation under Uncertainty

Mar 16

ByJeonghye Kim, Xufang Luo, Minbeom Kim, Sangmook Lee, Dongsheng Li, Yuqing Yang

Große Sprachmodelle zeigen oft Aha-Momente während des Schlussfolgerns, etwa scheinbare Selbstkorrekturen nach Tokens wie "Moment", doch ihre zugrundeliegenden Mechanismen bleiben unklar. Wir stellen ein informationstheoretisches Rahmenwerk vor, das Schlussfolgern in prozedurale Information und epistemische Verbalisierung zerlegt – die explizite Externalisierung von Unsicherheit, die nachgelagerte Steuerungsaktionen unterstützt. Wir zeigen, dass rein prozedurales Schlussfolgern informationell stagnieren kann, während epistemische Verbalisierung fortgesetzten Informationserwerb ermöglicht und entscheidend für das Erreichen von Informationssuffizienz ist. Empirische Ergebnisse belegen, dass starke Schlussfolgerungsleistung durch Unsicherheitsexternalisierung und nicht durch spezifische Oberflächentokens angetrieben wird. Unser Rahmenwerk vereint frühere Erkenntnisse zu Aha-Momenten und Post-Training-Experimenten und bietet Einblicke für die zukünftige Gestaltung von Schlussfolgerungsmodellen.

Riemannsche Bewegungsgenerierung: Ein einheitliches Rahmenwerk für die Repräsentation und Erzeugung menschlicher Bewegung mittels Riemannschem Flow Matching
Riemannian Motion Generation: A Unified Framework for Human Motion Representation and Generation via Riemannian Flow Matching

Mar 16

ByFangran Miao, Jian Huang, Ting Li

Die Erzeugung menschlicher Bewegungen wird häufig in euklidischen Räumen erlernt, obwohl gültige Bewegungen einer strukturierten nichteuklidischen Geometrie folgen. Wir stellen Riemannian Motion Generation (RMG) vor, einen einheitlichen Rahmen, der Bewegung auf einem Produktmannigfaltigkeit abbildet und Dynamik mittels Riemannian Flow Matching erlernt. RMG faktorisiert Bewegung in mehrere Mannigfaltigkeitsfaktoren, was eine skalierungsfreie Darstellung mit intrinsischer Normalisierung ergibt, und nutzt geodätische Interpolation, Tangentialraum-Supervision und mannigfaltigkeitserhaltende ODE-Integration für Training und Abtastung. Auf HumanML3D erreicht RMG state-of-the-art FID im HumanML3D-Format (0,043) und belegt in allen berichteten Metriken unter dem MotionStreamer-Format den ersten Platz. Auf MotionMillion übertrifft es ebenfalls starke Baselines (FID 5,6, R@1 0,86). Ablationstudien zeigen, dass die kompakte T+R (Translation + Rotationen) Darstellung die stabilste und effektivste ist, was geometrie-bewusste Modellierung als praktischen und skalierbaren Weg zur hochwertigen Bewegungserzeugung hervorhebt.

Code-A1: Adversarielle Entwicklung von Code-LLM und Test-LLM durch Reinforcement Learning
Code-A1: Adversarial Evolving of Code LLM and Test LLM via Reinforcement Learning

Mar 16

ByAozhe Wang, Yuchen Yan, Nan Zhou, Zhengxi Lu, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen

Verstärkendes Lernen für Code-Generierung basiert auf verifizierbaren Belohnungen durch Unit-Test-Bestandsquoten. Hochwertige Test-Suiten sind jedoch rar, bestehende Datensätze bieten nur begrenzte Abdeckung, und statische Belohnungen passen sich nicht an verbesserte Modelle an. Neuere Self-Play-Methoden vereinen Code- und Testgenerierung in einem einzigen Modell, stehen jedoch vor einem grundsätzlichen Dilemma: White-Box-Zugang führt zu Selbstkollusion, bei der das Modell triviale Tests für einfache Belohnungen erzeugt, während Black-Box-Beschränkung generische Tests liefert, die implementierungsspezifische Fehler verpassen. Wir stellen Code-AI vor, einen adversariellen Ko-Evolutionsrahmen, der gemeinsam ein Code-LLM und ein Test-LLM mit entgegengesetzten Zielen optimiert. Das Code-LLM wird dafür belohnt, mehr Tests zu bestehen, während das Test-LLM belohnt wird, wenn es mehr Defekte aufdeckt. Diese architektonische Trennung beseitigt Selbstkollusionsrisiken und ermöglicht sicher White-Box-Testgenerierung, bei der das Test-LLM Kandidatencode inspizieren kann, um gezielte adversarielle Tests zu entwerfen. Wir führen weiterhin einen Fehlerbuch-Mechanismus für Experience Replay sowie eine zusammengesetzte Belohnungsfunktion ein, die Testvalidität mit adversarieller Schwierigkeit abwägt. Experimente mit Qwen2.5-Coder-Modellen zeigen, dass Code-AI eine Code-Generierungsleistung erreicht, die mit Modellen vergleichbar oder überlegen ist, die mit menschlich annotierten Tests trainiert wurden, und gleichzeitig die Testgenerierungsfähigkeit signifikant verbessert.

Überwachtes Fein-Tuning versus Reinforcement Learning: Eine Untersuchung von Nachtrainierungsmethoden für große Sprachmodelle
Supervised Fine-Tuning versus Reinforcement Learning: A Study of Post-Training Methods for Large Language Models

Mar 14

ByHaitao Jiang, Wenbo Zhang, Jiarui Yao, Hengrui Cai, Sheng Wang, Rui Song

Vortrainierte große Sprachmodelle (Large Language Models, LLM) weisen breite Fähigkeiten auf, doch für spezifische Aufgaben oder Domänen hängt das Erreichen höherer Genauigkeit und zuverlässigerer Schlussfolgerungen im Allgemeinen von einer Nachtrainierung durch Supervised Fine-Tuning (SFT) oder Reinforcement Learning (RL) ab. Obwohl sie oft als eigenständige Methoden betrachtet werden, zeigen jüngste theoretische und empirische Entwicklungen, dass SFT und RL eng miteinander verbunden sind. Diese Studie bietet eine umfassende und vereinheitlichte Perspektive auf die Nachtrainierung von LLMs mit SFT und RL. Zunächst geben wir einen detaillierten Überblick über beide Techniken und untersuchen ihre Ziele, algorithmischen Strukturen und Datenanforderungen. Anschließend analysieren wir systematisch ihr Zusammenspiel, betonen Frameworks, die SFT und RL integrieren, hybride Trainingspipelines und Methoden, die ihre komplementären Stärken nutzen. Gestützt auf einen repräsentativen Satz aktueller Anwendungsstudien aus den Jahren 2023 bis 2025 identifizieren wir aufkommende Trends, charakterisieren die rasante Hinwendung zu hybriden Nachtrainierungs-Paradigmen und destillieren zentrale Erkenntnisse, die klären, wann und warum jede Methode am effektivsten ist. Durch die Synthese theoretischer Einsichten, praktischer Methoden und empirischer Belege schafft diese Studie ein kohärentes Verständnis von SFT und RL innerhalb eines einheitlichen Rahmens und skizziert vielversprechende Richtungen für zukünftige Forschung in skalierbarer, effizienter und generalisierbarer LLM-Nachtrainierung.

Die PokeAgent-Herausforderung: Wettbewerbsorientiertes und kontextlanges Lernen im großen Maßstab
The PokeAgent Challenge: Competitive and Long-Context Learning at Scale

Mar 16

BySeth Karten, Jake Grigsby, Tersoo Upaa, Junik Bae, Seonghun Hong, Hyunyoung Jeong, Jaeyoon Jung, Kun Kerdthaisong, Gyungbo Kim, Hyeokgi Kim, Yujin Kim, Eunju Kwon, Dongyu Liu, Patrick Mariglia, Sangyeon Park, Benedikt Schink, Xianwei Shi, Anthony Sistilli, Joseph Twin, Arian Urdu, Matin Urdu, Qiao Wang, Ling Wu, Wenli Zhang, Kunsheng Zhou, Stephanie Milani, Kiran Vodrahalli, Amy Zhang, Fei Fang, Yuke Zhu, Chi Jin

Wir stellen die PokeAgent Challenge vor, einen umfangreichen Benchmark für die Entscheidungsforschung, der auf Pokémons Multi-Agenten-Kampfsystem und umfassender Rollenspielumgebung (RPG) aufbaut. Partielle Beobachtbarkeit, spieltheoretisches Denken und langfristige Planung bleiben ungelöste Probleme für die Spitzen-KI, doch nur wenige Benchmarks testen alle drei Aspekte gleichzeitig unter realistischen Bedingungen. PokeAgent adressiert diese Einschränkungen im großen Maßstab durch zwei komplementäre Wettbewerbsbereiche: unseren Kampfbereich, der strategisches Denken und Generalisierung unter partieller Beobachtbarkeit in kompetitiven Pokémon-Kämpfen erfordert, und unseren Speedrunning-Bereich, der langfristige Planung und sequenzielle Entscheidungsfindung im Pokémon-RPG voraussetzt. Unser Kampfbereich liefert einen Datensatz mit über 20 Millionen Kampfverläufen sowie eine Reihe von heuristischen, reinforcement-basierten und LLM-gestützten Baseline-Modellen, die wettbewerbsfähiges Spiel auf hohem Niveau ermöglichen. Unser Speedrunning-Bereich bietet den ersten standardisierten Evaluierungsrahmen für RPG-Speedrunning, inklusive eines Open-Source-Multi-Agenten-Orchestrierungssystems für modulare, reproduzierbare Vergleiche von LLM-Ansätzen. Unser NeurIPS-2025-Wettbewerb validiert sowohl die Qualität unserer Ressourcen als auch das Forschungsinteresse an Pokémon, mit über 100 teilnehmenden Teams in beiden Bereichen und detaillierten Beschreibungen der Siegerlösungen in unserem Beitrag. Die Einreichungen der Teilnehmer und unsere Baselines zeigen erhebliche Lücken zwischen generalistischen (LLM), spezialisierten (RL) und menschlichen Spitzenleistungen auf. Analysen mit der BenchPress-Evaluierungsmatrix zeigen, dass Pokémon-Kämpfe nahezu orthogonal zu standardmäßigen LLM-Benchmarks sind, Fähigkeiten messen, die von bestehenden Testreihen nicht erfasst werden, und Pokémon als ungelösten Benchmark positionieren, der die RL- und LLM-Forschung vorantreiben kann. Wir etablieren einen lebendigen Benchmark mit einer Live-Bestenliste für den Kampfbereich und einer eigenständigen Evaluierung für den Speedrunning-Bereich unter https://pokeagentchallenge.com.

FineRMoE: Dimensionserweiterung für granularere Experten mittels eines Upcycling-Ansatzes
FineRMoE: Dimension Expansion for Finer-Grained Expert with Its Upcycling Approach

Mar 9

ByNing Liao, Xiaoxing Wang, Xiaohan Qin, Junchi Yan

Wie das Skalierungsgesetz für feinkörnige MoE-Systeme zeigt, verbessert sich die Modellleistung nicht mehr, sobald die Granularität der Zwischendimension den optimalen Schwellenwert überschreitet, was den weiteren Nutzen von feinkörnigen Designs in nur einer Dimension begrenzt. Um diesen Engpass zu überwinden, schlagen wir FineRMoE (FineR-Grained MoE) vor – eine Architektur, die das feinkörnige Experten-Design auf sowohl Zwischen- als auch Ausgabedimensionen ausdehnt, um die Expertenspezialisierung über die Ein-Dimension-Grenze hinaus zu steigern. Wir führen weiterhin ein zweistufiges sparsames Vorwärtsberechnungs-Paradigma und einen spezialisierten Routing-Mechanismus ein, um die Aktivierung zu steuern. Zusätzlich entwickeln wir, um die prohibitiv hohen Kosten für das Training von FineRMoE von Grund auf zu vermeiden, eine generalisierte Upcycling-Methode für einen kosteneffizienten Aufbau von FineRMoE. Umfangreiche Experimente belegen die überlegene Leistung von FineRMoE in zehn Standard-Benchmarks. Im Vergleich zur stärksten Baseline erzielt FineRMoE eine 6-fach höhere Parameter-Effizienz, eine 281-fach geringere Prefill-Latenz und einen 136-fach höheren Durchsatz beim Dekodieren während des Inferenzvorgangs.

Panoramische Affordanzvorhersage
Panoramic Affordance Prediction

Mar 16

ByZixin Zhang, Chenfei Liao, Hongfei Zhang, Harold Haodong Chen, Kanghao Chen, Zichen Wen, Litao Guo, Bin Ren, Xu Zheng, Yinchuan Li, Xuming Hu, Nicu Sebe, Ying-Cong Chen

Die Affordance-Vorhersage dient als entscheidende Brücke zwischen Wahrnehmung und Handlung in verkörpertter KI. Bisherige Forschung beschränkt sich jedoch auf Lochkameramodelle, die unter eingeschränkten Sichtfeldern und fragmentierten Beobachtungen leiden, wodurch häufig kritische ganzheitliche Umweltkontexte verloren gehen. In dieser Arbeit präsentieren wir die erste Untersuchung zur panoramischen Affordance-Vorhersage unter Verwendung von 360-Grad-Bildern, um globale räumliche Beziehungen und ein holistisches Szenenverständnis zu erfassen. Um diese neuartige Aufgabe zu ermöglichen, führen wir zunächst PAP-12K ein, einen groß angelegten Benchmark-Datensatz mit über 1.000 ultrahochauflösenden (12k, 11904 x 5952) Panoramabildern, die mehr als 12.000 sorgfältig annotierte QA-Paare und Affordance-Masken enthalten. Darüber hinaus schlagen wir PAP vor, eine trainingsfreie, grob-zu-fein-Pipeline, inspiriert vom menschlichen fovealen Sehsystem, um die ultrahohe Auflösung und starken Verzerrungen von Panoramabildern zu bewältigen. PAP nutzt rekursives visuelles Routing durch Grid-Prompting zur schrittweisen Zielortung, wendet einen adaptiven Blickmechanismus zur Korrektur lokaler geometrischer Verzerrungen an und verwendet eine kaskadierte Grounding-Pipeline zur Extraktion präziser instanzbasierter Masken. Experimentelle Ergebnisse auf PAP-12K zeigen, dass bestehende Affordance-Vorhersagemethoden für Standard-Perspektivbilder aufgrund der einzigartigen Herausforderungen der Panoramavision unter erheblichen Leistungseinbußen leiden und versagen. Im Gegensatz dazu überwindet der PAP-Rahmen diese Hindernisse effektiv, übertrifft state-of-the-art Baseline-Methoden deutlich und unterstreicht das immense Potenzial der Panoramawahrnehmung für robuste verkörperte Intelligenz.

Training-freie Erkennung generierter Videos mittels räumlich-zeitlicher Likelihoods
Training-free Detection of Generated Videos via Spatial-Temporal Likelihoods

Mar 16

ByOmer Ben Hayun, Roy Betser, Meir Yossef Levi, Levi Kassel, Guy Gilboa

Nach bedeutenden Fortschritten in der Text- und Bildgenerierung hat der Videobereich einen Aufschwung erlebt, der hochrealistische und steuerbare Sequenzen hervorbringt. Parallel zu diesen Entwicklungen werfen diese Modelle auch ernsthafte Bedenken hinsichtlich Fehlinformationen auf, was eine zuverlässige Erkennung synthetischer Videos zunehmend entscheidend macht. Bildbasierte Detektoren sind grundlegend limitiert, da sie pro Frame arbeiten und zeitliche Dynamiken ignorieren, während überwachte Video-Detektoren nur schlecht auf unbekannte Generatoren verallgemeinern – ein kritischer Nachteil angesichts der rasanten Entwicklung neuer Modelle. Diese Herausforderungen motivieren Zero-Shot-Ansätze, die synthetische Daten vermeiden und stattdessen Inhalte anhand von Statistiken echter Daten bewerten, was trainingsfreie, modellagnostische Erkennung ermöglicht. Wir stellen STALL vor, einen einfachen, trainingsfreien, theoretisch fundierten Detektor, der eine likelihood-basierte Bewertung für Videos bereitstellt und räumliche sowie zeitliche Evidenz innerhalb eines probabilistischen Frameworks gemeinsam modelliert. Wir evaluieren STALL anhand zweier öffentlicher Benchmarks und führen ComGenVid ein, einen neuen Benchmark mit modernsten generativen Modellen. STALL übertrifft durchgängig bisherige bild- und videobasierte Baseline-Methoden. Code und Daten sind unter https://omerbenhayun.github.io/stall-video verfügbar.

Lernen latenter Stellvertreter für kontrollierbare Einzelbild-Neubeleuchtung
Learning Latent Proxies for Controllable Single-Image Relighting

Mar 16

ByHaoze Zheng, Zihao Wang, Xianfeng Wu, Yajing Bai, Yexin Liu, Yun Li, Xiaogang Xu, Harry Yang

Einzelbildbeleuchtung ist hochgradig unterbestimmt: Kleine Beleuchtungsänderungen können große, nichtlineare Variationen in Schattierung, Schatten und Spiegelungen verursachen, während Geometrie und Materialien unbeobachtet bleiben. Bestehende diffusionsbasierte Ansätze verlassen sich entweder auf Intrinsic- oder G-Buffer-Pipelines, die dichte und anfällige Supervision erfordern, oder operieren rein im latenten Raum ohne physikalische Grundlage, was eine feinkörnige Steuerung von Richtung, Intensität und Farbe unzuverlässig macht. Wir beobachten, dass eine vollständige Intrinsic-Zerlegung für präzise Neubeleuchtung unnötig und redundant ist. Stattdessen sind sparsame, aber physikalisch aussagekräftige Hinweise, die anzeigen, wo sich die Beleuchtung ändern soll und wie Materialien reagieren sollten, ausreichend, um ein Diffusionsmodell zu führen. Basierend auf dieser Erkenntnis führen wir LightCtrl ein, das physikalische Priori auf zwei Ebenen integriert: einen Few-Shot-latenten Proxy-Encoder, der kompakte Material-Geometrie-Hinweise aus begrenzter PBR-Supervision extrahiert, und eine beleuchtungssensitive Maske, die empfindliche Beleuchtungsregionen identifiziert und den Denoiser zu schattierungsrelevanten Pixeln lenkt. Um knappe PBR-Daten auszugleichen, verfeinern wir den Proxy-Zweig mit einem DPO-basierten Ziel, das physikalische Konsistenz in den vorhergesagten Hinweisen erzwingt. Wir stellen außerdem ScaLight vor, einen großflächigen Objektdatensatz mit systematisch variierter Beleuchtung und vollständigen Kamera-Licht-Metadaten, der physikalisch konsistentes und kontrollierbares Training ermöglicht. In Objekt- und Szenenbenchmarks erreicht unsere Methode photometrisch präzise Neubeleuchtung mit akkurater kontinuierlicher Steuerung und übertrifft bisherige Diffusions- und Intrinsic-basierte Baseline-Methoden, einschließlich Steigerungen von bis zu +2,4 dB PSNR und 35 % niedrigerem RMSE bei kontrollierten Beleuchtungsänderungen.

RS-WorldModel: Ein universelles Modell für Fernerkundungsverständnis und Vorhersage zukünftiger Zustände
RS-WorldModel: a Unified Model for Remote Sensing Understanding and Future Sense Forecasting

Mar 16

ByLinrui Xu, Zhongan Wang, Fei Shen, Gang Xu, Huiping Zhuang, Ming Li, Haifeng Li

Fernerkundungs-Weltmodelle zielen darauf ab, sowohl beobachtete Veränderungen zu erklären als auch plausible Zukunftszenarien vorherzusagen – zwei Aufgaben, die räumlich-zeitliche A-priori-Informationen teilen. Bisherige Methoden behandeln diese Aufgaben jedoch typischerweise separat, was den transfer zwischen den Aufgaben limitiert. Wir stellen RS-WorldModel vor, ein einheitliches Weltmodell für die Fernerkundung, das sowohl das Verständnis räumlich-zeitlicher Veränderungen als auch die textgesteuerte Vorhersage zukünftiger Szenen gemeinsam bewältigt. Zudem stellen wir RSWBench-1.1M vor, einen Datensatz mit 1,1 Millionen Einträgen und umfangreichen Sprachannotationen, der beide Aufgaben abdeckt. RS-WorldModel wird in drei Stufen trainiert: (1) Geo-Aware Generative Pre-training (GAGP) konditioniert die Vorhersage auf geografische und Aufnahmemetadaten; (2) Synergistic Instruction Tuning (SIT) trainiert Verständnis und Vorhersage gemeinsam; (3) Verifiable Reinforcement Optimization (VRO) verfeinert die Ausgaben mit überprüfbaren, aufgabenspezifischen Belohnungen. Mit nur 2B Parametern übertrifft RS-WorldModel Open-Source-Modelle, die bis zu 120-mal größer sind, in den meisten Metriken für räumlich-zeitliche Frage-Antwort-Aufgaben. Es erreicht einen FID-Wert von 43,13 bei der textgesteuerten Vorhersage zukünftiger Szenen und übertrifft damit alle Open-Source-Baselines sowie das Closed-Source-Modell Gemini-2.5-Flash Image (Nano Banana).

HorizonMath: Messung des KI-Fortschritts bei mathematischen Entdeckungen mit automatischer Verifizierung
HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification

Mar 16

ByErik Y. Wang, Sumeet Motwani, James V. Roggeveen, Eliot Hodges, Dulhan Jayalath, Charles London, Kalyan Ramakrishnan, Flaviu Cipcigan, Philip Torr, Alessandro Abate

Kann KI bei wichtigen, ungelösten mathematischen Problemen Fortschritte erzielen? Große Sprachmodelle sind heute zu anspruchsvollem mathematischen und wissenschaftlichen Denken fähig, aber ob sie neuartige Forschung betreiben können, wird nach wie vor breit diskutiert und ist unzureichend erforscht. Wir stellen HorizonMath vor, einen Benchmark mit über 100 vorwiegend ungelösten Problemen aus acht Bereichen der computergestützten und angewandten Mathematik, kombiniert mit einem Open-Source-Evaluierungsframework für automatische Verifikation. Unser Benchmark zielt auf eine Problemklasse ab, bei der Entdeckung schwierig ist und bedeutungsvolle mathematische Einsicht erfordert, die Verifikation jedoch recheneffizient und einfach ist. Da diese Lösungen unbekannt sind, ist HorizonMath immun gegen Datenkontamination, und die meisten modernsten Modelle erzielen Ergebnisse nahe 0 %. Bestehende Forschungs-Benchmarks verlassen sich stattdessen auf formale Beweisverifikation oder manuelle Überprüfung, die beide in der Skalierung kostspielig sind. Mit dieser Plattform finden wir zwei Probleme, für die GPT 5.4 Pro Lösungen vorschlägt, die die besten publizierten Ergebnisse übertreffen und potenzielle neuartige Beiträge darstellen (vorbehaltlich Expertenüberprüfung). Wir veröffentlichen HorizonMath als eine offene Herausforderung und eine wachsende Community-Ressource, bei der korrekte Lösungen für Probleme in den ungelösten Problemklassen neuartige Ergebnisse in der mathematischen Literatur darstellen könnten.

VisionCoach: Verstärkung des geerdeten Video-Verstehens durch visuelle Wahrnehmungsaufforderung
VisionCoach: Reinforcing Grounded Video Reasoning via Visual-Perception Prompting

Mar 15

ByDaeun Lee, Shoubin Yu, Yue Zhang, Mohit Bansal

Video Reasoning erfordert von Modellen, dass sie fragerelevante Evidenzen über mehrere Frames hinweg lokalisieren und verfolgen. Obwohl Reinforcement Learning (RL) mit verifizierbaren Belohnungen die Genauigkeit verbessert, kämpft es nach wie vor mit zuverlässiger räumlich-zeitlicher Verankerung während des Reasoning-Prozesses. Darüber hinaus stützt sich die Verbesserung der Verankerung typischerweise auf skalierte Trainingsdaten oder Wahrnehmungswerkzeuge zur Inferenzzeit, was die Annotationskosten oder Rechenkosten erhöht. Um diese Herausforderung zu bewältigen, schlagen wir VisonCoach vor, ein eingabeadaptives RL-Framework, das die räumlich-zeitliche Verankerung durch visuelle Prompts als Trainingsleitfaden verbessert. Während des RL-Trainings werden visuelle Prompts selektiv auf anspruchsvolle Eingaben angewendet, um fragerelevante Evidenzen zu verstärken und Ablenkungen zu unterdrücken. Das Modell internalisiert diese Verbesserungen dann durch Selbst-Distillation, wodurch verankertes Reasoning direkt auf Rohvideos ohne visuelle Prompts zur Inferenzzeit ermöglicht wird. VisonCoach besteht aus zwei Komponenten: (1) einem Visuellen Prompt-Selektor, der geeignete Prompt-Typen basierend auf Video und Frage vorhersagt, und (2) einem Räumlich-Zeitlichen Reasoner, der mit RL unter visueller Prompt-Führung und objektbewussten Verankerungsbelohnungen optimiert wird, welche Objektidentitätskonsistenz und Überlappung mehrerer Begrenzungsrahmen erzwingen. Umfangreiche Experimente zeigen, dass VisonCoach unter vergleichbaren Bedingungen state-of-the-art Leistung über diverse Video-Reasoning-, Video-Understanding- und temporale Verankerungs-Benchmarks (V-STAR, VideoMME, World-Sense, VideoMMMU, PerceptionTest und Charades-STA) hinweg erreicht, während ein einzelner effizienter Inferenzpfad ohne externe Werkzeuge beibehalten wird. Unsere Ergebnisse zeigen, dass visuelle Prompts während des Trainings verankertes Video-Reasoning verbessern, während Selbst-Distillation es dem Modell ermöglicht, diese Fähigkeit zu internalisieren, ohne Prompts zur Inferenzzeit zu benötigen.

FlashMotion: Wenig-Schritt-steuerbare Videogenerierung mit Trajektorienführung
FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

Mar 12

ByQuanhao Li, Zhen Xing, Rui Wang, Haidong Cao, Qi Dai, Daoguo Dong, Zuxuan Wu

Jüngste Fortschritte bei der trajektoriensteuerbaren Videogenerierung haben bemerkenswerte Erfolge erzielt. Bisherige Methoden nutzen hauptsächlich Adapter-basierte Architekturen für eine präzise Bewegungskontrolle entlang vordefinierter Trajektorien. Allerdings stützen sich all diese Methoden auf einen mehrstufigen Denoising-Prozess, was zu erheblicher Zeitredundanz und hohem Rechenaufwand führt. Während bestehende Video-Distillationsverfahren mehrstufige Generatoren erfolgreich in wenige Schritte überführen können, führt eine direkte Anwendung dieser Ansätze auf die trajektoriensteuerbare Videogenerierung zu einer spürbaren Verschlechterung sowohl der Videoqualität als auch der Trajektoriengenauigkeit. Um diese Lücke zu schließen, stellen wir FlashMotion vor, ein neuartiges Trainingsframework, das für die wenige Schritte umfassende, trajektoriensteuerbare Videogenerierung konzipiert ist. Wir trainieren zunächst einen Trajektorien-Adapter auf einem mehrstufigen Videogenerator, um eine präzise Trajektorienkontrolle zu erreichen. Anschließend wird der Generator durch Distillation in eine Version mit wenigen Schritten überführt, um die Videogenerierung zu beschleunigen. Schließlich feintunen wir den Adapter mit einer Hybridstrategie, die Diffusions- und Adversarial-Ziele kombiniert, um ihn an den wenige Schritte umfassenden Generator anzupassen und hochwertige, trajektoriengetreue Videos zu erzeugen. Für die Evaluierung führen wir FlashBench ein, einen Benchmark für die trajektoriensteuerbare Videogenerierung langer Sequenzen, der sowohl die Videoqualität als auch die Trajektoriengenauigkeit bei variierender Anzahl von Vordergrundobjekten misst. Experimente mit zwei Adapter-Architekturen zeigen, dass FlashMotion sowohl bestehende Video-Distillationsmethoden als auch frühere mehrstufige Modelle in Bezug auf visuelle Qualität und Trajektorienkonsistenz übertrifft.

Wann mildert Sparsität den Fluch der Tiefe in großen Sprachmodellen?
When Does Sparsity Mitigate the Curse of Depth in LLMs

Mar 16

ByDilxat Muhtar, Xinyuan Song, Sebastian Pokutta, Max Zimmer, Nico Pelleriti, Thomas Hofmann, Shiwei Liu

Aktuelle Studien haben den Fluch der Tiefe in großen Sprachmodellen (LLMs) aufgezeigt, bei dem spätere Schichten weniger zum Lernen und zur Repräsentation beitragen als frühere Schichten. Diese Unterauslastung wird mit dem akkumulierten Anstieg der Varianz in Pre-Layer-Normalisierung in Verbindung gebracht, der tiefe Blöcke in Richtung eines nahezu identischen Verhaltens drängen kann. In dieser Arbeit zeigen wir, dass Sparsity – über Effizienzgewinne hinaus – als Regulator der Varianzausbreitung wirkt und dadurch die Tiefenauslastung verbessert. Unsere Untersuchung umfasst zwei Quellen von Sparsity: (i) implizite Sparsity, die aus Trainings- und Datenbedingungen entsteht, einschließlich Gewichtssparsity durch Weight Decay und Aufmerksamkeitssparsity durch lange Kontextinputs; und (ii) explizite Sparsity, die durch Architekturdesign erzwungen wird, einschließlich Key/Value-Sharing-Sparsity in Grouped-Query-Attention und Expert-Activation-Sparsity in Mixture-of-Experts. Unsere Behauptung wird umfassend durch kontrollierte Tiefenskalierexperimente und gezielte Eingriffe zur Schichteneffektivität gestützt. In allen Settings beobachten wir einen konsistenten Zusammenhang: Sparsity verbessert die Schichtenauslastung durch Reduzierung der Ausgangsvarianz und Förderung funktionaler Differenzierung. Letztlich fassen wir unsere Erkenntnisse in einer praktischen Faustregel für das Training tiefeneffektiver LLMs zusammen, die eine bemerkenswerte Verbesserung der Genauigkeit um 4,6 % bei Downstream-Aufgaben erzielt. Unsere Ergebnisse zeigen, dass Sparsity, die natürlich aus Standard-Designentscheidungen entsteht, ein bisher übersehener Schlüsselmechanismus für effektives Tiefenscaling in LLMs ist. Code ist verfügbar unter https://github.com/pUmpKin-Co/SparsityAndCoD.

Autonome Agenten koordinieren verteilte Entdeckung durch emergierenden Artefaktaustausch
Autonomous Agents Coordinating Distributed Discovery Through Emergent Artifact Exchange

Mar 15

ByFiona Y. Wang, Lee Marom, Subhadeep Pal, Rachel K. Luu, Wei Lu, Jaime A. Berkovich, Markus J. Buehler

Wir stellen ScienceClaw + Infinite vor, ein Framework für autonome wissenschaftliche Untersuchungen, in dem unabhängige Agenten Forschung ohne zentrale Koordination betreiben und jeder Mitwirkende neue Agenten in einem gemeinsamen Ökosystem bereitstellen kann. Das System basiert auf drei Komponenten: einer erweiterbaren Registrierung von über 300 interoperablen wissenschaftlichen Fähigkeiten, einer Artefaktschicht, die die vollständige computergestützte Herkunft als gerichteter azyklischer Graph (DAG) bewahrt, und einer strukturierten Plattform für agentenbasierte wissenschaftliche Diskurse mit nachverfolgungsbewusster Steuerung. Agenten wählen Werkzeuge basierend auf ihren wissenschaftlichen Profilen aus und verketten diese, erzeugen unveränderliche Artefakte mit typisierten Metadaten und Elternherkunft und senden unbefriedigte Informationsbedürfnisse an einen gemeinsamen globalen Index. Der ArtifactReactor ermöglicht planerlose Koordination: Gleichgestellte Agenten entdecken und erfüllen offene Bedürfnisse durch druckbasierte Bewertung, während Schemaüberschneidungsabgleich Mehrfacheltersynthese über unabhängige Analysen hinweg auslöst. Eine autonome Mutationsschicht beschneidet aktiv den expandierenden Artefakt-DAG, um konfligierende oder redundante Arbeitsabläufe aufzulösen, während persistenter Speicher es Agenten ermöglicht, kontinuierlich auf komplexen epistemischen Zuständen über mehrere Zyklen hinweg aufzubauen. Infinite wandelt diese Ausgaben durch strukturierte Beiträge, Herkunftsansichten und maschinenlesbare Diskursbeziehungen in überprüfbare wissenschaftliche Aufzeichnungen um, wobei Community-Feedback nachfolgende Untersuchungszyklen lenkt. In vier autonomen Untersuchungen – Peptid-Design für den Somatostatin-Rezeptor SSTR2, Screening leichter schlagfester Keramiken, domänenübergreifende Resonanzbrücken zwischen Biologie, Materialien und Musik sowie formale Analogiebildung zwischen urbaner Morphologie und Korngrenzenentwicklung – demonstriert das Framework heterogene Werkzeugverkettung, emergente Konvergenz unter unabhängig operierenden Agenten und nachvollziehbare Schlussfolgerungen von der Rohberechnung bis zur veröffentlichten Erkenntnis.

Tri-Prompting: Videodiffusion mit vereinheitlichter Kontrolle über Szene, Subjekt und Bewegung
Tri-Prompting: Video Diffusion with Unified Control over Scene, Subject, and Motion

Mar 16

ByZhenghong Zhou, Xiaohang Zhan, Zhiqin Chen, Soo Ye Kim, Nanxuan Zhao, Haitian Zheng, Qing Liu, He Zhang, Zhe Lin, Yuqian Zhou, Jiebo Luo

Aktuelle Video-Diffusionsmodelle haben bemerkenswerte Fortschritte in der visuellen Qualität erzielt, doch eine präzise, fein abgestufte Steuerung bleibt ein zentraler Engpass, der die praktische Anpassbarkeit für die Inhaltserstellung einschränkt. Für KI-Videocreators sind drei Steuerungsformen entscheidend: (i) Szenenkomposition, (ii) multi-view-konsistente Subjektanpassung und (iii) Kameraposen- oder Objektbewegungsanpassung. Bestehende Methoden behandeln diese Dimensionen typischerweise isoliert, mit begrenzter Unterstützung für Multi-View-Subjektsynthese und Identitätserhaltung unter beliebigen Pose-Änderungen. Dieser Mangel an einer einheitlichen Architektur erschwert die Unterstützung von vielseitigen, gemeinsam steuerbaren Videos. Wir stellen Tri-Prompting vor, ein einheitliches Framework und Zwei-Stufen-Trainingsparadigma, das Szenenkomposition, Multi-View-Subjektkonsistenz und Bewegungssteuerung integriert. Unser Ansatz nutzt ein Dual-Condition-Bewegungsmodul, das von 3D-Tracking-Punkten für Hintergrundszenen und heruntergerechneten RGB-Cues für Vordergrundsubjekte angetrieben wird. Um ein Gleichgewicht zwischen Steuerbarkeit und visueller Realitätstreue zu gewährleisten, schlagen wir weiterhin einen Inferenz-ControlNet-Skalenplan vor. Tri-Prompting unterstützt neuartige Workflows, einschließlich 3D-bewusster Subjekteinfügung in beliebige Szenen und Manipulation bestehender Subjekte in einem Bild. Experimentelle Ergebnisse zeigen, dass Tri-Prompting spezialisierte Baseline-Methoden wie Phantom und DaS in Bezug auf Multi-View-Subjektidentität, 3D-Konsistenz und Bewegungsgenauigkeit signifikant übertrifft.

GlyphPrinter: Bereichsgruppierte Direkte Präferenzoptimierung für glyphengenaue visuelle Textdarstellung
GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering

Mar 16

ByXincheng Shuai, Ziye Li, Henghui Ding, Dacheng Tao

Die Erzeugung präziser Glyphen für das visuelle Textrendering ist entscheidend, aber herausfordernd. Bestehende Methoden verbessern das Textrendering typischerweise durch Training mit einer großen Menge hochwertiger Szenentextbilder, doch die begrenzte Abdeckung von Glyphenvarianten und übermäßige Stilisierung beeinträchtigen oft die Glyphengenauigkeit, insbesondere bei komplexen oder domänenfremden Zeichen. Einige Methoden nutzen bestärkendes Lernen, um dieses Problem zu mildern, doch deren Belohnungsmodelle basieren meist auf Texterkennungssystemen, die unempfindlich gegenüber feinkörnigen Glyphenfehlern sind, sodass Bilder mit falschen Glyphen dennoch hohe Belohnungen erhalten können. Inspiriert von Direct Preference Optimization (DPO) schlagen wir GlyphPrinter vor, eine präferenzbasierte Textrendering-Methode, die die Abhängigkeit von expliziten Belohnungsmodellen eliminiert. Allerdings modelliert das standardmäßige DPO-Ziel nur die Gesamtpräferenz zwischen zwei Stichproben, was für visuelles Textrendering unzureichend ist, da Glyphenfehler typischerweise in lokalisierten Regionen auftreten. Um dieses Problem zu adressieren, erstellen wir den GlyphCorrector-Datensatz mit Annotationen auf Regionsebene für Glyphenpräferenzen und schlagen Region-Grouped DPO (R-GDPO) vor, ein regionsbasiertes Ziel, das Inter- und Intra-Stichproben-Präferenzen über annotierte Regionen optimiert und die Glyphengenauigkeit erheblich verbessert. Darüber hinaus führen wir Regional Reward Guidance ein, eine Inferenzstrategie, die aus einer optimalen Verteilung mit kontrollierbarer Glyphengenauigkeit sampelt. Umfangreiche Experimente zeigen, dass das vorgeschlagene GlyphPrinter-System bestehende Methoden in der Glyphengenauigkeit übertrifft und dabei ein günstiges Gleichgewicht zwischen Stilisierung und Präzision beibehält.

OxyGen: Einheitliche KV-Cache-Verwaltung für Vision-Sprache-Handlung-Modelle unter Multi-Task-Parallelität
OxyGen: Unified KV Cache Management for Vision-Language-Action Models under Multi-Task Parallelism

Mar 15

ByXiangyu Li, Huaizhi Tang, Xin Ding, Weijun Wang, Ting Cao, Yunxin Liu

Embodied KI-Agenten benötigen zunehmend die parallele Ausführung mehrerer Aufgaben wie Manipulation, Konversation und Gedächtniskonstruktion aus gemeinsamen Beobachtungen unter unterschiedlichen Zeitbeschränkungen. Neuere Mixture-of-Transformers (MoT) Vision-Language-Action-Modelle (VLAs) unterstützen solche heterogenen Ausgaben zwar architektonisch, doch bestehende Inferenzsysteme erreichen aufgrund redundanter Berechnungen und Ressourcenkonflikten keine effiziente Multi-Task-Parallelität für On-Device-Bereitstellung. Wir identifizieren die isolierte KV-Cache-Verwaltung als Hauptursache. Zur Lösung schlagen wir eine vereinheitlichte KV-Cache-Verwaltung vor, ein Inferenzparadigma, das den KV-Cache als shared Resource erster Klasse über Aufgaben und Zeit hinweg behandelt. Diese Abstraktion ermöglicht zwei Schlüsseloptimierungen: KV-Sharing zwischen Aufgaben eliminiert redundantes Prefilling gemeinsamer Beobachtungen, während Continuous Batching über Rahmen hinweg die Sprachdekodierung variabler Länge von der Aktionsgenerierung mit fester Rate über Steuerungszyklen entkoppelt. Wir implementieren dieses Paradigma für π_{0.5}, das beliebteste MoT-VLA, und evaluieren es unter repräsentativen Robotikkonfigurationen. OxyGen erreicht bis zu 3,7-fache Beschleunigung gegenüber isolierter Ausführung und liefert gleichzeitig über 200 Token/s Sprachdurchsatz und 70 Hz Aktionsfrequenz ohne Qualitätseinbußen bei den Aktionen.

Spektrum-Matching: Eine einheitliche Perspektive für überlegene Diffundierbarkeit in latenten Diffusionsmodellen
Spectrum Matching: a Unified Perspective for Superior Diffusability in Latent Diffusion

Mar 15

ByMang Ning, Mingxiao Li, Le Zhang, Lanmiao Liu, Matthew B. Blaschko, Albert Ali Salah, Itir Onal Ertugrul

In dieser Arbeit untersuchen wir die Diffundierbarkeit (Lernfähigkeit) von variationalen Autoencodern (VAE) bei latenter Diffusion. Zunächst zeigen wir, dass Diffusion im Pixelraum, die mit einem MSE-Ziel trainiert wird, inhärent darauf ausgelegt ist, niedrige und mittlere räumliche Frequenzen zu lernen, und dass die Power-Law-Leistungsspektraldichte (PSD) natürlicher Bilder diesen Bias wahrnehmungsmäßig vorteilhaft macht. Motiviert durch dieses Ergebnis schlagen wir die Spektrum-Anpassungs-Hypothese vor: Latente Repräsentationen mit überlegener Diffundierbarkeit sollten (i) einer abgeflachten Power-Law-PSD folgen (Encoding Spectrum Matching, ESM) und (ii) die semantische Frequenz-zu-Frequenz-Korrespondenz durch den Decoder erhalten (Decoding Spectrum Matching, DSM). In der Praxis wenden wir ESM an, indem wir die PSD zwischen Bildern und latenten Repräsentationen angleichen, und DSM durch gemeinsame spektrale Maskierung mit frequenzabgestimmter Rekonstruktion. Wichtig ist, dass die Spektrum-Anpassung eine einheitliche Sichtweise bietet, die frühere Beobachtungen von übermäßig verrauschten oder übermäßig geglätteten latenten Repräsentationen klärt und mehrere neuere Methoden (z.B. VA-VAE, EQ-VAE) als Spezialfälle interpretiert. Experimente deuten darauf hin, dass die Spektrum-Anpassung eine überlegene Diffusionsgenerierung auf den CelebA- und ImageNet-Datensätzen liefert und bisherige Ansätze übertrifft. Abschließend erweitern wir die spektrale Sichtweise auf die Repräsentationsausrichtung (REPA): Wir zeigen, dass die gerichtete spektrale Energie der Zielrepräsentation entscheidend für REPA ist, und schlagen eine auf DoG basierende Methode vor, um die Leistung von REPA weiter zu verbessern. Unser Code ist verfügbar unter https://github.com/forever208/SpectrumMatching.

Zu generalisierbarer Roboter-Manipulation in dynamischen Umgebungen
Towards Generalizable Robotic Manipulation in Dynamic Environments

Mar 16

ByHeng Fang, Shangru Li, Shuhan Wang, Xuanyang Xi, Dingkang Liang, Xiang Bai

Vision-Language-Action (VLA)-Modelle zeichnen sich bei statischen Manipulationsaufgaben aus, haben jedoch in dynamischen Umgebungen mit sich bewegenden Zielobjekten Schwierigkeiten. Diese Leistungslücke resultiert hauptsächlich aus einem Mangel an Datensätzen für dynamische Manipulation und der Abhängigkeit gängiger VLA-Modelle von Einzelbildbeobachtungen, was ihre Fähigkeiten zur raumzeitlichen Inferenz einschränkt. Um dieses Problem zu adressieren, stellen wir DOMINO vor – einen groß angelegten Datensatz und Benchmark für generalisierbare dynamische Manipulation. DOMINO umfasst 35 Aufgaben mit hierarchisch steigender Komplexität, über 110.000 Expertentrajektorien und eine mehrdimensionale Evaluationssuite. Mittels umfassender Experimente evaluieren wir systematisch bestehende VLA-Modelle für dynamische Aufgaben, erforschen effektive Trainingsstrategien für dynamisches Situationsbewusstsein und validieren die Generalisierbarkeit dynamischer Daten. Darüber hinaus schlagen wir PUMA vor, eine dynamikbewusste VLA-Architektur. Durch die Integration von szenenzentriertem historischem optischem Fluss und spezialisierten Welt-Queries, die objektzentrierte Zukunftszustände implizit vorhersagen, koppelt PUMA verlaufsbewusste Wahrnehmung mit kurzfristiger Prädiktion. Die Ergebnisse zeigen, dass PUMA State-of-the-Art-Leistung erreicht und eine absolute Steigerung der Erfolgsrate um 6,3 % gegenüber Baseline-Modellen erzielt. Zudem demonstrieren wir, dass das Training mit dynamischen Daten robuste raumzeitliche Repräsentationen fördert, die auf statische Aufgaben übertragbar sind. Der gesamte Code und die Daten sind unter https://github.com/H-EmbodVis/DOMINO verfügbar.

MoKus: Nutzung cross-modalen Wissenstransfers für wissensbasierte Konzeptanpassung
MoKus: Leveraging Cross-Modal Knowledge Transfer for Knowledge-Aware Concept Customization

Mar 13

ByChenyang Zhu, Hongxiang Li, Xiu Li, Long Chen

Die Konzeptanpassung bindet typischerweise seltene Token an ein Zielkonzept. Leider weisen diese Ansätze oft eine instabile Leistung auf, da die Vortrainingsdaten nur selten diese seltenen Token enthalten. Gleichzeitig können diese seltenen Token das inhärente Wissen des Zielkonzepts nicht vermitteln. Daher führen wir Knowledge-aware Concept Customization ein, eine neuartige Aufgabe, die darauf abzielt, diverses textuelles Wissen an visuelle Zielkonzepte zu binden. Diese Aufgabe erfordert, dass das Modell das Wissen innerhalb des Textprompts identifiziert, um eine hochpräzise angepasste Generierung durchzuführen. Gleichzeitig sollte das Modell effizient das gesamte textuelle Wissen an das Zielkonzept binden. Daher schlagen wir MoKus vor, einen neuartigen Rahmen für wissensbasierte Konzeptanpassung. Unser Rahmenkonzept stützt sich auf eine Schlüsselbeobachtung: den cross-modalen Wissenstransfer, bei dem sich die Modifikation von Wissen in der Textmodalität während der Generierung natürlich auf die visuelle Modalität überträgt. Inspiriert durch diese Beobachtung umfasst MoKus zwei Stufen: (1) Im visuellen Konzeptlernen erlernen wir zunächst die Ankerrepräsentation, um die visuellen Informationen des Zielkonzepts zu speichern. (2) In der textuellen Wissensaktualisierung aktualisieren wir die Antwort auf die Wissensabfragen auf die Ankerrepräsentation, was eine hochpräzise angepasste Generierung ermöglicht. Um unsere vorgeschlagene Methode MoKus für diese neue Aufgabe umfassend zu evaluieren, führen wir den ersten Benchmark für wissensbasierte Konzeptanpassung ein: KnowCusBench. Umfangreiche Auswertungen haben gezeigt, dass MoKus state-of-the-art Methoden übertrifft. Darüber hinaus ermöglicht der cross-modale Wissenstransfer eine einfache Erweiterung von MoKus auf andere wissensbasierte Anwendungen wie die Erstellung virtueller Konzepte und Konzeptlöschung. Wir zeigen auch die Fähigkeit unserer Methode, Verbesserungen auf Benchmarks für Weltwissen zu erzielen.

Achtung, Wechsel: Entschlüsselung der geldpolitischen Ausrichtung aus FOMC-Statements mit Large Language Models
Mind the Shift: Decoding Monetary Policy Stance from FOMC Statements with Large Language Models

Mar 15

ByYixuan Tang, Yi Yang

Die Stellungnahmen des Federal Open Market Committee (FOMC) sind eine wichtige Quelle für geldpolitische Informationen, und selbst subtile Änderungen in deren Formulierung können die globalen Finanzmärkte bewegen. Eine zentrale Aufgabe besteht daher darin, die in diesen Texten vermittelte hawkische bzw. dovische Haltung zu messen. Bisherige Ansätze behandeln die Erkennung der Haltung typischerweise als ein Standard-Klassifikationsproblem, bei dem jede Stellungnahme isoliert bewertet wird. Die Interpretation geldpolitischer Kommunikation ist jedoch inhärent relativ: Marktreaktionen hängen nicht nur vom Ton einer Stellungnahme ab, sondern auch davon, wie sich dieser Ton von Sitzung zu Sitzung verschiebt. Wir stellen Delta-Consistent Scoring (DCS) vor, ein annotierungsfreies Framework, das eingefrorene Repräsentationen großer Sprachmodelle (LLM) durch die gemeinsame Modellierung absoluter Haltung und relativer Verschiebungen zwischen den Sitzungen auf kontinuierliche Haltungswerte abbildet. Anstatt sich auf manuelle Hawkish-Dovish-Labels zu verlassen, nutzt DCS aufeinanderfolgende Sitzungen als Quelle für Selbstüberwachung. Es lernt einen absoluten Haltungswert für jede Stellungnahme und einen relativen Verschiebungswert zwischen aufeinanderfolgenden Stellungnahmen. Ein Delta-Konsistenz-Ziel fördert die Übereinstimmung von Änderungen der absoluten Werte mit den relativen Verschiebungen. Dies ermöglicht es DCS, einen zeitlich kohärenten Haltungspfad ohne manuelle Labels zu rekonstruieren. Über vier LLM-Backbones hinweg übertrifft DCS durchgängig überwachte Probes und LLM-as-Judge-Baselines und erreicht bis zu 71,1 % Genauigkeit bei der hawkish-dovish Klassifikation auf Satzebene. Die resultierenden Werte auf Sitzungsebene sind auch ökonomisch bedeutsam: Sie korrelieren stark mit Inflationsindikatoren und weisen eine signifikante Assoziation mit Bewegungen der Treasury-Renditen auf. Insgesamt deuten die Ergebnisse darauf hin, dass LLM-Repräsentationen geldpolitische Signale codieren, die durch relative temporale Struktur rekonstruiert werden können.

Effiziente Dokumentenanalyse durch parallele Token-Vorhersage
Efficient Document Parsing via Parallel Token Prediction

Mar 16

ByLei Li, Ze Zhao, Meng Li, Zhongwang Lun, Yi Yuan, Xingjing Lu, Zheng Wei, Jiang Bian, Zang Li

Die Dokumentenanalyse, eine grundlegende aber entscheidende Aufgabe im Bereich Computer Vision, wird durch Vision-Language-Modelle (VLMs) revolutioniert. Allerdings stellt die diesen Modellen inhärente autoregressive (AR) Dekodierung einen erheblichen Engpass dar, der die Parsing-Geschwindigkeit stark begrenzt. In diesem Beitrag schlagen wir Parallel-Token Prediction (PTP) vor, eine anschlussfähige, modellagnostische und einfache, aber effektive Methode, die es VLMs ermöglicht, mehrere zukünftige Tokens parallel mit verbesserter Stichprobeneffizienz zu generieren. Konkret fügen wir einige lernbare Tokens in die Eingabesequenz ein und entwerfen entsprechende Trainingsziele, um das Modell mit Fähigkeiten zur parallelen Dekodierung für die Dokumentenanalyse auszustatten. Darüber hinaus entwickeln wir für ein effektives Training eine umfassende Daten-Generierungspipeline, die effizient großvolumige, hochwertige Trainingsdaten für die VLM-Dokumentenanalyse erzeugt. Umfangreiche Experimente auf OmniDocBench und olmOCR-bench belegen, dass unsere Methode nicht nur die Dekodiergeschwindigkeit signifikant steigert (1,6x-2,2x), sondern auch Modellhalluzinationen reduziert und starke Generalisierungsfähigkeiten aufweist.

SCoCCA: Multimodale Sparse Concept Zerlegung mittels Kanonischer Korrelationsanalyse
SCoCCA: Multi-modal Sparse Concept Decomposition via Canonical Correlation Analysis

Mar 14

ByEhud Gordon, Meir Yossef Levi, Guy Gilboa

Die Interpretation der internen Entscheidungsprozesse von Vision-Language-Modellen ist entscheidend für den Einsatz von KI in sicherheitskritischen Bereichen. Konzeptbasierte Erklärbarkeit bietet eine menschenorientierte Betrachtungsweise, indem sie das Verhalten eines Modells durch semantisch bedeutungsvolle Komponenten abbildet. Bestehende Methoden beschränken sich jedoch weitgehend auf Bilder und vernachlässigen cross-modale Interaktionen. Text-Bild-Einbettungen, wie sie beispielsweise von CLIP erzeugt werden, leiden unter einer Modalitätslücke, bei der visuelle und textuelle Merkmale unterschiedlichen Verteilungen folgen, was die Interpretierbarkeit einschränkt. Die Kanonische Korrelationsanalyse (CCA) bietet einen prinzipienbasierten Ansatz, um Merkmale aus verschiedenen Verteilungen auszurichten, wurde jedoch bisher nicht für eine multimodale konzeptbasierte Analyse genutzt. Wir zeigen, dass die Zielfunktionen von CCA und InfoNCE eng verwandt sind, sodass die Optimierung von CCA implizit auch InfoNCE optimiert. Dies bietet einen einfachen, trainingsfreien Mechanismus zur Verbesserung der cross-modalen Ausrichtung, ohne das vortrainierte InfoNCE-Ziel zu beeinflussen. Ausgehend von dieser Beobachtung kombinieren wir konzeptbasierte Erklärbarkeit mit CCA und führen Concept CCA (CoCCA) ein – ein Framework, das cross-modale Einbettungen ausrichtet und gleichzeitig eine interpretierbare Konzeptzerlegung ermöglicht. Wir erweitern diesen Ansatz weiter und schlagen Sparse Concept CCA (SCoCCA) vor, das Sparsity erzwingt, um stärker entflochtene und diskriminativere Konzepte zu erzeugen, was verbesserte Aktivierungs-, Ablations- und semantische Manipulationsanalysen ermöglicht. Unser Ansatz verallgemeinert konzeptbasierte Erklärungen auf multimodale Einbettungen und erzielt state-of-the-art Leistung in der Konzeptentdeckung, was durch Rekonstruktions- und Manipulationsaufgaben wie Konzeptablation belegt wird.

Garments2Look: Ein Multi-Referenz-Datensatz für hochauflösendes virtuelles Anprobieren auf Outfit-Ebene mit Kleidung und Accessoires
Garments2Look: A Multi-Reference Dataset for High-Fidelity Outfit-Level Virtual Try-On with Clothing and Accessories

Mar 14

ByJunyao Hu, Zhongwei Cheng, Waikeung Wong, Xingxing Zou

Virtual Try-On (VTON) hat die Visualisierung einzelner Kleidungsstücke vorangetrieben, doch in der realen Modebranche stehen komplette Outfits mit mehreren Kleidungsstücken, Accessoires, fein granularen Kategorien, Schichtung und vielfältigen Stilen im Mittelpunkt – was über die Möglichkeiten aktueller VTON-Systeme hinausgeht. Bestehende Datensätze sind kategorisch eingeschränkt und weisen eine geringe Outfit-Vielfalt auf. Wir stellen Garments2Look vor, den ersten groß angelegten multimodalen Datensatz für outfitbasiertes VTON. Er umfasst 80.000 Kleidungsstücke-zu-Outfit-Paare über 40 Hauptkategorien und 300+ feingranulare Unterkategorien. Jedes Paar enthält ein Outfit mit 3–12 Referenzbildern der Kleidungsstücke (Durchschnitt 4,48), ein Bild eines Models, das das Outfit trägt, sowie detaillierte textuelle Annotationen zu den Items und zum Try-On. Um Authentizität und Vielfalt in Einklang zu bringen, schlagen wir eine Synthese-Pipeline vor. Diese beinhaltet die heuristische Konstruktion von Outfit-Listen vor der Generierung der Try-On-Ergebnisse, wobei der gesamte Prozess einer strengen automatischen Filterung und menschlichen Validierung unterzogen wird, um die Datenqualität zu gewährleisten. Um die Aufgabenschwierigkeit zu untersuchen, passen wir State-of-the-Art-VTON-Methoden und allgemeine Bildbearbeitungsmodelle an, um Baseline-Ergebnisse zu etablieren. Die Ergebnisse zeigen, dass aktuelle Methoden Schwierigkeiten haben, komplette Outfits nahtlos anzulegen sowie die korrekte Schichtung und Stilistik zu inferieren, was zu Fehlausrichtungen und Artefakten führt.

VoXtream2: Vollständiger Sprachstrom-TTS mit dynamischer Sprechgeschwindigkeitssteuerung
VoXtream2: Full-stream TTS with dynamic speaking rate control

Mar 13

ByNikita Torgashov, Gustav Eje Henter, Gabriel Skantze

Full-Stream Text-to-Speech (TTS) für interaktive Systeme muss mit minimaler Verzögerung beginnen zu sprechen und dabei steuerbar bleiben, während der Text inkrementell eintrifft. Wir stellen VoXtream2 vor, ein Zero-Shot Full-Stream TTS-Modell mit dynamischer Sprechgeschwindigkeitssteuerung, die während der Äußerung laufend aktualisiert werden kann. VoXtream2 kombiniert einen Distribution-Matching-Mechanismus für Dauerzustände mit Classifier-Free Guidance über Konditionierungssignale, um die Steuerbarkeit und Synthesequalität zu verbessern. Prompt-Text-Masking ermöglicht eine textlose Audio-Prompting, was die Notwendigkeit einer Prompt-Transkription entfällt. In standardmäßigen Zero-Shot-Benchmarks und einem speziellen Testset für die Sprechgeschwindigkeit erzielt VoXtream2 wettbewerbsfähige objektive und subjektive Ergebnisse im Vergleich zu öffentlichen Baseline-Modellen, trotz eines kleineren Modells und weniger Trainingsdaten. Im Full-Stream-Modus läuft es 4-mal schneller als Echtzeit mit einer Latenz des ersten Pakets von 74 ms auf einer Consumer-GPU.

sebis bei ArchEHR-QA 2026: Wie viel lässt sich lokal bewältigen? Evaluierung von geerdeten EHR-Fragen auf einem einzelnen Notebook
sebis at ArchEHR-QA 2026: How Much Can You Do Locally? Evaluating Grounded EHR QA on a Single Notebook

Mar 14

ByIbrahim Ebrar Yurt, Fabian Karl, Tejaswi Choppa, Florian Matthes

Klinische Frage-Antwort-Systeme auf Basis elektronischer Gesundheitsakten (EHRs) können Klinikern und Patienten helfen, relevante medizinische Informationen effizienter zu erschließen. Allerdings setzen viele aktuelle Ansätze auf große cloudbasierte Modelle, die aufgrund von Datenschutzanforderungen und Rechenleistungsbedarf nur schwer in klinischen Umgebungen einsetzbar sind. In dieser Arbeit untersuchen wir, wie weit EHR-gestütztes Question Answering vorangetrieben werden kann, wenn es auf einen einzelnen Laptop beschränkt ist. Wir nehmen an allen vier Teilaufgaben des ArchEHR-QA-2026-Shared-Tasks teil und evaluieren mehrere Ansätze, die auf handelsüblicher Hardware lauffähig sind. Alle Experimente werden lokal ohne externe APIs oder Cloud-Infrastruktur durchgeführt. Unsere Ergebnisse zeigen, dass solche Systeme wettbewerbsfähige Leistungen in den Leaderboards des Shared Tasks erzielen können. Insbesondere schneiden unsere Einreichungen in zwei Teilaufgaben überdurchschnittlich ab, und wir beobachten, dass kleinere Modelle bei geeigneter Konfiguration an die Leistung deutlich größerer Systeme heranreichen können. Diese Erkenntnisse legen nahe, dass datenschutzerhaltende EHR-QA-Systeme, die vollständig lokal laufen, mit aktuellen Modellen und Standardhardware realisierbar sind. Der Quellcode ist unter https://github.com/ibrahimey/ArchEHR-QA-2026 verfügbar.

SNCE: Geometriebewusste Überwachung für skalierbare diskrete Bildgenerierung
SNCE: Geometry-Aware Supervision for Scalable Discrete Image Generation

Mar 16

ByShufan Li, Jiuxiang Gu, Kangning Liu, Zhe Lin, Aditya Grover, Jason Kuen

Jüngste Fortschritte in der diskreten Bildgenerierung haben gezeigt, dass eine Vergrößerung der VQ-Codebuchgröße die Rekonstruktionstreue erheblich verbessert. Das Training generativer Modelle mit einem großen VQ-Codebuch bleibt jedoch herausfordernd, da typischerweise eine größere Modellgröße und ein längerer Trainingszeitraum erforderlich sind. In dieser Arbeit schlagen wir die Minimierung der stochastischen Nachbar-Cross-Entropy (SNCE) vor, ein neuartiges Trainingsziel, das entwickelt wurde, um die Optimierungsprobleme von diskreten Bildgeneratoren mit großem Codebuch zu adressieren. Anstatt das Modell mit einem harten One-Hot-Zielwert zu steuern, konstruiert SNCE eine weiche kategorische Verteilung über eine Menge benachbarter Tokens. Die jedem Token zugewiesene Wahrscheinlichkeit ist proportional zur Nähe zwischen seinem Code-Embedding und dem Ground-Truth-Bildembedding, was das Modell dazu anregt, semantisch bedeutsame geometrische Strukturen im quantisierten Embedding-Raum zu erfassen. Wir führen umfangreiche Experimente in den Bereichen klassenbedingte ImageNet-256-Generierung, großskalige Text-zu-Bild-Synthese und Bildbearbeitungsaufgaben durch. Die Ergebnisse zeigen, dass SNCE im Vergleich zu standardmäßigen Cross-Entropy-Zielen die Konvergenzgeschwindigkeit und die allgemeine Generierungsqualität signifikant verbessert.