HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

32 papers found

Zu Data Engineering für die Skalierung von LLM-Terminalfähigkeiten
On Data Engineering for Scaling LLM Terminal Capabilities

Feb 24

ByRenjie Pi, Grace Lam, Mohammad Shoeybi, Pooya Jannaty, Bryan Catanzaro, Wei Ping

101

Trotz der rasanten jüngsten Fortschritte bei den Terminalfähigkeiten großer Sprachmodelle sind die Trainingsdatenstrategien hinter modernsten Terminal-Agenten weitgehend undurchsichtig. Wir schließen diese Lücke durch eine systematische Untersuchung von Data-Engineering-Praktiken für Terminal-Agenten und leisten zwei zentrale Beiträge: (1) Terminal-Task-Gen, eine schlanke Pipeline zur synthetischen Aufgabengenerierung, die seed-basierte und kompetenzbasierte Aufgabenkonstruktion unterstützt, und (2) eine umfassende Analyse von Daten- und Trainingsstrategien, einschließlich Filterung, Curriculum Learning, Langkontext-Training und Skalierungsverhalten. Unsere Pipeline erzeugt Terminal-Corpus, einen groß angelegten Open-Source-Datensatz für Terminal-Aufgaben. Mit diesem Datensatz trainieren wir Nemotron-Terminal, eine Modellfamilie, die auf Qwen3(8B, 14B, 32B) initialisiert wurde und erhebliche Verbesserungen auf Terminal-Bench 2.0 erzielt: Nemotron-Terminal-8B steigt von 2,5 % auf 13,0 %, Nemotron-Terminal-14B von 4,0 % auf 20,2 % und Nemotron-Terminal-32B von 3,4 % auf 27,4 % und erreicht damit die Leistung deutlich größerer Modelle. Um die Forschung in diesem Bereich zu beschleunigen, veröffentlichen wir unsere Modell-Checkpoints und den Großteil unserer synthetischen Datensätze unter https://huggingface.co/collections/nvidia/nemotron-terminal als Open Source.

Abfragebezogener und speicherbewusster Reranker für die Verarbeitung langer Kontexte
Query-focused and Memory-aware Reranker for Long Context Processing

Feb 12

ByYuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin, Weiping Wang, Jie Zhou

Aufbauend auf der bestehenden Analyse von Retrieval-Köpfen in großen Sprachmodellen schlagen wir ein alternatives Reranking-Framework vor, das Modelle darauf trainiert, die Relevanz von Passagen und Abfragen anhand der Aufmerksamkeitswerte ausgewählter Köpfe zu schätzen. Dieser Ansatz bietet eine listwise-Lösung, die holistische Informationen innerhalb der gesamten Kandidatenliste während des Rankings nutzt. Gleichzeitig erzeugt er natürlicherweise kontinuierliche Relevanzwerte, was ein Training auf beliebigen Retrieval-Datensätzen ohne Likert-Skalen-Supervision ermöglicht. Unser Framework ist leichtgewichtig und effektiv, benötigt nur kleinere Modelle (z.B. 4B Parameter) und erzielt dennoch hohe Leistung. Umfangreiche Experimente zeigen, dass unsere Methode bestehende state-of-the-art pointwise- und listwise-Reranker in verschiedenen Domänen übertrifft, einschließlich Wikipedia- und langen narrativen Datensätzen. Zudem etabliert sie einen neuen State-of-the-Art auf dem LoCoMo-Benchmark, der Fähigkeiten im Dialogverständnis und Speichernutzung bewertet. Wir zeigen weiter, dass unser Framework flexible Erweiterungen unterstützt. Beispielsweise verbessert die Anreicherung von Kandidatenpassagen mit Kontextinformationen die Ranking-Genauigkeit, während das Training von Aufmerksamkeitsköpfen aus mittleren Schichten die Effizienz steigert, ohne die Leistung zu beeinträchtigen.

PyVision-RL: Die Entwicklung agentenbasierter Vision-Modelle durch Reinforcement Learning
PyVision-RL: Forging Open Agentic Vision Models via RL

Feb 24

ByShitian Zhao, Shaoheng Lin, Ming Li, Haoquan Zhang, Wenshuo Peng, Kaipeng Zhang, Chen Wei

Reinforcement Learning für agentische multimodale Modelle leidet häufig unter Interaktionskollaps, bei dem Modelle lernen, den Werkzeugeinsatz und mehrstufiges Reasoning zu reduzieren, was die Vorteile agentischen Verhaltens einschränkt. Wir stellen PyVision-RL vor, ein Reinforcement-Learning-Framework für Open-Weight-Multimodal-Modelle, das das Training stabilisiert und Interaktionen aufrechterhält. Unser Ansatz kombiniert eine Oversampling-Filtering-Ranking-Rollout-Strategie mit einer akkumulativen Werkzeugbelohnung, um Kollaps zu verhindern und mehrstufigen Werkzeugeinsatz zu fördern. Mithilfe einer einheitlichen Trainingspipeline entwickeln wir PyVision-Image und PyVision-Video für Bild- und Videoverständnis. Für Video-Reasoning setzt PyVision-Video eine bedarfsgesteuerte Kontextkonstruktion ein, die während des Reasoningprozesses selektiv aufgabenrelevante Frames sampelt, um die Nutzung visueller Tokens erheblich zu reduzieren. Experimente zeigen eine hohe Leistungsfähigkeit und verbesserte Effizienz und demonstrieren, dass nachhaltige Interaktion und bedarfsgesteuerte visuelle Verarbeitung entscheidend für skalierbare multimodale Agenten sind.

Test-Time Training mit KV-Binding ist im Grunde Lineare Aufmerksamkeit
Test-Time Training with KV Binding Is Secretly Linear Attention

Feb 24

ByJunchen Liu, Sven Elflein, Or Litany, Zan Gojcic, Ruilong Li

Test-Time Training (TTT) mit KV-Bindung als Sequenzmodellierungsschicht wird gemeinhin als eine Form des Online-Meta-Lernens interpretiert, das zur Testzeit eine Schlüssel-Wert-Zuordnung auswendig lernt. Unsere Analyse deckt jedoch mehrere Phänomene auf, die dieser auf Auswendiglernen basierenden Interpretation widersprechen. Angeregt durch diese Erkenntnisse untersuchen wir die Formulierung von TTT erneut und zeigen, dass eine breite Klasse von TTT-Architekturen als eine Form eines gelernten linearen Attention-Operators ausgedrückt werden kann. Über die Erklärung zuvor rätselhafter Modellverhalten hinaus bietet diese Perspektive mehrere praktische Vorteile: Sie ermöglicht prinzipielle architektonische Vereinfachungen, erlaubt vollständig parallele Formulierungen, die die Leistung bei verbesserter Effizienz bewahren, und bietet eine systematische Reduktion verschiedener TTT-Varianten auf eine standardisierte lineare Attention-Form. Insgesamt betrachten unsere Ergebnisse TTT nicht als Auswendiglernen zur Testzeit, sondern als gelernte lineare Attention mit erweiterter Repräsentationskapazität.

Von der Wahrnehmung zur Handlung: Eine interaktive Benchmark für visuelles Denken
From Perception to Action: An Interactive Benchmark for Vision Reasoning

Feb 24

ByYuhao Wu, Maojia Song, Yihuai Lan, Lei Wang, Zhiqiang Hu, Yao Xiao, Heng Zhou, Weihua Zheng, Dylan Raharja, Soujanya Poria, Roy Ka-Wei Lee

Das Verständnis der physikalischen Struktur ist entscheidend für reale Anwendungen wie verkörperte Agenten, interaktives Design und Manipulation mit langem Zeithorizont. Dennoch konzentrieren sich gängige Evaluationen von Vision-Sprach-Modellen (VLM) nach wie vor auf strukturunabhängige, einstufige Setup-Formate (z.B. VQA), die nicht erfassen können, inwieweit Agenten in der Lage sind, zu schlussfolgern, wie Geometrie, Kontakt- und Stützrelationen gemeinsam einschränken, welche Aktionen in einer dynamischen Umgebung möglich sind. Um diese Lücke zu schließen, stellen wir den Causal Hierarchy of Actions and Interactions (CHAIN) Benchmark vor – eine interaktive, physikbasierte 3D-Testumgebung, die entwickelt wurde, um zu evaluieren, ob Modelle strukturierte Aktionssequenzen verstehen, planen und ausführen können, die auf physikalischen Zwängen basieren. CHAIN verlagert die Evaluation von passiver Wahrnehmung hin zu aktivem Problemlösen und umfasst Aufgaben wie das Zusammensetzen mechanischer Puzzles sowie 3D-Stapel- und Packaufgaben. Wir führen eine umfassende Studie modernster VLM- und diffusionsbasierter Modelle unter einheitlichen interaktiven Bedingungen durch. Unsere Ergebnisse zeigen, dass Spitzenmodelle nach wie vor Schwierigkeiten haben, physikalische Strukturen und kausale Zwänge zu internalisieren, häufig keine zuverlässigen Langzeitpläne erstellen können und wahrgenommene Strukturen nicht robust in effektive Aktionen umsetzen. Das Projekt ist verfügbar unter https://social-ai-studio.github.io/CHAIN/.

Komprimierung von Multi-Vektor-Indizes in beliebigen Modalitäten
Multi-Vector Index Compression in Any Modality

Feb 24

ByHanxiang Qin, Alexander Martin, Rohan Jha, Chunsheng Zuo, Reno Kriz, Benjamin Van Durme

Wir untersuchen effiziente Multi-Vektor-Retrieval-Verfahren für Late Interaction in beliebigen Modalitäten. Late Interaction hat sich als dominantes Paradigma für Information Retrieval in Text, Bildern, visuellen Dokumenten und Videos etabliert, jedoch steigen deren Berechnungs- und Speicherkosten linear mit der Dokumentlänge, was es für bild-, video- und audioreiche Korpora kostspielig macht. Um diese Einschränkung zu adressieren, erforschen wir query-agnostische Methoden zur Komprimierung von Multi-Vektor-Dokumentrepräsentationen unter einem konstanten Vektor-Budget. Wir führen vier Ansätze zur Indexkomprimierung ein: Sequenzgrößenanpassung, Memory Tokens, hierarchisches Pooling und ein neuartiges aufmerksamkeitsgeführtes Clustering (AGC). AGC verwendet einen aufmerksamkeitsgesteuerten Mechanismus, um die semantisch bedeutsamsten Regionen eines Dokuments als Cluster-Zentroide zu identifizieren und die Token-Aggregation zu gewichten. Durch die Evaluierung dieser Methoden für Retrieval-Aufgaben in den Bereichen Text (BEIR), visuelle Dokumente (ViDoRe) und Video (MSR-VTT, MultiVENT 2.0) zeigen wir, dass aufmerksamkeitsgeführtes Clustering durchweg andere parametrisierte Komprimierungsmethoden (Sequenzgrößenanpassung und Memory Tokens) übertrifft, mehr Flexibilität bei der Indexgröße als nicht-parametrisches hierarchisches Clustering bietet und eine wettbewerbsfähige oder verbesserte Leistung im Vergleich zu einem vollständigen, unkomprimierten Index erzielt. Der Quellcode ist verfügbar unter: github.com/hanxiangqin/omni-col-press.

QuantVLA: Skalenkalibriertes Post-Training-Quantisieren für Vision-Sprache-Handlungs-Modelle
QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models

Feb 23

ByJingxuan Zhang, Yunta Hsieh, Zhongwei Wang, Haokun Lin, Xin Wang, Ziqi Wang, Yingtie Lei, Mi Zhang

Vision-Language-Action (VLA)-Modelle vereinigen Wahrnehmung, Sprache und Steuerung für verkörperte Agenten, stehen jedoch aufgrund schnell steigender Rechen- und Speicheranforderungen vor erheblichen Herausforderungen bei der praktischen Implementierung, insbesondere wenn Modelle auf längere Zeithorizonte und größere Backbones skaliert werden. Um diese Engpässe zu adressieren, stellen wir QuantVLA vor, ein trainingsfreies Post-Training-Quantisierungs (PTQ)-Framework, das unseres Wissens nach der erste PTQ-Ansatz für VLA-Systeme und die erste erfolgreiche Quantisierung eines Diffusions-Transformer (DiT)-Aktionskopfes ist. QuantVLA integriert drei skalengekalibrierte Komponenten: (1) ein selektives Quantisierungslayout, das alle linearen Schichten sowohl im Sprach-Backbone als auch im DiT in Integer-Zahlen umwandelt, während die Aufmerksamkeitsprojektionen im Fließkommaformat verbleiben, um den ursprünglichen Operationsplan beizubehalten; (2) Attention Temperature Matching, einen leichtgewichtigen Skalierungsmechanismus pro Kopf, der die Aufmerksamkeitslogits stabilisiert und zur Inferenzzeit in die Dequantisierungsskalen eingefaltet wird; und (3) Output Head Balancing, eine pro-Schicht Kalibrierung der Restschnittstelle, die Energieabweichungen nach der Projektion mildert. Das Framework erfordert kein zusätzliches Training, nutzt nur einen kleinen ungelabelten Kalibrierungspuffer und unterstützt Integer-Kernel für niederbitige Gewichte und Aktivitäten, während die Architektur unverändert bleibt. Bei repräsentativen VLA-Modellen auf LIBERO übertrifft QuantVLA die Aufgabenerfolgsraten der Full-Precision-Baselines, erreicht etwa 70 % relative Speichereinsparungen bei den quantisierten Komponenten und erzielt eine 1,22-fache Beschleunigung der Ende-zu-Ende-Inferenzlatenz. Dies bietet einen praktischen Weg zu skalierbarer niederbitiger verkörperter Intelligenz unter strengen Rechen-, Speicher- und Energieeinschränkungen.

DREAM: Tiefgreifende Forschungsbewertung mit agentenbasierten Metriken
DREAM: Deep Research Evaluation with Agentic Metrics

Feb 21

ByElad Ben Avraham, Changhao Li, Ron Dorfman, Roy Ganz, Oren Nuriel, Amir Dudai, Aviad Aberdam, Noah Flynn, Elman Mansimov, Adi Kalyanpur, Ron Litman

Deep Research Agents generieren Analysten-gleiche Berichte, doch ihre Bewertung bleibt aufgrund fehlender eindeutiger Referenzwerte und der multidimensionalen Natur von Forschungsqualität herausfordernd. Aktuelle Benchmarks schlagen unterschiedliche Methodologien vor, leiden jedoch unter dem „Mirage of Synthesis“-Effekt, bei dem starke oberflächliche Flüssigkeit und Zitationsübereinstimmung zugrunde liegende faktische und logische Mängel verschleiern können. Wir charakterisieren diese Lücke durch eine Taxonomie über vier Dimensionen, die eine kritische Fähigkeitsdiskrepanz aufdeckt: Statische Evaluatoren fehlen inhärent die Werkzeugnutzungsfähigkeiten, die zur Bewertung temporaler Validität und faktischer Korrektheit erforderlich sind. Um dies zu adressieren, schlagen wir DREAM (Deep Research Evaluation with Agentic Metrics) vor, ein Framework, das das Prinzip der Fähigkeitsparität verwirklicht, indem es die Evaluation selbst agentenbasiert gestaltet. DREAM strukturiert die Bewertung durch ein Evaluationsprotokoll, das abfrageagnostische Metriken mit adaptiven Metriken kombiniert, die von einem werkzeugnutzenden Agenten generiert werden. Dies ermöglicht zeitlich sensible Abdeckung, geerdete Verifikation und systematische Reasoning-Tests. Kontrollierte Evaluationen zeigen, dass DREAM signifikant empfindlicher auf faktischen und zeitlichen Verfall reagiert als bestehende Benchmarks und ein skalierbares, referenzfreies Evaluationsparadigma bietet.

Sehen und Fehler beheben: Ermöglichung von VLMs und Diffusionsmodellen zur Erfassung visueller Artefakte durch agentenbasierte Datensynthese
See and Fix the Flaws: Enabling VLMs and Diffusion Models to Comprehend Visual Artifacts via Agentic Data Synthesis

Feb 24

ByJaehyun Park, Minyoung Ahn, Minkyu Kim, Jonghyun Lee, Jae-Gil Lee, Dongmin Park

Trotz jüngster Fortschritte bei Diffusionsmodellen enthalten KI-generierte Bilder nach wie vor häufig visuelle Artefakte, die den Realismus beeinträchtigen. Obwohl gründlicher vortrainierte und größere Modelle Artefakte reduzieren könnten, gibt es keine Gewähr dafür, dass sie vollständig beseitigt werden können, was die Artefaktminderung zu einem äußerst wichtigen Forschungsgebiet macht. Bisherige artefaktbewusste Methoden sind auf von Menschen annotierte Artefakt-Datensätze angewiesen, die kostspielig und schwer zu skalieren sind. Dies unterstreicht den Bedarf an einem automatisierten Ansatz, um zuverlässig artefaktannotierte Datensätze zu erstellen. In diesem Artikel stellen wir ArtiAgent vor, der effizient Paare aus realen und artefaktinjizierten Bildern erzeugt. Das System besteht aus drei Agenten: einem Wahrnehmungsagenten, der Entitäten und Subentitäten in realen Bildern erkennt und lokalisiert, einem Syntheseagenten, der über Artefaktinjektionswerkzeuge mittels neuartiger patch-basierter Embedding-Manipulation in einem Diffusion-Transformer Artefakte einfügt, und einem Kuratierungsagenten, der die synthetisierten Artefakte filtert und sowohl lokale als auch globale Erklärungen für jede Instanz generiert. Mit ArtiAgent synthetisieren wir 100.000 Bilder mit umfangreichen Artefaktannotationen und demonstrieren sowohl Wirksamkeit als auch Vielseitigkeit in verschiedenen Anwendungen. Der Code ist unter Link verfügbar.

LongCLI-Bench: Ein vorläufiger Benchmark und eine Studie zur langfristigen agentenbasierten Programmierung in Kommandozeilenumgebungen
LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

Feb 15

ByYukang Feng, Jianwen Sun, Zelai Yang, Jiaxin Ai, Chuanhao Li, Zizhen Li, Fanrui Zhang, Kang He, Rui Ma, Jifan Lin, Jie Sun, Yang Xiao, Sizhuo Zhou, Wenxiao Wu, Yiming Liu, Pengfei Liu, Yu Qiao, Shenglin Zhang, Kaipeng Zhang

Jüngste Fortschritte bei der KI-gesteuerten Programmierung haben es Agenten ermöglicht, komplexe Workflows über Kommandozeilenschnittstellen auszuführen. Allerdings sind bestehende Benchmarks durch kurze Aufgabenhorizonte, Datenkontamination durch GitHub-Scraping und einen Mangel an feingranularen Bewertungsmetriken eingeschränkt, sodass sie die für realistische Softwareentwicklung entscheidenden Fähigkeiten zur langfristigen Planung und Ausführung nicht rigoros evaluieren können. Um diese Lücken zu schließen, führen wir LongCLI-Bench ein, einen umfassenden Benchmark zur Bewertung agentenbasierter Fähigkeiten in langfristigen, realistischen Aufgaben. Wir haben 20 hochwertige, langfristige Aufgaben aus über 1.000 Informatikübungen und realen Workflows in vier Ingenieurskategorien kuratiert: Entwicklung von Grund auf, Funktionserweiterung, Fehlerbehebung und Refactoring. Für LongCLI-Bench schlagen wir ein Dual-Set-Testprotokoll vor, das die Anforderungserfüllung (Fail-to-Pass) und die Vermeidung von Regressionen (Pass-to-Pass) misst und eine schrittweise Bewertung zur genauen Lokalisierung von Ausführungsfehlern integriert. Umfangreiche Experimente zeigen, dass selbst modernste Agenten in LongCLI-Bench Erfolgsquoten von unter 20 % erreichen. Die schrittweise Analyse verdeutlicht weiterhin, dass die Mehrheit der Aufgaben bei weniger als 30 % Fertigstellung stagniert, was darauf hindeutet, dass kritische Fehler häufig in frühen Phasen auftreten. Obwohl Selbstkorrektur geringfügige Verbesserungen bringt, erzielt die Mensch-Agent-Kollaboration durch Planinjektion und interaktive Führung signifikant größere Fortschritte. Diese Ergebnisse unterstreichen, dass zukünftige Forschung die Entwicklung synergistischer Mensch-Agent-Workflows ebenso vorantreiben muss wie die Verbesserung der Planungs- und Ausführungsfähigkeiten von Agenten, um Schlüsselherausforderungen bei langfristigen Aufgaben zu bewältigen.

Conv-FinRe: Eine konversationelle und longitudinale Benchmark für nutzenbasierte Finanzempfehlungen
Conv-FinRe: A Conversational and Longitudinal Benchmark for Utility-Grounded Financial Recommendation

Feb 19

ByYan Wang, Yi Han, Lingfei Qian, Yueru He, Xueqing Peng, Dongji Feng, Zhuohan Xie, Vincent Jim Zhang, Rosie Guo, Fengran Mo, Jimin Huang, Yankai Chen, Xue Liu, Jian-Yun Nie

Die meisten Empfehlungs-Benchmarks bewerten, wie gut ein Modell das Nutzerverhalten imitiert. In der Finanzberatung können beobachtete Handlungen jedoch aufgrund von Marktvolatilität verrauscht oder kurzsichtig sein und mit den langfristigen Zielen eines Nutzers in Konflikt stehen. Die alleinige Behandlung der Nutzerauswahl als absolute Grundwahrheit vermengt daher Verhaltensimitation mit Entscheidungsqualität. Wir stellen Conv-FinRe vor, einen konversationellen und longitudinalen Benchmark für Aktienempfehlungen, der LLMs über reine Verhaltensabgleichung hinaus bewertet. Basierend auf einem Onboarding-Interview, schrittweisem Marktkontext und Beratungsdialogen müssen Modelle Ranglisten über einen festen Anlagehorizont generieren. Entscheidend ist, dass Conv-FinRe Multi-View-Referenzen bereitstellt, die beschreibendes Verhalten von normativer Nutzenbewertung unterscheiden, die auf investorspezifischen Risikopräferenzen basiert. Dies ermöglicht die Diagnose, ob ein LLM rationaler Analyse folgt, Nutzerrauschen imitiert oder von Marktmomentum getrieben wird. Wir konstruieren den Benchmark aus realen Marktdaten und menschlichen Entscheidungspfaden, instanziieren kontrollierte Beratungsgespräche und evaluieren eine Reihe modernster LLMs. Die Ergebnisse zeigen eine anhaltende Spannung zwischen rationaler Entscheidungsqualität und verhaltensbezogener Ausrichtung: Modelle, die bei nutzenbasiertem Ranking gut abschneiden, scheitern oft an der Übereinstimmung mit Nutzerentscheidungen, während verhaltensalignierte Modelle kurzfristiges Rauschen overfitten können. Der Datensatz ist auf Hugging Face öffentlich verfügbar, und die Codebasis ist auf GitHub zugänglich.

Benchmark-Test-Time-Scaling von allgemeinen LLM-Agenten
Benchmark Test-Time Scaling of General LLM Agents

Feb 22

ByXiaochuan Li, Ryan Ming, Pranav Setlur, Abhijay Paladugu, Andy Tang, Hao Kang, Shuai Shao, Rong Jin, Chenyan Xiong

LLM-Agents werden zunehmend als allgemeine Systeme erwartet, die in der Lage sind, offene Benutzeranfragen zu lösen. Während bestehende Benchmarks sich auf domänenspezifische Umgebungen für die Entwicklung spezialisierter Agenten konzentrieren, erfordert die Bewertung allgemeiner Agenten realistischere Settings, die sie herausfordern, über mehrere Fähigkeiten und Werkzeuge hinweg in einer einheitlichen Umgebung zu operieren. Wir stellen General AgentBench vor, einen Benchmark, der einen solchen einheitlichen Rahmen zur Bewertung allgemeiner LLM-Agents in den Bereichen Suche, Programmierung, logisches Schlussfolgern und Werkzeugnutzung bereitstellt. Mithilfe von General AgentBench untersuchen wir systematisch Skalierungsverhalten zur Testzeit unter sequenzieller Skalierung (iterative Interaktion) und paralleler Skalierung (Sampling multipler Trajektorien). Die Evaluation von zehn führenden LLM-Agents zeigt eine erhebliche Leistungsverschlechterung beim Wechsel von domänenspezifischen Bewertungen zu diesem Allgemein-Agenten-Setting. Darüber hinaus stellen wir fest, dass keine der Skalierungsmethoden in der Praxis effektive Leistungsverbesserungen bringt, aufgrund zweier grundlegender Limitationen: Kontextobergrenze bei sequenzieller Skalierung und Verifizierungslücke bei paralleler Skalierung. Der Code ist öffentlich verfügbar unter https://github.com/cxcscmu/General-AgentBench.

PETS: Ein Prinzipienbasiertes Framework für die Optimale Trajektorienzuweisung zur Effizienten Selbstkonsistenz zur Testzeit
PETS: A Principled Framework Towards Optimal Trajectory Allocation for Efficient Test-Time Self-Consistency

Feb 18

ByZhangyi Liu, Huaizhi Qu, Xiaowei Yin, He Sun, Yanjun Han, Tianlong Chen, Zhun Deng

Test-Time-Scaling kann die Modellleistung durch die Aggregation stochastischer Reasoning-Pfade verbessern. Die Erzielung einer probeneffizienten Test-Time-Self-Consistency bei begrenztem Budget bleibt jedoch eine ungelöste Herausforderung. Wir stellen PETS (Principled and Efficient Test-Time Self-Consistency) vor, das eine prinzipielle Untersuchung der Pfadallokation durch einen Optimierungsrahmen initiiert. Zentrale Bedeutung für unseren Ansatz hat die Self-Consistency-Rate, ein neues Maß, das als Übereinstimmung mit der Mehrheitsentscheidung bei unbegrenztem Budget definiert ist. Diese Formulierung macht eine probeneffiziente Test-Time-Allokation theoretisch fundiert und einer rigorosen Analyse zugänglich. Wir untersuchen sowohl Offline- als auch Online-Szenarien. Im Offline-Regime, bei dem alle Fragen im Voraus bekannt sind, verbinden wir die Pfadallokation mit Crowdsourcing, einem klassischen und gut entwickelten Bereich, indem wir Reasoning-Spuren als Arbeiter modellieren. Diese Perspektive ermöglicht es uns, auf bestehende umfangreiche Theorie zurückzugreifen, was zu theoretischen Garantien und einem effizienten, mehrheitsbasierten Allokationsalgorithmus führt. Im Online-Streaming-Regime, bei dem Fragen sequenziell eintreffen und Allokationen ad hoc vorgenommen werden müssen, schlagen wir eine neuartige Methode vor, die vom Offline-Rahmen inspiriert ist. Unser Ansatz passt die Budgets an den Schwierigkeitsgrad der Frage an und bewahrt dabei starke theoretische Garantien und Recheneffizienz. Experimente zeigen, dass PETS durchgängig eine gleichmäßige Allokation übertrifft. Auf GPQA erreicht PETS in beiden Szenarien eine perfekte Self-Consistency und reduziert gleichzeitig das Stichprobenbudget um bis zu 75 % (Offline) bzw. 55 % (Online) im Vergleich zur gleichmäßigen Allokation. Code ist verfügbar unter https://github.com/ZDCSlab/PETS.

TAPE: Werkzeuggesteuerte adaptive Planung und eingeschränkte Ausführung in Sprachmodell-Agenten
TAPE: Tool-Guided Adaptive Planning and Constrained Execution in Language Model Agents

Feb 23

ByJongwon Jeong, Jungtaek Kim, Kangwook Lee

Sprachmodell-Agenten (LM) haben beeindruckende Fähigkeiten bei der Lösung von Aufgaben gezeigt, die mehrere Interaktionen mit der Umgebung erfordern. Sie bleiben jedoch anfällig in Umgebungen, in denen ein einzelner Fehler häufig zu nicht behebbarem Scheitern führt, insbesondere unter strengen Durchführbarkeitsbedingungen. Wir analysieren systematisch bestehende Agenten-Frameworks und identifizieren unvollständige Planung und stochastische Ausführung als Hauptursachen. Um diese Herausforderungen zu bewältigen, schlagen wir Tool-guided Adaptive Planning with constrained Execution (TAPE) vor. TAPE verbessert die Planungsfähigkeit, indem mehrere Pläne in einem Graphen aggregiert werden und ein externer Solver zur Identifikation eines machbaren Pfades eingesetzt wird. Während der Ausführung nutzt TAPE constrained Decoding, um Rauschen bei der Stichprobenziehung zu reduzieren, und passt die Planung dynamisch an, sobald Umweltfeedback vom beabsichtigten Zustand abweicht. Experimente mit Sokoban, ALFWorld, MuSiQue und GSM8K-Hard zeigen, dass TAPE durchgängig bestehende Frameworks übertrifft, mit besonders großen Verbesserungen in schwierigen Szenarien. Die Erfolgsrate steigt im Durchschnitt um 21,0 Prozentpunkte bei schwierigen Einstellungen und um 20,0 Prozentpunkte für schwächere Basismodelle. Code und Daten verfügbar unter hier.

Die Kunst des effizienten Denkens: Daten, Belohnung und Optimierung
The Art of Efficient Reasoning: Data, Reward, and Optimization

Feb 24

ByTaiqiang Wu, Zenan Zu, Bo Zhou, Ngai Wong

Große Sprachmodelle (LLMs) profitieren konsequent von skaliertem Chain-of-Thought (CoT)-Reasoning, leiden aber auch unter hohem Rechenaufwand. Um dieses Problem zu adressieren, zielt effizientes Reasoning darauf ab, kurze und dennoch präzise Denkpfade zu fördern, typischerweise durch Reward Shaping mittels Reinforcement Learning (RL). In diesem Papier untersuchen wir systematisch die Mechanismen des effizienten Reasoning für LLMs. Für eine umfassende Evaluation plädieren wir für fein granulierte Metriken, einschließlich der Längenverteilung bedingt auf Korrektheit und der Leistung über ein breites Spektrum von Token-Budgets von 2k bis 32k. Zunächst zeigen wir auf, dass der Trainingsprozess einem Zwei-Phasen-Paradigma folgt: Längenadaptation und Reasoning-Verfeinerung. Anschließend führen wir umfangreiche Experimente (etwa 0,2 Millionen GPU-Stunden) in einem einheitlichen Protokoll durch, wobei wir Trainings-Prompts und Rollouts, Reward Shaping und Optimierungsstrategien dekonstruieren. Ein zentraler Befund ist dabei, dass das Training auf relativ einfacheren Prompts erfolgen sollte, um die Dichte positiver Belohnungssignale sicherzustellen und so einen Längenzusammenbruch zu vermeiden. Gleichzeitig kann die erlernte Längenverzerrung domänenübergreifend generalisiert werden. Wir destillieren alle Erkenntnisse zu wertvollen Einsichten und praktischen Leitlinien und validieren diese weiterhin über die Qwen3-Serie hinweg, von 0,6B bis 30B, was die Robustheit und Generalisierbarkeit demonstriert.

RankEvolve: Automatisierte Entdeckung von Retrieval-Algorithmen durch LLM-gesteuerte Evolution
RankEvolve: Automating the Discovery of Retrieval Algorithms via LLM-Driven Evolution

Feb 18

ByJinming Nian, Fangchen Li, Dae Hoon Park, Yi Fang

Retrieval-Algorithmen wie BM25 und Query Likelihood mit Dirichlet-Glättung bleiben starke und effiziente Erststufen-Ranker, doch Verbesserungen basierten bisher weitgehend auf Parameteroptimierung und menschlicher Intuition. Wir untersuchen, ob ein großes Sprachmodell, geleitet durch einen Evaluator und evolutionäre Suche, automatisch verbesserte lexikalische Retrieval-Algorithmen entdecken kann. Wir stellen RankEvolve vor, ein Programmentwicklungssystem basierend auf AlphaEvolve, bei dem Kandidatenalgorithmen als ausführbarer Code repräsentiert und iterativ mutiert, rekombiniert und anhand der Retrieval-Leistung über 12 IR-Datensätze von BEIR und BRIGHT selektiert werden. RankEvolve startet mit zwei Ausgangsprogrammen: BM25 und Query Likelihood mit Dirichlet-Glättung. Die evolvierten Algorithmen sind neuartig, effektiv und zeigen vielversprechende Übertragbarkeit auf die vollständigen BEIR- und BRIGHT-Benchmarks sowie TREC DL 19 und 20. Unsere Ergebnisse deuten darauf hin, dass evaluatorgesteuerte LLM-Programmevolution ein praktikabler Weg zur automatischen Entdeckung neuartiger Ranking-Algorithmen ist.

Aletheia bewältigt FirstProof eigenständig.
Aletheia tackles FirstProof autonomously

Feb 24

ByTony Feng, Junehyuk Jung, Sang-hyun Kim, Carlo Pagano, Sergei Gukov, Chiang-Chiang Tsai, David Woodruff, Adel Javanmard, Aryan Mokhtari, Dawsen Hwang, Yuri Chervonyi, Jonathan N. Lee, Garrett Bingham, Trieu H. Trinh, Vahab Mirrokni, Quoc V. Le, Thang Luong

Wir berichten über die Leistung von Aletheia (Feng et al., 2026b), einem mathematischen Forschungsagenten, der mit Gemini 3 Deep Think betrieben wird, bei der ersten FirstProof-Herausforderung. Innerhalb des vorgegebenen Zeitrahmens der Challenge löste Aletheia autonom 6 Probleme (2, 5, 7, 8, 9, 10) von 10 gemäß der Mehrheitsbewertung von Experten; wir merken an, dass die Experten lediglich bei Problem 8 nicht einstimmig waren. Zur vollständigen Transparenz erläutern wir unser Verständnis von FirstProof und legen Einzelheiten zu unseren Experimenten sowie unserer Evaluierung offen. Rohdaten der Prompts und Outputs sind unter https://github.com/google-deepmind/superhuman/tree/main/aletheia verfügbar.

Ungebundener Ulysses: Speichereffiziente Kontext-Parallelität durch kopfweises Chunking
Untied Ulysses: Memory-Efficient Context Parallelism via Headwise Chunking

Feb 24

ByRavi Ghadia, Maksim Abraham, Sergei Vorobyov, Max Ryabinin

Die effiziente Verarbeitung langer Sequenzen mit Transformer-Modellen erfordert in der Regel eine Aufteilung der Berechnungen über Beschleuniger mittels Context Parallelism. Die vorherrschenden Ansätze dieser Methodenfamilie, wie Ring Attention oder DeepSpeed Ulysses, ermöglichen eine Skalierung über die Kontextdimension, konzentrieren sich jedoch nicht auf Speichereffizienz, was die von ihnen unterstützten Sequenzlängen begrenzt. Fortgeschrittenere Techniken, wie Fully Pipelined Distributed Transformer oder das Auslagern von Aktivierungen, können die mögliche Kontextlänge weiter erhöhen, allerdings auf Kosten des Trainingsdurchsatzes. In diesem Artikel stellen wir UPipe vor, eine einfache, aber effektive Context-Parallelism-Technik, die eine feinkörnige Aufteilung auf Ebene der Attention-Heads vornimmt. Diese Technik reduziert den Speicherverbrauch der Aktivierungen im Self-Attention-Mechanismus erheblich, durchbricht die Beschränkung durch den Aktivierungsspeicher und ermöglicht damit deutlich längere Kontextlängen. Unser Ansatz verringert den Speicherverbrauch intermediärer Tensoren in der Attention-Schicht um bis zu 87,5 % für 32B-Transformer, bei gleicher Trainingsgeschwindigkeit wie bisherige Context-Parallelism-Techniken. UPipe kann eine Kontextlänge von 5 Millionen Tokens beim Training von Llama3-8B auf einem einzelnen 8xH100-Knoten unterstützen und übertrifft damit frühere Methoden um über 25 %.

Ein-Schritt-Sprachmodellierung durch kontinuierliches Entrauschen
One-step Language Modeling via Continuous Denoising

Feb 18

ByChanhyuk Lee, Jaehoon Yoo, Manan Agarwal, Sheel Shah, Jerry Huang, Aditi Raghunathan, Seunghoon Hong, Nicholas M. Boffi, Jinwoo Kim

Sprachmodelle auf Basis diskreter Diffusion haben aufgrund ihres Potenzials, schnellere Generierung als autoregressive Modelle zu ermöglichen, breites Interesse geweckt. In der Praxis zeigt sich jedoch eine starke Verschlechterung der Probenqualität im Few-Step-Bereich, wodurch sich diese Verheißung nicht erfüllt. Hier zeigen wir, dass Sprachmodelle, die auf flow-basierter kontinuierlicher Entrauschung aufbauen, die diskrete Diffusion sowohl in Qualität als auch Geschwindigkeit übertreffen können. Durch eine Neubetrachtung der Grundlagen von Flows über diskrete Modalitäten entwickeln wir ein flow-basiertes Sprachmodell (FLM), das euklidische Entrauschung auf One-Hot-Token-Kodierungen durchführt. Wir zeigen, dass das Modell trainiert werden kann, indem die bereinigten Daten über ein Kreuzentropie-Ziel vorhergesagt werden, wobei wir eine einfache Zeit-Reparameterisierung einführen, die die Trainingsstabilität und Generierungsqualität erheblich verbessert. Durch Distillation des FLM in seine zugehörige Flow-Map erhalten wir ein distilliertes Flow-Map-Sprachmodell (FMLM), das Few-Step-Generierung ermöglicht. Auf den Sprachdatensätzen LM1B und OWT erreicht FLM eine Generierungsqualität, die mit modernsten diskreten Diffusionsmodellen vergleichbar ist. Mit FMLM übertrifft unser Ansatz aktuelle Few-Step-Sprachmodelle durchgängig, wobei die Ein-Schritt-Generierung deren 8-Schritt-Qualität übertrifft. Unsere Arbeit stellt die weit verbreitete Hypothese infrage, dass diskrete Diffusionsprozesse für generative Modellierung über diskrete Modalitäten notwendig sind, und ebnet den Weg für beschleunigte flow-basierte Sprachmodellierung im großen Maßstab. Code ist verfügbar unter https://github.com/david3684/flm.

Implizite Intelligenz – Die Bewertung von Agenten anhand dessen, was Nutzer nicht sagen
Implicit Intelligence -- Evaluating Agents on What Users Don't Say

Feb 23

ByVed Sirdeshmukh, Marc Wetter

Echte Anfragen an KI-Agenten sind grundsätzlich unterbestimmt. Natürliche menschliche Kommunikation baut auf geteiltem Kontext und unausgesprochenen Randbedingungen auf, von denen Sprecher erwarten, dass Zuhörer sie erschließen. Bestehende agentenbasierte Benchmarks testen die Befolgung expliziter Anweisungen, bewerten jedoch nicht, ob Agenten implizite Anforderungen bezüglich Barrierefreiheit, Privatsphäre, katastrophaler Risiken und kontextueller Einschränkungen erfassen können. Wir stellen Implicit Intelligence vor, ein Evaluierungsframework, das prüft, ob KI-Agenten über reine Prompt-Befolgung hinaus zu echten Zielerfüllern werden können, ergänzt durch Agent-as-a-World (AaW), eine Testumgebung, in der interaktive Welten in menschenlesbaren YAML-Dateien definiert und durch Sprachmodelle simuliert werden. Unsere Szenarien zeichnen sich durch scheinbare Einfachheit in Nutzeranfragen, verborgene Komplexität in korrekten Lösungen und die Entdeckbarkeit von Randbedingungen durch Umgebungsexploration aus. Die Auswertung von 16 führenden und Open-Weight-Modellen über 205 Szenarien hinweg zeigt, dass selbst das leistungsstärkste Modell nur eine Szenario-Erfolgsquote von 48,3 % erreicht, was erhebliches Verbesserungspotenzial bei der Überbrückung der Lücke zwischen buchstabengetreuer Anweisungsbefolgung und menschenähnlichem kontextuellem Denken offenbart.

Lernen aus Versuch und Irrtum: Reflektive Planung zur Testzeit für verkörperte LLMs
Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs

Feb 24

ByYining Hong, Huang Huang, Manling Li, Li Fei-Fei, Jiajun Wu, Yejin Choi

Embodied LLMs verleihen Robotern zwar eine hochrangige Aufgabenplanung, können jedoch nicht reflektieren, was schiefgelaufen ist oder warum. Dies macht den Einsatz zu einer Abfolge unabhängiger Versuche, bei denen sich Fehler wiederholen, anstatt sich zu Erfahrung anzusammeln. Inspiriert von menschlichen Reflective Practitioners führen wir Reflective Test-Time Planning ein, das zwei Reflexionsmodi integriert: Reflection-in-Action, bei dem der Agent Test-Time-Scaling nutzt, um vor der Ausführung multiple Handlungsoptionen durch interne Reflexionen zu generieren und zu bewerten; sowie Reflection-on-Action, das Test-Time-Training verwendet, um sowohl sein internes Reflexionsmodell als auch seine Handlungsstrategie nach der Ausführung auf Basis externer Reflexionen zu aktualisieren. Zusätzlich integrieren wir retrospektive Reflexion, die es dem Agenten ermöglicht, frühere Entscheidungen neu zu bewerten und Modellaktualisierungen im Nachhinein für eine korrekte langfristige Kreditzuweisung vorzunehmen. Experimente auf unserem neu entwickelten Long-Horizon Household Benchmark und dem MuJoCo Cupboard Fitting Benchmark zeigen signifikante Verbesserungen gegenüber Baseline-Modellen, wobei Ablationsstudien die komplementären Rollen von Reflection-in-Action und Reflection-on-Action validieren. Qualitative Analysen, einschließlich Versuchen mit echten Robotern, verdeutlichen Verhaltenskorrekturen durch Reflexion.

Kommunikationsinspirierte Tokenisierung für strukturierte Bildrepräsentationen
Communication-Inspired Tokenization for Structured Image Representations

Feb 24

ByAram Davtyan, Yusuf Sahin, Yasaman Haghighi, Sebastian Stapf, Pablo Acuaviva, Alexandre Alahi, Paolo Favaro

Diskrete Bild-Tokenizer haben sich als Schlüsselkomponente moderner visueller und multimodaler Systeme etabliert, da sie eine sequenzielle Schnittstelle für transformerbasierte Architekturen bereitstellen. Die meisten bestehenden Ansätze sind jedoch primär auf Rekonstruktion und Kompression optimiert und erzeugen oft Tokens, die lokale Texturen anstelle einer objektbasierten semantischen Struktur erfassen. Inspiriert von der inkrementellen und kompositionellen Natur menschlicher Kommunikation führen wir COMmunication inspired Tokenization (COMiT) ein, ein Framework zum Erlernen strukturierter diskreter visueller Token-Sequenzen. COMiT konstruiert eine latente Nachricht innerhalb eines festen Token-Budgets, indem es iterativ lokalisierte Bildausschnitte betrachtet und seine diskrete Repräsentation rekurrent aktualisiert. In jedem Schritt integriert das Modell neue visuelle Informationen und verfeinert sowie reorganisiert gleichzeitig die bestehende Token-Sequenz. Nach mehreren Encodierungs-Iterationen konditioniert die finale Nachricht einen Flow-Matching-Decoder, der das vollständige Bild rekonstruiert. Sowohl Encodierung als auch Decodierung werden innerhalb eines einzigen Transformer-Modells implementiert und end-to-end unter Verwendung einer Kombination aus Flow-Matching-Rekonstruktions- und semantischen Repräsentations-Alignment-Verlustfunktionen trainiert. Unsere Experimente zeigen, dass semantisches Alignment zwar eine Grundlage bietet, eine aufmerksamkeitsgesteuerte sequenzielle Tokenisierung jedoch entscheidend ist, um interpretierbare, objektzentrierte Token-Strukturen zu induzieren und die kompositionelle Generalisierung sowie das relationale Schließen im Vergleich zu früheren Methoden erheblich zu verbessern.

Generative KI und maschinelles Lernen im Zusammenwirken zur Prognose der Container-Verweildauer durch Datenstandardisierung
Generative AI and Machine Learning Collaboration for Container Dwell Time Prediction via Data Standardization

Feb 24

ByMinseop Kim, Takhyeong Kim, Taekhyun Park, Hanbyeol Park, Hyerim Bae

Die Vorhersage der Import-Container-Verweildauer (ICDT) ist eine Schlüsselaufgabe zur Steigerung der Produktivität in Containerterminals, da genaue Prognosen die Reduzierung von Nachladevorgängen durch Yard-Kräne ermöglichen. Um dieses Ziel zu erreichen, muss die Verweildauer einzelner Container präzise vorhergesagt werden. Die primären Einflussfaktoren der Verweildauer – Informationen zum Eigentümer und zur Ladung – liegen jedoch als unstrukturierter Text vor, was ihre effektive Nutzung in Machine-Learning-Modellen einschränkt. Diese Studie begegnet dieser Einschränkung durch einen kollaborativen Ansatz, der generative künstliche Intelligenz (Gen AI) mit maschinellem Lernen integriert. Der vorgeschlagene Rahmen nutzt Gen AI, um unstrukturierte Informationen in standardisierte internationale Codes zu überführen. Durch dynamische Neuberechnungen, die durch Aktualisierungen des Electronic Data Interchange-Status ausgelöst werden, kann das Machine-Learning-Modell die ICDT präzise vorhersagen. Umfangreiche Experimente mit realen Terminaldaten zeigen, dass die vorgeschlagene Methodik im Vergleich zu konventionellen Modellen ohne standardisierte Informationen eine Verbesserung des mittleren absoluten Fehlers von 13,88 % erreicht. Die Anwendung der verbesserten Vorhersagen auf Container-Stapelstrategien reduziert zudem die Anzahl der Umlagerungen um bis zu 14,68 %, was das Potenzial von Gen AI zur Steigerung der Terminalproduktivität empirisch validiert. Insgesamt liefert diese Studie sowohl technische als auch methodische Einblicke in den Einsatz von Gen AI in der Hafenlogistik und dessen Wirksamkeit.

SIMSPINE: Ein biomechanikbewusstes Simulationsframework zur 3D-Bewegungsannotation und -bewertung der Wirbelsäule
SIMSPINE: A Biomechanics-Aware Simulation Framework for 3D Spine Motion Annotation and Benchmarking

Feb 24

ByMuhammad Saif Ullah Khan, Didier Stricker

Die Modellierung der Wirbelsäulenbewegung ist grundlegend für das Verständnis der menschlichen Biomechanik, wird jedoch in der Computer Vision aufgrund der komplexen Multi-Gelenk-Kinematik der Wirbelsäule und des Mangels an großflächigen 3D-Annotationen bisher wenig erforscht. Wir stellen ein biomechanik-bewusstes Keypoint-Simulationsframework vor, das bestehende menschliche Posenschätzungs-Datensätze mit anatomisch konsistenten 3D-Wirbelsäulen-Keypoints erweitert, die aus muskuloskelettalen Modellen abgeleitet werden. Mithilfe dieses Frameworks erstellen wir den ersten offenen Datensatz namens SIMSPINE, der spärliche 3D-Wirbelsäulenannotationen auf Wirbelebene für natürliche Ganzkörperbewegungen in Innenraum-Aufnahmen mit Mehrkamerasystemen ohne externe Fixierung bereitstellt. Mit 2,14 Millionen Bildern ermöglicht dies datengesteuertes Lernen der vertebralen Kinematik aus subtilen Haltungsvariationen und überbrückt die Lücke zwischen muskuloskelettaler Simulation und Computer Vision. Zusätzlich veröffentlichen wir vortrainierte Baseline-Modelle, darunter feinabgestimmte 2D-Detektoren, monokulare 3D-Pose-Lifting-Modelle und Multi-View-Rekonstruktions-Pipelines, und etablieren so einen einheitlichen Benchmark für biomechanisch valide Schätzung der Wirbelsäulenbewegung. Konkret verbessern unsere 2D-Wirbelsäulen-Baselines den State-of-the-Art von 0,63 auf 0,80 AUC in kontrollierten Umgebungen und von 0,91 auf 0,93 AP für Wirbelsäulentracking unter realen Bedingungen. Gemeinsam fördern das Simulationsframework und der SIMSPINE-Datensatz die Forschung in den Bereichen visuell gestützte Biomechanik, Bewegungsanalyse und digitale Menschmodellierung, indem sie reproduzierbare, anatomisch fundierte 3D-Wirbelsäulenschätzung unter natürlichen Bedingungen ermöglichen.

Die Diffusionsdualität, Kapitel II: Ψ-Sampler und effiziente Curricula
The Diffusion Duality, Chapter II: Ψ-Samplers and Efficient Curriculum

Feb 24

ByJustin Deschenaux, Caglar Gulcehre, Subham Sekhar Sahoo

Uniform-State-Diskrete-Diffusionsmodelle zeichnen sich durch ihre Fähigkeit zur Selbstkorrektur bei der Generierung in wenigen Schritten und bei der Führung aus, was sie in diesen Kontexten autoregressiven oder Masked-Diffusionsmodellen überlegen macht. Allerdings erreicht ihre Abtastqualität bei ancestral Samplern mit zunehmender Schrittzahl ein Plateau. Wir stellen eine Familie von Predictor-Corrector (PC)-Samplern für diskrete Diffusion vor, die frühere Methoden verallgemeinern und auf beliebige Rauschprozesse anwendbar sind. In Kombination mit Uniform-State-Diffusion übertreffen unsere Sampler das ancestrale Sampling sowohl bei der Sprach- als auch bei der Bildmodellierung: Auf OpenWebText wird eine geringere generative Perplexität bei gleicher Unigram-Entropie erzielt, und auf CIFAR10 werden bessere FID/IS-Werte erreicht. Entscheidend ist, dass unsere PC-Methoden – im Gegensatz zu konventionellen Samplern – bei mehr Abtastschritten weiterhin Verbesserungen zeigen. Zusammengenommen stellen diese Ergebnisse die Annahme infrage, dass Masked Diffusion die unausweichliche Zukunft der diffusionsbasierten Sprachmodellierung sei. Darüber hinaus entwickeln wir für die Trainingsphase der Gaußschen Relaxation einen speichereffizienten Lehrplan, der die Trainingszeit im Vergleich zu Duo um 25 % und den Speicherbedarf um 33 % reduziert, bei vergleichbarer Perplexität auf OpenWebText und LM1B sowie starker Leistung in nachgelagerten Aufgaben. Code, Checkpoints und ein Video-Tutorial sind verfügbar unter: https://s-sahoo.com/duo-ch2

OmniOCR: Generalistisches OCR für ethnische Minderheitensprachen
OmniOCR: Generalist OCR for Ethnic Minority Languages

Feb 24

ByBonan Liu, Zeyu Zhang, Bingbing Meng, Han Wang, Hanshuo Zhang, Chengping Wang, Daji Ergu, Ying Cai

Optische Zeichenerkennung (OCR) hat durch Deep Learning und multimodale Modelle rasante Fortschritte gemacht, doch konzentrieren sich die meisten Methoden auf gut erforschte Schriftsysteme wie Lateinisch und Chinesisch. Ethnische Minderheitensprachen bleiben aufgrund komplexer Schriftsysteme, knapper Annotationen und vielfältiger historischer sowie moderner Formen untererforscht, was die Generalisierung in ressourcenarmen oder Zero-Shot-Szenarien erschwert. Um diese Herausforderungen zu bewältigen, stellen wir OmniOCR vor, ein universelles Framework für Schriften ethnischer Minderheiten. OmniOCR führt Dynamic Low-Rank Adaptation (Dynamic LoRA) ein, um Modellkapazitäten über Schichten und Schriften hinweg dynamisch zuzuteilen und so eine effektive Anpassung bei gleichzeitigem Erhalt des Wissens zu ermöglichen. Eine Sparsity-Regularisierung entfernt redundante Aktualisierungen und gewährleistet eine kompakte und effiziente Anpassung ohne zusätzliche Inferenzkosten. Evaluationen auf TibetanMNIST, Shui, antikem Yi und Dongba zeigen, dass OmniOCR Zero-Shot-Foundation-Modelle und Standard-Post-Training übertrifft, state-of-the-art Genauigkeit bei überlegener Parameter-Effizienz erreicht und im Vergleich zu den besten Baseline-Modellen die Genauigkeit auf diesen vier Datensätzen um 39 % bis 66 % steigert. Code: https://github.com/AIGeeksGroup/OmniOCR.

OCR-Agent: Agentenbasierte Texterkennung mit Fähigkeits- und Gedächtnisreflexion
OCR-Agent: Agentic OCR with Capability and Memory Reflection

Feb 24

ByShimin Wen, Zeyu Zhang, Xingdou Bian, Hongjie Zhu, Lulu He, Layi Shama, Daji Ergu, Ying Cai

Große visuell-sprachliche Modelle (VLMs) haben durch iterative Optimierungsmethoden ein erhebliches Potenzial für komplexe Bildverständnisaufgaben gezeigt. Allerdings fehlen diesen Modellen im Allgemeinen effektive Selbstkorrekturmechanismen, was es ihnen erschwert, kognitive Verzerrungen eigenständig zu korrigieren. Infolgedessen geraten sie bei mehrfachen Überarbeitungen oft in repetitive und ineffektive Versuche und erreichen keine stabilen Verbesserungen der Antwortqualität. Um dieses Problem zu lösen, schlagen wir einen neuartigen iterativen Selbstkorrekturrahmen vor, der Modelle mit zwei Schlüsselfähigkeiten ausstattet: Fähigkeitsreflexion und Gedächtnisreflexion. Dieser Rahmen leitet das Modell an, zunächst Fehler zu diagnostizieren und einen Korrekturplan über Fähigkeitsreflexion zu generieren, dann Vergangenheitsversuche mittels Gedächtnisreflexion zu überprüfen, um Wiederholungen zu vermeiden und neue Lösungen zu erkunden, und schließlich die Antwort durch rigoroses Nachdenken zu optimieren. Experimente auf der anspruchsvollen OCRBench v2 Benchmark zeigen, dass OCR-Agent das aktuelle Open-Source-SOTA-Modell InternVL3-8B um +2,0 auf englischen und +1,2 auf chinesischen Teilmengen übertrifft und dabei state-of-the-art Ergebnisse im Bildverständnis (79,9) und Schlussfolgern (66,5) erzielt – selbst größere feinabgestimmte Modelle übertreffend. Unsere Methode zeigt, dass strukturierte, selbstbewusste Reflexion die Robustheit der Schlussfolgerung von VLMs ohne zusätzliches Training erheblich verbessern kann. Code: https://github.com/AIGeeksGroup/OCR-Agent.

Adaptive Textanonymisierung: Erlernen von Privatsphäre-Nutzen-Kompromitten durch Prompt-Optimierung
Adaptive Text Anonymization: Learning Privacy-Utility Trade-offs via Prompt Optimization

Feb 24

ByGabriel Loiseau, Damien Sileo, Damien Riquet, Maxime Meyer, Marc Tommasi

Die Anonymisierung textueller Dokumente ist ein hochgradig kontextsensitives Problem: Das angemessene Gleichgewicht zwischen Privatsphärenschutz und Datennützlichkeit variiert je nach Datenbereich, Datenschutzzielen und nachgelagerten Anwendungen. Bisherige Anonymisierungsmethoden beruhen jedoch auf statischen, manuell entworfenen Strategien, denen die Flexibilität fehlt, um sich an unterschiedliche Anforderungen anzupassen, und die häufig domänenübergreifend nicht verallgemeinerbar sind. Wir führen adaptive Textanonymisierung ein, eine neue Aufgabenformulierung, bei der Anonymisierungsstrategien automatisch an spezifische Privatsphären-Nützlichkeits-Anforderungen angepasst werden. Wir schlagen ein Framework zur aufgaben spezifischen Prompt-Optimierung vor, das automatisch Anonymisierungsinstruktionen für Sprachmodelle erstellt und so die Anpassung an verschiedene Datenschutzziele, Domänen und Nutzungsmuster ermöglicht. Zur Evaluation unseres Ansatzes präsentieren wir einen Benchmark mit fünf Datensätzen, die unterschiedliche Domänen, Datenschutzauflagen und Nützlichkeitsziele abdecken. In allen evaluierten Settings erzielt unser Framework durchgängig eine bessere Privatsphären-Nützlichkeits-Abwägung als bestehende Baseline-Methoden, bleibt dabei recheneffizient und effektiv auf Open-Source-Sprachmodellen mit einer Leistung, die mit größeren Closed-Source-Modellen vergleichbar ist. Zudem zeigen wir, dass unsere Methode neuartige Anonymisierungsstrategien entdecken kann, die verschiedene Punkte entlang der Privatsphären-Nützlichkeits-Grenze erkunden.

TextPecker: Belohnung der Quantifizierung struktureller Anomalien zur Verbesserung des visuellen Textrenderings
TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering

Feb 24

ByHanshen Zhu, Yuliang Liu, Xuecheng Wu, An-Lan Wang, Hao Feng, Dingkang Yang, Chao Feng, Can Huang, Jingqun Tang, Xiang Bai

Visuelle Textdarstellung (VTR) bleibt eine kritische Herausforderung in der Text-zu-Bild-Generierung, bei der selbst fortschrittliche Modelle häufig Text mit strukturellen Anomalien wie Verzerrungen, Unschärfe und Fehlausrichtung erzeugen. Wir stellen jedoch fest, dass führende MLLMs und spezialisierte OCR-Modelle größtenteils nicht in der Lage sind, diese strukturellen Anomalien wahrzunehmen, was einen kritischen Engpass sowohl für die VTR-Bewertung als auch für die RL-basierte Optimierung darstellt. Infolgedessen kämpfen selbst state-of-the-art Generatoren (z.B. SeedDream4.0, Qwen-Image) immer noch damit, strukturell korrekten Text darzustellen. Um dies zu lösen, schlagen wir TextPecker vor, eine Plug-and-Play-RL-Strategie zur Wahrnehmung struktureller Anomalien, die verrauschte Belohnungssignale mildert und mit jedem Text-zu-Bild-Generator funktioniert. Um diese Fähigkeit zu ermöglichen, erstellen wir einen Erkennungsdatensatz mit Annotationen struktureller Anomalien auf Zeichenebene und entwickeln eine Stroke-Editing-Synthese-Engine, um die Abdeckung struktureller Fehler zu erweitern. Experimente zeigen, dass TextPecker konsistent verschiedene Text-zu-Bild-Modelle verbessert; selbst beim bereits gut optimierten Qwen-Image erzielt es signifikante durchschnittliche Steigerungen von 4 % in der strukturellen Treue und 8,7 % in der semantischen Übereinstimmung für die chinesische Textdarstellung und etabliert damit einen neuen State-of-the-Art in der hochpräzisen VTR. Unsere Arbeit schließt eine Lücke in der VTR-Optimierung und bietet einen grundlegenden Schritt hin zu einer zuverlässigen und strukturell korrekten visuellen Texterzeugung.

LaS-Comp: Null-Shot-3D-Vervollständigung mit latenter räumlicher Konsistenz
LaS-Comp: Zero-shot 3D Completion with Latent-Spatial Consistency

Feb 21

ByWeilong Yan, Haipeng Li, Hao Xu, Nianjin Ye, Yihao Ai, Shuaicheng Liu, Jingyu Hu

Dieses Papier stellt LaS-Comp vor, einen Zero-Shot-Ansatz, der kategorienunabhängig die reichhaltigen geometrischen Priori-Informationen von 3D-Foundation-Modellen nutzt, um 3D-Formvervollständigung über verschiedene Arten von Teilbeobachtungen hinweg zu ermöglichen. Unsere Beiträge sind dreifach: Erstens nutzt unser Ansatz diese leistungsstarken generativen Priori-Informationen für die Vervollständigung durch ein komplementäres Zwei-Stufen-Design: (i) eine explizite Ersetzungsstufe, die die Geometrie der Teilbeobachtung erhält, um eine authentische Vervollständigung zu gewährleisten; und (ii) eine implizite Verfeinerungsstufe, die nahtlose Übergänge zwischen den beobachteten und synthetisierten Bereichen sicherstellt. Zweitens ist unser Framework trainingsfrei und mit verschiedenen 3D-Foundation-Modellen kompatibel. Drittens führen wir Omni-Comp ein, einen umfassenden Benchmark, der reale und synthetische Daten mit verschiedenen und anspruchsvollen Teilmustern kombiniert und so eine gründlichere und realistischere Evaluation ermöglicht. Sowohl quantitative als auch qualitative Experimente zeigen, dass unser Ansatz bisherige State-of-the-Art-Verfahren übertrifft. Unser Code und unsere Daten werden unter https://github.com/DavidYan2001/LaS-Comp verfügbar sein.

FlowPrefill: Entkopplung von Präemption von der Granularität der Prefill-Planung zur Minderung von Head-of-Line-Blocking bei der LLM-Auslieferung
FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM Serving

Feb 18

ByChia-chi Hsieh, Zan Zong, Xinyang Chen, Jianjiang Li, Jidong Zhai, Lijie Wen

Der steigende Bedarf an großen Sprachmodellen (LLMs) erfordert Serversysteme, die viele gleichzeitige Anfragen mit unterschiedlichen Service Level Objectives (SLOs) bewältigen können. Dies verschärft das Head-of-Line (HoL)-Blockieren während der rechenintensiven Prefill-Phase, in der langlaufende Anfragen Ressourcen monopolisieren und höherpriorisierte verzögern, was zu weitverbreiteten Verstößen gegen die Time-to-First-Token (TTFT)-SLOs führt. Während chunked Prefill Unterbrechbarkeit ermöglicht, führt es zu einem inhärenten Zielkonflikt zwischen Reaktionsfähigkeit und Durchsatz: Eine Verringerung der Chunk-Größe verbessert die Antwortlatenz, verschlechtert jedoch die Recheneffizienz, während eine Vergrößerung der Chunk-Größe den Durchsatz maximiert, aber das Blockieren verstärkt. Dies erfordert einen adaptiven Präemptionsmechanismus. Die dynamische Abwägung zwischen Ausführungsgranularität und Scheduling-Overhead bleibt jedoch eine zentrale Herausforderung. In diesem Artikel stellen wir FlowPrefill vor, ein TTFT-Goodput-optimiertes Serversystem, das diesen Konflikt löst, indem es die Präemptionsgranularität von der Scheduling-Häufigkeit entkoppelt. Um adaptives Prefill-Scheduling zu erreichen, führt FlowPrefill zwei wesentliche Innovationen ein: 1) *Operator-Level Preemption*, das Operator-Grenzen nutzt, um eine feingranulare Ausführungsunterbrechung ohne den mit festen kleinen Chunks verbundenen Effizienzverlust zu ermöglichen; und 2) *Event-Driven Scheduling*, das Scheduling-Entscheidungen nur bei Anfrageankunft oder -abschluss auslöst und so eine effiziente Präemptionsreaktionsfähigkeit bei minimalem Control-Plane-Overhead unterstützt. Auswertungen mit Produktions-Traces zeigen, dass FlowPrefill den maximalen Goodput im Vergleich zu state-of-the-art Systemen um bis zu das 5,6-fache steigert, während heterogene SLOs eingehalten werden.

Aktive Rekonstruktion zum Erkennen von Trainingsdaten für Sprachmodelle
Learning to Detect Language Model Training Data via Active Reconstruction

Feb 22

ByJunjie Oscar Yin, John X. Morris, Vitaly Shmatikov, Sewon Min, Hannaneh Hajishirzi

Die Erkennung von LLM-Trainingsdaten wird allgemein als Problem von Membership-Inference-Angriffen (MIA) betrachtet. Herkömmliche MIAs arbeiten jedoch passiv auf festen Modellgewichten unter Verwendung von Log-Likelihoods oder Textgenerierungen. In dieser Arbeit stellen wir Active Data Reconstruction Attack (ADRA) vor, eine Familie von MIAs, die ein Modell aktiv durch Training zur Rekonstruktion eines gegebenen Textes veranlasst. Wir stellen die Hypothese auf, dass Trainingsdaten besser rekonstruierbar sind als Nicht-Mitglieder, und dass der Unterschied in ihrer Rekonstruierbarkeit für Membership Inference genutzt werden kann. Angeregt durch Erkenntnisse, dass Reinforcement Learning (RL) bereits in den Gewichten kodierte Verhaltensweisen verstärkt, nutzen wir On-Policy-RL, um durch Feinabstimmung einer vom Zielmodell initialisierten Policy aktiv Datenrekonstruktion hervorzurufen. Um RL effektiv für MIA einzusetzen, entwerfen wir Rekonstruktionsmetriken und kontrastive Belohnungen. Die resultierenden Algorithmen ADRA und seine adaptive Variante ADRA+ verbessern sowohl die Rekonstruktion als auch die Detektion bei gegebenem Kandidatendatenpool. Experimente zeigen, dass unsere Methoden bestehende MIAs durchgängig in der Erkennung von Pre-Training-, Post-Training- und Distillationsdaten übertreffen, mit einer durchschnittlichen Verbesserung von 10,7 % gegenüber dem vorherigen Zweitplatzierten. Insbesondere verbessert \MethodPlus~Min-K%++ um 18,8 % bei BookMIA für Pre-Training-Erkennung und um 7,6 % bei AIME für Post-Training-Erkennung.