HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

24 papers found

DataFlow: Ein LLM-gesteuertes Framework für vereinheitlichte Datenaufbereitung und Workflow-Automatisierung im Zeitalter der datenzentrierten KI
DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI

Dec 18

ByHao Liang, Xiaochen Ma, Zhou Liu, Zhen Hao Wong, Zhengyang Zhao, Zimo Meng, Runming He, Chengyu Shen, Qifeng Cai, Zhaoyang Han, Meiyi Qiang, Yalin Feng, Tianyi Bai, Zewei Pan, Ziyi Guo, Yizhen Jiang, Jingwen Deng, Qijie You, Peichao Lai, Tianyu Guo, Chi Hsu Tsai, Hengyi Feng, Rui Hu, Wenkai Yu, Junbo Niu, Bohan Zeng, Ruichuan An, Lu Ma, Jihao Huang, Yaowei Zheng, Conghui He, Linpeng Tang, Bin Cui, Weinan E, Wentao Zhang

217

Der rasch wachsende Bedarf an hochwertigen Daten für große Sprachmodelle (LLMs) hat den Bedarf an skalierbaren, zuverlässigen und semantisch reichhaltigen Datenaufbereitungspipelines verstärkt. Allerdings werden aktuelle Praktiken nach wie vor von Ad-hoc-Skripten und lose spezifizierten Workflows dominiert, denen prinzipielle Abstraktionen fehlen, die Reproduzierbarkeit behindern und nur begrenzte Unterstützung für modellgestützte Datengenerierung bieten. Um diese Herausforderungen zu bewältigen, stellen wir DataFlow vor, ein einheitliches und erweiterbares LLM-gestütztes Framework zur Datenaufbereitung. DataFlow wurde mit Systemabstraktionen entworfen, die modulare, wiederverwendbare und kombinierbare Datentransformationen ermöglichen, und bietet eine Pipeline-Erstellungs-API im PyTorch-Stil zum Aufbau debug- und optimierbarer Dataflows. Das Framework besteht aus fast 200 wiederverwendbaren Operatoren und sechs domänenübergreifenden Pipelines, die die Bereiche Text, mathematisches Schließen, Code, Text-to-SQL, agentenbasierte RAG-Systeme und groß angelegte Wissensextraktion abdecken. Um die Benutzerfreundlichkeit weiter zu verbessern, führen wir DataFlow-Agent ein, das natürliche Sprachspezifikationen automatisch über Operatorsynthese, Pipeline-Planung und iterative Verifikation in ausführbare Pipelines übersetzt. In sechs repräsentativen Anwendungsfällen verbessert DataFlow durchgängig die Leistung nachgelagerter LLMs. Unsere Mathematik-, Code- und Text-Pipelines übertreffen kuratierte menschliche Datensätze und spezialisierte synthetische Baselines, mit bis zu +3 % höherer Ausführungsgenauigkeit in Text-to-SQL gegenüber SynSQL, durchschnittlich +7 % Verbesserung auf Code-Benchmarks und Steigerungen von 1–3 Punkten auf MATH, GSM8K und AIME. Darüber hinaus ermöglicht ein von DataFlow erzeugter, einheitlicher 10K-Beispiel-Datensatz, dass Basismodelle Gegenstücke übertreffen, die mit 1M Infinity-Instruct-Daten trainiert wurden. Diese Ergebnisse demonstrieren, dass DataFlow eine praktische und leistungsstarke Grundlage für zuverlässige, reproduzierbare und skalierbare LLM-Datenaufbereitung bietet und eine Systemgrundlage für die zukünftige datenzentrierte KI-Entwicklung schafft.

Die Prismen-Hypothese: Harmonisierung semantischer und Pixel-Repräsentationen durch vereinheitlichtes Autoencoding
The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding

Dec 22

ByWeichen Fan, Haiwen Diao, Quan Wang, Dahua Lin, Ziwei Liu

Tiefe Repräsentationen über Modalitäten hinweg sind inhärent miteinander verwoben. In dieser Arbeit analysieren wir systematisch die spektralen Eigenschaften verschiedener semantischer und Pixel-Encoder. Interessanterweise deckt unsere Studie eine höchst aufschlussreiche und selten untersuchte Korrespondenz zwischen dem Frequenzspektrum eines Encoders und seiner funktionalen Rolle auf: Semantische Encoder erfassen primär niederfrequente Komponenten, die abstrakte Bedeutung kodieren, wohingegen Pixel-Encoder zusätzlich hochfrequente Informationen bewahren, die fein granulare Details übermitteln. Diese heuristische Erkenntnis bietet eine vereinheitlichende Perspektive, die das Encoder-Verhalten an seine zugrundeliegende Spektralstruktur bindet. Wir definieren dies als die Prismen-Hypothese, bei der jede Datenmodalität als eine Projektion der natürlichen Welt auf ein gemeinsames Merkmalspektrum betrachtet werden kann, ähnlich wie bei einem Prisma. Aufbauend auf dieser Einsicht schlagen wir Unified Autoencoding (UAE) vor, ein Modell, das semantische Struktur und Pixeldetails über einen innovativen Frequenzband-Modulator harmonisiert und ihre nahtlose Koexistenz ermöglicht. Umfangreiche Experimente auf den ImageNet- und MS-COCO-Benchmarks validieren, dass unser UAE semantische Abstraktion und Pixelgenauigkeit effektiv in einem einzigen latenten Raum mit State-of-the-Art-Leistung vereint.

Kontextgestützte Generierung mit Regionsbeschränkung für die Bearbeitung von Instruktionsvideos
Region-Constraint In-Context Generation for Instructional Video Editing

Dec 19

ByZhongwei Zhang, Fuchen Long, Wei Li, Zhaofan Qiu, Wu Liu, Ting Yao, Tao Mei

Das Paradigma der In-context-Generierung hat kürzlich sowohl in Bezug auf Dateneffizienz als auch auf die Synthesequalität eine starke Leistungsfähigkeit beim instruktionsbasierten Bildbearbeitung demonstriert. Dennoch ist die Übertragung dieses In-context-Lernens auf die instruktionsbasierte Videobearbeitung nicht trivial. Ohne die Bearbeitungsregionen genau zu spezifizieren, können die Ergebnisse unter dem Problem ungenauer Bearbeitungsbereiche und der Token-Interferenz zwischen Bearbeitungs- und Nicht-Bearbeitungsbereichen während der Denoisierung leiden. Um diese Probleme zu adressieren, stellen wir ReCo vor, ein neues Paradigma für die instruktionsbasierte Videobearbeitung, das neuartig die Modellierung von Constraints zwischen Bearbeitungs- und Nicht-Bearbeitungsregionen während der In-context-Generierung untersucht. Technisch gesehen verkettet ReCo Quell- und Zielvideo seitenweise für eine gemeinsame Denoisierung. Um das Video-Diffusionslernen zu kalibrieren, nutzt ReCo zwei Regularisierungsterme, nämlich latente Regularisierung und Attention-Regularisierung, die auf den jeweils einen Schritt zurückgerechneten denoised Latents bzw. Attention-Maps operieren. Ersteres erhöht die latente Diskrepanz der Bearbeitungsregion zwischen Quell- und Zielvideos, während es die der Nicht-Bearbeitungsbereiche verringert, um die Modifikation im Bearbeitungsbereich zu betonen und unerwünschte Inhaltsgenerierung außerhalb zu reduzieren. Letzteres unterdrückt die Aufmerksamkeit von Tokens in der Bearbeitungsregion auf Tokens im Gegenstück des Quellvideos, wodurch deren Interferenz während der Generierung neuer Objekte im Zielvideo gemildert wird. Darüber hinaus schlagen wir einen großen, hochwertigen Videobearbeitungsdatensatz vor, d.h. ReCo-Data, der 500.000 Instruktions-Video-Paare umfasst, um das Modelltraining zu unterstützen. Umfangreiche Experimente, die an vier wichtigen instruktionsbasierten Videobearbeitungsaufgaben durchgeführt wurden, demonstrieren die Überlegenheit unseres Ansatzes.

QuCo-RAG: Quantifizierung von Unsicherheiten aus dem Vortrainierungskorpus für dynamische abrufverstärkte Generierung
QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation

Dec 22

ByDehai Min, Kailin Zhang, Tongtong Wu, Lu Cheng

Dynamic Retrieval-Augmented Generation bestimmt adaptiv, wann während der Generierung eine Abfrage durchgeführt werden muss, um Halluzinationen in großen Sprachmodellen (LLMs) zu reduzieren. Bisherige Methoden stützen sich jedoch auf modellinterne Signale (z.B. Logits, Entropie), die grundsätzlich unzuverlässig sind, da LLMs typischerweise schlecht kalibriert sind und oft hohes Vertrauen in fehlerhafte Ausgaben zeigen. Wir schlagen QuCo-RAG vor, das von subjektivem Vertrauen zu objektiven Statistiken übergeht, die aus Vortrainingsdaten berechnet werden. Unsere Methode quantifiziert Unsicherheit in zwei Stufen: (1) Vor der Generierung identifizieren wir niedrigfrequente Entitäten, die Wissenslücken im Long-Tail-Bereich anzeigen; (2) Während der Generierung überprüfen wir die gemeinsame Auftretenshäufigkeit von Entitäten im Vortrainingskorpus, wobei kein gemeinsames Auftreten oft auf ein Halluzinationsrisiko hindeutet. Beide Stufen nutzen Infini-gram für Abfragen mit Millisekunden-Latenz über 4 Billionen Tokens und lösen eine Abfrage aus, wenn die Unsicherheit hoch ist. Experimente auf Multi-Hop-QA-Benchmarks zeigen, dass QuCo-RAG mit OLMo-2-Modellen gegenüber state-of-the-art Baseline-Methoden EM-Gewinne von 5–12 Punkten erzielt und effektiv auf Modelle mit nicht-offengelegten Vortrainingsdaten (Llama, Qwen, GPT) überträgt, wobei die EM um bis zu 14 Punkte verbessert wird. Domänenübergreifende Generalisierung auf biomedizinische QA validiert weiter die Robustheit unseres Paradigmas. Diese Ergebnisse etablieren korpusbasierte Verifikation als ein prinzipielles, praktisch modellagnostisches Paradigma für dynamisches RAG. Unser Code ist öffentlich verfügbar unter https://github.com/ZhishanQ/QuCo-RAG.

WorldWarp: Propagation von 3D-Geometrie mit asynchroner Videodiffusion
WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion

Dec 22

ByHanyang Kong, Xingyi Yang, Xiaoxu Zheng, Xinchao Wang

Die Erzeugung langreichweitiger, geometrisch konsistenter Videos stellt ein grundlegendes Dilemma dar: Während Konsistenz strikte Einhaltung der 3D-Geometrie im Pixelraum erfordert, operieren moderne generative Modelle am effektivsten in einem kamera-konditionierten latenten Raum. Diese Diskrepanz führt dazu, dass aktuelle Methoden mit verdeckten Bereichen und komplexen Kameratrajektorien kämpfen. Um diese Lücke zu schließen, schlagen wir WorldWarp vor, ein Framework, das einen 3D-Strukturanker mit einem 2D-generativen Verfeinerer koppelt. Um geometrische Verankerung zu schaffen, pflegt WorldWarp einen online 3D-Geometrie-Cache, der mittels Gaussian Splatting (3DGS) aufgebaut wird. Durch explizites Warpen historischer Inhalte in neue Blickwinkel dient dieser Cache als strukturelles Gerüst, das sicherstellt, dass jedes neue Frame die vorherige Geometrie respektiert. Statisches Warpen hinterlässt jedoch unweigerlich Lücken und Artefakte aufgrund von Verdeckungen. Dies lösen wir mit einem Spatio-Temporal Diffusion (ST-Diff)-Modell, das für ein "Füllen-und-Überarbeiten"-Ziel konzipiert ist. Unsere Schlüsselinnovation ist ein räumlich-zeitlich variierender Noise-Zeitplan: Leere Regionen erhalten volles Rauschen zur Auslösung der Generierung, während gewarpte Regionen partielles Rauschen zur Ermöglichung der Verfeinerung erhalten. Durch dynamisches Aktualisieren des 3D-Caches in jedem Schritt bewahrt WorldWarp die Konsistenz über Videoabschnitte hinweg. Folglich erreicht es state-of-the-art Bildtreue, indem es sicherstellt, dass 3D-Logik die Struktur leitet, während Diffusionslogik die Textur perfektioniert. Projektseite: https://hyokong.github.io/worldwarp-page/.

Unendlich-Homographie als robuste Konditionierung für kameragesteuerte Videogenerierung
Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation

Dec 18

ByMin-Jung Kim, Jeongho Kim, Hoiyeong Jin, Junha Hyung, Jaegul Choo

Jüngste Fortschritte bei Video-Diffusionsmodellen haben das wachsende Interesse an kamera-gesteuerter Neuansichts-Videogenerierung für dynamische Szenen beflügelt, mit dem Ziel, Creatives nachträglich cinematische Kamerasteuerungsmöglichkeiten zu bieten. Eine zentrale Herausforderung bei der kamera-gesteuerten Videogenerierung besteht darin, die Treue zur vorgegebenen Kamerapose sicherzustellen, während Blickkonsistenz erhalten und verdeckte Geometrie aus begrenzten Beobachtungen erschlossen wird. Bisherige Methoden trainieren entweder trajektorien-konditionierte Videogenerierungsmodelle auf Trajektorien-Video-Paar-Datensätzen oder schätzen die Tiefe aus dem Eingabevideo, um es entlang einer Zieltrajektorie zu reprojizieren und die unprojizierten Bereiche zu generieren. Dennoch scheitern bestehende Methoden an der Erzeugung kamera-posentreuer, hochwertiger Videos aus zwei Hauptgründen: (1) reprojektionsbasierte Ansätze sind stark anfällig für Fehler durch ungenaue Tiefenschätzung; und (2) die begrenzte Vielfalt von Kameratrajektorien in existierenden Datensätzen schränkt trainierte Modelle ein. Um diese Einschränkungen zu überwinden, präsentieren wir InfCam, ein tiefenfreies, kamera-gesteuertes Video-zu-Video-Generierungsframework mit hoher Posentreue. Das Framework integriert zwei Schlüsselkomponenten: (1) unendliche Homographie-Verzerrung, die 3D-Kamerarotationen direkt im 2D-Latenzraum eines Video-Diffusionsmodells kodiert. Durch Konditionierung auf diese rauschfreie Rotationsinformation wird der residuale Parallaxenterm per End-to-End-Training vorhergesagt, um hohe Kameraposentreue zu erreichen; und (2) eine Datenaugmentations-Pipeline, die bestehende synthetische Multiview-Datensätze in Sequenzen mit diversen Trajektorien und Brennweiten transformiert. Experimentelle Ergebnisse zeigen, dass InfCam Baseline-Methoden in Kameraposengenauigkeit und visueller Treue übertrifft und gut von synthetischen auf reale Daten generalisiert. Link zu unserer Projektseite: https://emjay73.github.io/InfCam/

LoGoPlanner: Lokalisierungsbasierte Navigationsstrategie mit metrikbewusster visueller Geometrie
LoGoPlanner: Localization Grounded Navigation Policy with Metric-aware Visual Geometry

Dec 22

ByJiaqi Peng, Wenzhe Cai, Yuqiang Yang, Tai Wang, Yuan Shen, Jiangmiao Pang

Trajektorienplanung in unstrukturierten Umgebungen ist eine grundlegende und anspruchsvolle Fähigkeit für mobile Roboter. Traditionelle modulare Pipelines leiden unter Latenz und kaskadierenden Fehlern zwischen Wahrnehmungs-, Lokalisierungs-, Kartierungs- und Planungsmodulen. Aktuelle End-to-End-Lernverfahren kartieren rohe visuelle Beobachtungen direkt auf Steuersignale oder Trajektorien und versprechen so eine höhere Leistung und Effizienz in Open-World-Szenarien. Die meisten bisherigen End-to-End-Ansätze sind jedoch nach wie vor auf separate Lokalisierungsmodule angewiesen, die für die Zustandsschätzung des eigenen Systems eine genaue extrinsische Sensorkalibrierung voraussetzen, was die Generalisierung über verschiedene Roboterplatformen und Umgebungen hinweg einschränkt. Wir stellen LoGoPlanner vor, ein Lokalisierungsbasiertes, End-to-End-Navigationsframework, das diese Einschränkungen adressiert, indem es: (1) ein Backbone-Modell für langfristige visuelle Geometrie feinjustiert, um Vorhersagen mit absolutem metrischem Maßstab zu fundieren und so eine implizite Zustandsschätzung für eine genaue Lokalisierung bereitzustellen; (2) die Geometrie der Umgebungsszene aus historischen Beobachtungen rekonstruiert, um ein dichtes, feinkörniges Umweltbewusstsein für eine zuverlässige Hindernisvermeidung zu schaffen; und (3) die Policy auf der durch die vorgenannten Hilfsaufgaben gebootstrappten impliziten Geometrie konditioniert, um so die Fehlerfortpflanzung zu reduzieren. Wir evaluieren LoGoPlanner sowohl in Simulationen als auch in realen Umgebungen, wo sein vollständig End-to-End-Design kumulative Fehler reduziert, während metrisch-sensibles Geometriegedächtnis die Planungskonsistenz und Hindernisvermeidung verbessert. Dies führt zu einer Verbesserung von mehr als 27,3 % gegenüber Baseline-Verfahren mit Oracle-Lokalisierung und zu einer starken Generalisierung über verschiedene Roboterplatformen und Umgebungen hinweg. Der Code und die Modelle sind öffentlich auf der https://steinate.github.io/logoplanner.github.io/{Projektseite} verfügbar.

Können LLMs Schülerprobleme einschätzen? Abgleich menschlicher und KI-basierter Schwierigkeitsbewertung durch Kompetenzsimulation zur Vorhersage von Aufgaben
Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction

Dec 21

ByMing Li, Han Chen, Yunze Xiao, Jian Chen, Hong Jiao, Tianyi Zhou

Eine genaue Schätzung der Item-Schwierigkeit (von Fragen oder Aufgaben) ist für die Bildungsbewertung von entscheidender Bedeutung, leidet jedoch unter dem Cold-Start-Problem. Während Large Language Models übermenschliche Fähigkeiten zur Problemlösung demonstrieren, bleibt die Frage offen, ob sie die kognitiven Schwierigkeiten menschlicher Lernender wahrnehmen können. In dieser Arbeit präsentieren wir eine groß angelegte empirische Analyse der Mensch-KI-Schwierigkeitsabstimmung für über 20 Modelle in verschiedenen Domänen wie medizinischem Wissen und mathematischem Denken. Unsere Ergebnisse zeigen eine systematische Fehlausrichtung, bei der eine Vergrößerung der Modellgröße nicht zuverlässig hilfreich ist; anstatt sich mit Menschen abzustimmen, konvergieren Modelle zu einem gemeinsamen Maschinenkonsens. Wir beobachten, dass hohe Leistungsfähigkeit oft eine genaue Schwierigkeitsschätzung behindert, da Modelle Schwierigkeiten haben, die Fähigkeitsgrenzen von Studierenden zu simulieren, selbst wenn sie ausdrücklich aufgefordert werden, bestimmte Kompetenzniveaus einzunehmen. Darüber hinaus stellen wir einen kritischen Mangel an Introspektion fest, da Modelle nicht in der Lage sind, ihre eigenen Grenzen vorherzusagen. Diese Ergebnisse deuten darauf hin, dass allgemeine Problemlösungsfähigkeit kein Verständnis für menschliche kognitive Schwierigkeiten impliziert, was die Herausforderung bei der Verwendung aktueller Modelle für die automatische Schwierigkeitsvorhersage unterstreicht.

Is There a Better Source Distribution than Gaussian? Exploring Source Distributions for Image Flow Matching

Dec 20

ByJunho Lee, Kwanseok Kim, Joonseok Lee

Flow matching has emerged as a powerful generative modeling approach with flexible choices of source distribution. While Gaussian distributions are commonly used, the potential for better alternatives in high-dimensional data generation remains largely unexplored. In this paper, we propose a novel 2D simulation that captures high-dimensional geometric properties in an interpretable 2D setting, enabling us to analyze the learning dynamics of flow matching during training. Based on this analysis, we derive several key insights about flow matching behavior: (1) density approximation can paradoxically degrade performance due to mode discrepancy, (2) directional alignment suffers from path entanglement when overly concentrated, (3) Gaussian's omnidirectional coverage ensures robust learning, and (4) norm misalignment incurs substantial learning costs. Building on these insights, we propose a practical framework that combines norm-aligned training with directionally-pruned sampling. This approach maintains the robust omnidirectional supervision essential for stable flow learning, while eliminating initializations in data-sparse regions during inference. Importantly, our pruning strategy can be applied to any flow matching model trained with a Gaussian source, providing immediate performance gains without the need for retraining. Empirical evaluations demonstrate consistent improvements in both generation quality and sampling efficiency. Our findings provide practical insights and guidelines for source distribution design and introduce a readily applicable technique for improving existing flow matching models. Our code is available at https://github.com/kwanseokk/SourceFM.

Reasoning Palette: Modulation des Schlussfolgerns durch latente Kontextualisierung für kontrollierte Exploration bei (V)LMs
Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs

Dec 19

ByRujiao Long, Yang Li, Xingyao Zhang, Weixun Wang, Tianqianjin Lin, Xi Zhao, Yuchi Xu, Wenbo Su, Junchi Yan, Bo Zheng

Die Erkundungskapazität beeinflusst sowohl die Inferenzleistung als auch das Reinforcement Learning (RL)-Training für große (Vision-)Sprachmodelle, da stochastisches Sampling häufig redundante Reasoning-Pfade mit geringer hochgradiger Diversität erzeugt. Dieses Papier stellt Reasoning Palette vor, einen neuartigen latenten Modulationsrahmen, der das Modell mit einer stochastischen latenten Variable für strategische Kontextualisierung ausstattet und dessen interne Planung vor der Token-Generierung steuert. Dieser latente Kontext wird aus dem gemittelten Embedding eines Frage-Antwort-Paares über einen variationalen Autoencoder (VAE) abgeleitet, wobei jedes gesampelte Latent potentiell einen distinctiven Reasoning-Kontext kodiert. Während der Inferenz wird ein gesampeltes Latent in lernbare Token-Präfixe decodiert und dem Eingabe-Prompt vorangestellt, um die interne Reasoning-Trajektorie des Moduls zu modulieren. Auf diese Weise führt das Modell internes Sampling über Reasoning-Strategien durch, bevor die Ausgabegenerierung erfolgt, was Stil und Struktur der gesamten Antwortsequenz prägt. Eine kurze Supervised Fine-Tuning (SFT)-Aufwärmphase ermöglicht es dem Modell, sich an diese latente Konditionierung anzupassen. Innerhalb der RL-Optimierung erleichtert Reasoning Palette strukturierte Erkundung durch bedarfsgesteuerte Injektion verschiedener Reasoning-Modi, was die Erkundungseffizienz und nachhaltige Lernfähigkeit erheblich steigert. Experimente über mehrere Reasoning-Benchmarks zeigen, dass unsere Methode interpretierbare und kontrollierbare Steuerung des strategischen Verhaltens von (Vision-)Sprachmodellen ermöglicht und dadurch konsistente Leistungssteigerungen gegenüber standardmäßigen RL-Methoden erzielt.

UCoder: Unverwachte Codegenerierung durch internes Abtasten großer Sprachmodelle
UCoder: Unsupervised Code Generation by Internal Probing of Large Language Models

Dec 19

ByJiajun Wu, Jian Yang, Wei Zhang, Lin Jing, Yuqing Ma, Ensheng Shi, Yuchi Ma, Zhoujun Li, Xianglong Liu

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten bei Code-Generierungsaufgaben gezeigt. Ihre Effektivität hängt jedoch stark von überwachtem Training mit umfangreichen gelabelten (z.B. Frage-Antwort-Paare) oder ungelabelten Datensätzen (z.B. Code-Snippets) ab, die oft teuer und schwer in großem Maßstab zu beschaffen sind. Um diese Einschränkung zu adressieren, stellt dieses Papier eine Methode IPC vor, einen unüberwachten Rahmen, der Internal Probing von LLMs für die Code-Generierung ohne externe Korpora, selbst ohne ungelabelte Code-Snippets, nutzt. Wir führen Problemraum-Probing, Testverständnis-Probing, Lösungsraum-Probing sowie Wissenskonsolidierung und -verstärkung ein, um das interne Wissen und Konfidenzmuster in LLMs zu untersuchen. Weiter identifiziert IPC zuverlässige Code-Kandidaten durch Selbstkonsistenzmechanismen und representationsbasierte Qualitätsschätzung, um UCoder (Coder mit unüberwachtem Lernen) zu trainieren. Wir validieren den vorgeschlagenen Ansatz an mehreren Code-Benchmarks und zeigen, dass unüberwachte Methoden wettbewerbsfähige Leistung im Vergleich zu überwachten Ansätzen erreichen können, während sie die Abhängigkeit von gelabelten Daten und Rechenressourcen erheblich reduzieren. Analytische Experimente zeigen, dass interne Modellzustände reichhaltige Signale über Code-Qualität und Korrektheit enthalten, und dass die richtige Nutzung dieser Signale effektives unüberwachtes Lernen für Code-Generierungsaufgaben ermöglicht, was neue Richtungen für das Training von Code-LLMs in ressourcenbeschränkten Szenarien eröffnet.

StoryMem: Multishot-Langzeit-Videostorytelling mit Gedächtnisfunktion
StoryMem: Multi-shot Long Video Storytelling with Memory

Dec 22

ByKaiwen Zhang, Liming Jiang, Angtian Wang, Jacob Zhiyuan Fang, Tiancheng Zhi, Qing Yan, Hao Kang, Xin Lu, Xingang Pan

Visuelles Storytelling erfordert die Erzeugung von Mehrfach-Szenen-Videos mit cineastischer Qualität und langfristiger Konsistenz. Inspiriert vom menschlichen Gedächtnis schlagen wir StoryMem vor, ein Paradigma, das die Erzählung langer Videos als iterative Szenensynthese neu formuliert, die von explizitem visuellem Gedächtnis gesteuert wird, und dabei vortrainierte Einzel-Szenen-Video-Diffusionsmodelle in Mehrfach-Szenen-Geschichtenerzähler verwandelt. Dies wird durch ein neuartiges Memory-to-Video (M2V) Design erreicht, das eine kompakte und dynamisch aktualisierte Gedächtnisbank von Keyframes aus historisch generierten Szenen verwaltet. Der gespeicherte Gedächtnisinhalt wird dann via latenter Konkatenation und negativen RoPE-Shifts unter ausschließlicher LoRA-Feinabstimmung in Einzel-Szenen-Video-Diffusionsmodelle injiziert. Eine semantische Keyframe-Auswahlstrategie, kombiniert mit ästhetischer Präferenzfilterung, gewährleistet weiterhin informative und stabile Gedächtnisinhalte während der gesamten Generierung. Darüber hinaus ermöglicht der vorgeschlagene Rahmen natürlicherweise fließende Szenenübergänge und angepasste Story-Generierungsanwendungen. Zur Erleichterung der Evaluation führen wir ST-Bench ein, einen diversen Benchmark für Mehrfach-Szenen-Video-Storytelling. Umfangreiche Experimente zeigen, dass StoryMem eine überlegene konsistente Szenenübergreifende Konsistenz gegenüber bisherigen Methoden erreicht und dabei hohe ästhetische Qualität und Prompt-Treue bewahrt, was einen bedeutenden Schritt in Richtung kohärenter minutenlanger Video-Erzählungen markiert.

GenEnv: Schwierigkeitsabgestimmte Ko-Evolution zwischen KI-Agenten und Umgebungssimulatoren
GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators

Dec 22

ByJiacheng Guo, Ling Yang, Peter Chen, Qixin Xiao, Yinjie Wang, Xinzhe Juan, Jiahao Qiu, Ke Shen, Mengdi Wang

Die Ausbildung leistungsfähiger Agenten auf Basis großer Sprachmodelle (Large Language Models, LLM) wird kritisch durch die hohen Kosten und die statische Natur von Echtwelt-Interaktionsdaten eingeschränkt. Wir adressieren dieses Problem mit der Einführung von GenEnv, einem Framework, das ein schwierigkeitsabgestimmtes ko-evolutionäres Spiel zwischen einem Agenten und einem skalierbaren, generativen Umgebungssimulator etabliert. Im Gegensatz zu traditionellen Methoden, die Modelle auf statischen Datensätzen trainieren, instanziiert GenEnv eine Datenevolution: Der Simulator fungiert als dynamische Curriculum-Policy, die kontinuierlich Aufgaben generiert, die speziell auf die „Zone der nächsten Entwicklung“ des Agenten zugeschnitten sind. Dieser Prozess wird durch eine einfache, aber effektive α-Curriculum-Belohnung gesteuert, die die Aufgabenschwierigkeit an die aktuellen Fähigkeiten des Agenten anpasst. Wir evaluieren GenEnv anhand von fünf Benchmarks, darunter API-Bank, ALFWorld, BFCL, Bamboogle und TravelPlanner. Über diese Aufgaben hinweg verbessert GenEnv die Agentenleistung um bis zu +40,3 % gegenüber 7B-Baselines und erreicht oder übertrifft die durchschnittliche Leistung größerer Modelle. Im Vergleich zu einer offline-Datenaugmentierung auf Basis von Gemini 2.5 Pro erzielt GenEnv eine bessere Leistung bei gleichzeitig 3,3-mal geringerem Dateneinsatz. Durch den Wechsel von statischer Überwachung zu adaptiver Simulation bietet GenEnv einen dateneffizienten Weg zur Skalierung von Agentenfähigkeiten.

LoPA: Skalierung der dLLM-Inferenz durch Lookahead-Parallel-Decodierung
LoPA: Scaling dLLM Inference via Lookahead Parallel Decoding

Dec 18

ByChenkai Xu, Yijie Jin, Jiajun Li, Yi Tu, Guoping Long, Dandan Tu, Mingcong Song, Hongjie Si, Tianqi Hou, Junchi Yan, Zhijie Deng

Diffusion Large Language Models (dLLMs) haben ein erhebliches Potenzial für hochgeschwindigkeitsinferenz demonstriert. Allerdings sind aktuelle konfidenzgesteuerte Dekodierungsstrategien durch begrenzte Parallelität eingeschränkt und erreichen typischerweise nur 1–3 Token pro Vorwärtsdurchlauf (TPF). In dieser Arbeit zeigen wir, dass der Grad der Parallelität während der dLLM-Inferenz hochsensibel auf die Token-Füllreihenfolge (TFO) reagiert. Darauf aufbauend führen wir Lookahead PArallel Decoding LoPA ein, einen trainingsfreien Plug-and-Play-Algorithmus, um eine überlegene TFO zu identifizieren und damit die Inferenz zu beschleunigen. LoPA erkundet gleichzeitig verschiedene Kandidaten-TFOs über parallele Zweige und wählt diejenige mit dem höchsten Potenzial für zukünftige Parallelität basierend auf der Zweigkonfidenz aus. Wir wenden LoPA auf das state-of-the-art D2F-Modell an und beobachten eine erhebliche Steigerung der Dekodiereffizienz. Bemerkenswerterweise erhöht LoPA den TPF von D2F-Dream auf GSM8K auf 10,1, wobei die Leistung über der Dream-Baseline bleibt. Darüber hinaus entwickeln wir, um diesen beispiellosen Parallelitätsgrad zu ermöglichen, ein spezialisiertes Multi-Device-Inferenzsystem mit Zweigparallelität (BP), das einen Durchsatz von 1073,9 Token pro Sekunde für eine einzelne Stichprobe unter Multi-GPU-Bereitstellung erreicht. Der Code ist verfügbar unter https://github.com/zhijie-group/LoPA.

MobileWorld: Benchmarking autonomer mobiler Agenten in interaktiven Agent-Nutzer- und MCP-augmentierten Umgebungen
MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments

Dec 22

ByQuyu Kong, Xu Zhang, Zhenyu Yang, Nolan Gao, Chen Liu, Panrong Tong, Chenglin Cai, Hanzhang Zhou, Jianan Zhang, Liangyu Chen, Zhidan Liu, Steven Hoi, Yue Wang

Unter den bestehenden Online-Benchmarks für die Mobilgerätenutzung hat sich AndroidWorld aufgrund seiner reproduzierbaren Umgebung und deterministischen Evaluation als dominierender Benchmark etabliert. Jüngste Agenten mit Erfolgsquoten von über 90 % deuten jedoch auf eine Sättigung hin und unterstreichen die Notwendigkeit eines anspruchsvolleren Benchmarks. Zudem fehlen in seiner Umgebung wichtige Anwendungskategorien wie E-Commerce und Unternehmenskommunikation, und sie bildet keine realistischen Mobilnutzungsszenarien ab, die durch vage Benutzeranweisungen und hybriden Tool-Einsatz gekennzeichnet sind. Um diese Lücke zu schließen, stellen wir MobileWorld vor, einen deutlich anspruchsvolleren Benchmark, der die reale Mobilnutzung besser widerspiegelt. Er umfasst 201 Aufgaben über 20 Anwendungen hinweg und behält dabei das gleiche Maß an reproduzierbarer Evaluation wie AndroidWorld bei. Die Schwierigkeit von MobileWorld ist zweigeteilt. Erstens legt es den Schwerpunkt auf langfristige Aufgaben mit anwendungsübergreifenden Interaktionen: MobileWorld erfordert im Durchschnitt fast doppelt so viele Aufgabenschritte (27,8 vs. 14,3) und enthält deutlich mehr anwendungsübergreifende Aufgaben (62,2 % vs. 9,5 %) im Vergleich zu AndroidWorld. Zweitens geht MobileWorld über standardmäßige GUI-Manipulation hinaus, indem es neue Aufgabenkategorien einführt, darunter Agent-Benutzer-Interaktion und MCP-erweiterte Aufgaben. Um eine robuste Evaluation zu gewährleisten, bieten wir eine containerbasierte Snapshot-Umgebung und präzise Funktionsverifikationen, einschließlich Backend-Datenbankprüfungen und Task-Callback-APIs. Wir entwickeln weiterhin ein Planner-Executor-Agenten-Framework mit erweiterten Aktionsräumen zur Unterstützung von Benutzerinteraktionen und MCP-Aufrufen. Unsere Ergebnisse zeigen einen deutlichen Leistungseinbruch im Vergleich zu AndroidWorld – die besten Agenten-Frameworks und End-to-End-Modelle erreichen Erfolgsquoten von lediglich 51,7 % bzw. 20,9 %. Unsere Analyse zeigt, dass aktuelle Modelle erheblich mit Benutzerinteraktionen und MCP-Aufrufen kämpfen, was eine strategische Roadmap für robustere Mobilintelligenz der nächsten Generation aufzeigt.

CASA: Cross-Attention durch Self-Attention für effiziente Vision-Language-Fusion
CASA: Cross-Attention via Self-Attention for Efficient Vision-Language Fusion

Dec 22

ByMoritz Böhle, Amélie Royer, Juliette Marrie, Edouard Grave, Patrick Pérez

Vision-Language-Modelle (VLMs) werden üblicherweise trainiert, indem Bild-Tokens aus einem vortrainierten Vision-Encoder in den Textstrom eines Sprachmodells eingefügt werden. Dies ermöglicht es Text- und Bildinformationen, sich im Modell vollständig gegenseitig zu beachten, wird jedoch bei hochauflösenden Bildern, langen Konversationen oder Streaming-Videos sowohl speicher- als auch rechenseitig extrem kostspielig. VLMs, die Cross-Attention nutzen, sind eine effiziente Alternative zur Token-Einfügung, weisen jedoch eine deutliche Leistungslücke auf, insbesondere bei Aufgaben, die feinkörnige visuelle Details betreffen. Wir stellen fest, dass ein Schlüssel zur Verbesserung solcher Modelle darin besteht, auch lokale Text-zu-Text-Interaktion in den dedizierten Cross-Attention-Schichten zu ermöglichen. Aufbauend darauf schlagen wir CASA (Cross-Attention via Self-Attention) vor, ein einfaches und effizientes Paradigma, das die Leistungslücke zur vollständigen Token-Einfügung auf gängigen Bildverständnis-Benchmarks erheblich verringert, während es die gleiche Skalierbarkeit wie Cross-Attention-Modelle bei langkontextigen multimodalen Aufgaben wie der Beschriftung von Streaming-Videos beibehält. Für Beispiele und Code besuchen Sie bitte unsere Projektseite unter https://kyutai.org/casa.

Over++: Generatives Videocompositing für Schichtinteraktionseffekte
Over++: Generative Video Compositing for Layer Interaction Effects

Dec 22

ByLuchao Qi, Jiaye Wu, Jun Myeong Choi, Cary Phillips, Roni Sengupta, Dan B Goldman

In professionellen Videocompositing-Workflows müssen Künstler manuell Umgebungsinteraktionen – wie Schatten, Reflexionen, Staub und Spritzer – zwischen Vordergrundobjekten und Hintergrundebenen erstellen. Bestehende videogenerative Modelle haben Schwierigkeiten, das Eingabevideo bei der Hinzufügung solcher Effekte zu bewahren, und aktuelle Video-Inpainting-Methoden erfordern entweder kostspielige Masken pro Einzelbild oder liefern unplausible Ergebnisse. Wir führen Augmented Compositing ein, eine neue Aufgabe, die realistische, halbtransparente Umgebungseffekte synthetisiert, die auf Textprompts und Eingabe-Videoebenen konditioniert sind, während die ursprüngliche Szene erhalten bleibt. Um diese Aufgabe zu lösen, präsentieren wir Over++, ein Framework zur Videoeffekterzeugung, das keine Annahmen über Kamerapose, Szenenstatik oder Tiefeninformationen trifft. Wir erstellen einen gepaarten Effektdatensatz, der für diese Aufgabe maßgeschneidert ist, und führen eine ungepaarte Augmentierungsstrategie ein, die die textgesteuerte Editierbarkeit erhält. Unsere Methode unterstützt auch optionale Maskenkontrolle und Keyframe-Steuerung ohne die Notwendigkeit dichter Annotationen. Trotz des Trainings mit begrenzten Daten erzeugt Over++ vielfältige und realistische Umgebungseffekte und übertrifft bestehende Baseline-Methoden sowohl in der Effekterzeugung als auch in der Szenenerhaltung.

Stimmt es überein? Auf dem Weg zu autonomen Rechtsagenten in der Venture-Capital-Branche
Does It Tie Out? Towards Autonomous Legal Agents in Venture Capital

Dec 21

ByPierre Colombo, Malik Boudiaf, Allyn Sweet, Michael Desa, Hongxi Wang, Kevin Candra, Syméon del Marmol

Vor dem Abschluss von Venture-Capital-Finanzierungsrunden führen Rechtsanwälte Due-Diligence-Prüfungen durch, die das Abstimmen der Kapitalisierungsübersicht (Capitalization Table) umfassen: die Überprüfung, dass jedes Wertpapier (zum Beispiel Aktien, Optionen, Warrants) und jede Ausgabebedingung (zum Beispiel Vesting-Pläne, Beschleunigungsklauseln, Transferbeschränkungen) durch umfangreiche zugrundeliegende Rechtsdokumente belegt ist. Während LLMs bei juristischen Benchmarks kontinuierlich besser werden, bleiben spezialisierte Rechtsarbeitsabläufe wie das Abstimmen der Kapitalisierungsübersicht selbst für leistungsstarke agentenbasierte Systeme unerreichbar. Diese Aufgabe erfordert Multi-Dokumenten-Abgleich, strikte Nachvollziehbarkeit von Beweisen und deterministische Ergebnisse, die mit aktuellen Ansätzen nicht zuverlässig geliefert werden können. Wir charakterisieren das Abstimmen der Kapitalisierungsübersicht als ein Beispiel für einen realen Benchmark für juristische KI, analysieren und vergleichen die Leistung bestehender agentenbasierter Systeme und schlagen eine World-Model-Architektur zur Automatisierung dieser Aufgabe vor – und weiter gefasst als Grundlage für angewandte juristische Intelligenz.

MatSpray: Integration von 2D-Materialwissen auf 3D-Geometrie
MatSpray: Fusing 2D Material World Knowledge on 3D Geometry

Dec 20

ByPhilipp Langsteiner, Jan-Niklas Dihlmann, Hendrik P. A. Lensch

Die manuelle Modellierung von Materialparametern und 3D-Geometrie ist eine zeitaufwändige, aber wesentliche Aufgabe in der Gaming- und Filmindustrie. Während neuere Fortschritte in der 3D-Rekonstruktion genaue Annäherungen der Szenengeometrie und des Erscheinungsbilds ermöglicht haben, scheitern diese Methoden häufig bei Neubeleuchtungsszenarien aufgrund des Mangels an präzisen, räumlich variierenden Materialparametern. Gleichzeitig haben sich auf 2D-Bildern operierende Diffusionsmodelle bei der Vorhersage von physikalisch basierten Rendering-Eigenschaften (PBR) wie Albedo, Rauheit und Metallizität als leistungsstark erwiesen. Die Übertragung dieser 2D-Materialkarten auf rekonstruierte 3D-Geometrien bleibt jedoch eine große Herausforderung. Wir schlagen ein Framework zur Fusion von 2D-Materialdaten in 3D-Geometrien unter Verwendung einer Kombination aus neuartigen lernbasierten und projektionsbasierten Ansätzen vor. Wir beginnen mit der Rekonstruktion der Szenengeometrie mittels Gaussian Splatting. Aus den Eingabebildern generiert ein Diffusionsmodell 2D-Karten für Albedo-, Rauheits- und Metallizitätsparameter. Hierbei kann jedes bestehende Diffusionsmodell angewendet werden, das Bilder oder Videos in PBR-Materialien umwandeln kann. Die Vorhersagen werden weiter in die 3D-Darstellung integriert, entweder durch Optimierung eines bildbasierten Loss oder durch direktes Projizieren der Materialparameter auf die Gaussians unter Verwendung von Gaussian Raytracing. Um die Genauigkeit im feinen Maßstab und die Mehransichtskonsistenz zu verbessern, führen wir zusätzlich einen leichtgewichtigen neuronalen Verfeinerungsschritt (Neural Merger) ein, der raygetraced Materialeigenschaften als Eingabe verwendet und detaillierte Anpassungen erzeugt. Unsere Ergebnisse zeigen, dass die vorgeschlagenen Methoden bestehende Techniken sowohl in quantitativen Metriken als auch in der wahrgenommenen visuellen Realitätsnähe übertreffen. Dies ermöglicht genauere, neu beleuchtbare und fotorealistische Renderings aus rekonstruierten Szenen und verbessert die Realitätsnähe und Effizienz von Asset-Erstellungsworkflows in Content-Produktionspipelines erheblich.

Real2Edit2Real: Erzeugung robotischer Demonstrationen über eine 3D-Steuerungsoberfläche
Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface

Dec 22

ByYujie Zhao, Hongwei Fan, Di Chen, Shengcong Chen, Liliang Chen, Xiaoqi Li, Guanghui Ren, Hao Dong

Jüngste Fortschritte im Robotik-Lernen wurden durch umfangreiche Datensätze und leistungsstarke visuomotorische Policy-Architekturen erzielt, doch die Robustheit der Policies bleibt durch den erheblichen Aufwand der Erfassung diverser Demonstrationen eingeschränkt, insbesondere für räumliche Generalisierung bei Manipulationsaufgaben. Um repetitive Datenerfassung zu reduzieren, stellen wir Real2Edit2Real vor – ein Framework, das neue Demonstrationen generiert, indem es 3D-Editierbarkeit mit 2D-Bilddaten durch eine 3D-Steuerungsschnittstelle verbindet. Unser Ansatz rekonstruiert zunächst die Szenengeometrie aus multiview RGB-Beobachtungen mit einem metrikskalierten 3D-Rekonstruktionsmodell. Basierend auf der rekonstruierten Geometrie führen wir tiefenreliable 3D-Bearbeitungen an Punktwolken durch, um neue Manipulationstrajektorien zu erzeugen, wobei wir die Roboterposen geometrisch korrigieren, um physikalisch konsistente Tiefeninformationen wiederherzustellen, die als zuverlässige Bedingung für die Synthese neuer Demonstrationen dienen. Abschließend schlagen wir ein multikonditionales Videogenerierungsmodell vor, das durch Tiefeninformationen als primäres Steuersignal zusammen mit Aktions-, Kanten- und Strahlenkarten geleitet wird, um räumlich augmentierte multiview Manipulationsvideos zu synthetisieren. Experimente an vier realen Manipulationsaufgaben zeigen, dass Policies, die mit aus nur 1–5 Quelldemonstrationen generierten Daten trainiert wurden, mit denen auf 50 realen Demonstrationen trainierten Policies gleichauf liegen oder diese übertreffen und die Dateneffizienz um bis zu 10–50x steigern. Darüber hinaus demonstrieren experimentelle Ergebnisse zu Höhen- und Texturbearbeitung die Flexibilität und Erweiterbarkeit des Frameworks und deuten auf sein Potenzial als einheitliches Datengenerierungsframework hin.

Benenne das Teil: 3D-Teilesegmentierung und Benennung
Name That Part: 3D Part Segmentation and Naming

Dec 19

BySoumava Paul, Prakhar Kaushik, Ankit Vaidya, Anand Bhattad, Alan Yuille

Wir behandeln die semantische 3D-Teilesegmentierung: die Zerlegung von Objekten in Teile mit bedeutungsvollen Bezeichnungen. Obwohl Datensätze mit Teilannotationen existieren, sind deren Definitionen zwischen den Datensätzen inkonsistent, was ein robustes Training einschränkt. Bisherige Methoden erzeugen unbezeichnete Zerlegungen oder ermitteln einzelne Teile ohne vollständige Formannotationen. Wir schlagen ALIGN-Parts vor, das die Teilbenennung als direkte Mengenausrichtung formuliert. Unsere Methode zerlegt Formen in Partlets – implizite 3D-Teilrepräsentationen –, die über eine bipartite Zuordnung mit Teilbeschreibungen abgeglichen werden. Wir kombinieren geometrische Hinweise aus 3D-Teilfeldern, Erscheinungsmerkmale aus Multi-View-Vision-Features und semantisches Wissen aus sprachmodellgenerierten Affordanz-Beschreibungen. Ein Textalignierungsverlust stellt sicher, dass Partlets den Embedding-Raum mit dem Text teilen, was einen theoretisch offenen Vokabular-Abgleich ermöglicht, sofern ausreichend Daten vorhanden sind. Unsere effiziente und neuartige One-Shot-Methode zur 3D-Teilesegmentierung und -benennung findet Anwendung in mehreren nachgelagerten Aufgaben, einschließlich als skalierbare Annotations-Engine. Da unser Modell Zero-Shot-Abgleich mit beliebigen Beschreibungen und konfidenzkalibrierte Vorhersagen für bekannte Kategorien unterstützt, erstellen wir mit menschlicher Verifikation eine einheitliche Ontologie, die PartNet, 3DCoMPaT++ und Find3D abgleicht und aus 1.794 einzigartigen 3D-Teilen besteht. Wir zeigen auch Beispiele aus unserem neu erstellten Tex-Parts-Datensatz. Zudem führen wir zwei neue Metriken ein, die für die Aufgabe der benannten 3D-Teilesegmentierung geeignet sind.

SecureCode v2.0: Ein produktionsreifer Datensatz zum Training sicherheitsbewusster Code-Generierungsmodelle
SecureCode v2.0: A Production-Grade Dataset for Training Security-Aware Code Generation Models

Dec 20

ByScott Thornton

KI-Assistenten erzeugen in 45 % der sicherheitsrelevanten Szenarien anfälligen Code und führen so in großem Umfang Schwachstellen in Produktivsysteme ein. Bisherige Datensätze für sicheres Programmieren sind jedoch unzureichend. Ihnen fehlt die Verankerung in realen Vorfällen, sie bieten nicht den für modernes Training erforderlichen Umfang und vermissen den betrieblichen Sicherheitskontext, den Entwickler für Produktivumgebungen benötigen. Wir stellen SecureCode v2.0 vor, einen produktionsreifen Datensatz mit 1.215 sicherheitsfokussierten Codebeispielen, die eine strukturelle Validierung und eine expertengeprüfte Sicherheitsüberprüfung bestanden haben. Jedes Beispiel ist mit tatsächlich dokumentierten Sicherheitsvorfällen (inklusive CVE-Referenzen) verknüpft, bietet anfällige und sichere Implementierungen, demonstriert konkrete Angriffe und enthält eine tiefengestaffelte operative Anleitung zur Verteidigung (Defense-in-Depth). Der Datensatz deckt 11 Schwachstellenkategorien ab (das vollständige OWASP Top 10:2025 plus KI/ML-Sicherheitsbedrohungen) über 11 Sprachen hinweg (Python, JavaScript, Java, Go, PHP, C#, TypeScript, Ruby, Rust, Kotlin und YAML für Infrastructure-as-Code). Unser Qualitätssicherungsrahmen gewährleistet eine vollständige Verankerung in Vorfällen. Jedes Beispiel umfasst SIEM-Integrationsstrategien, Empfehlungen zur Infrastrukturhärtung (Docker, AppArmor, WAF-Konfigurationen) und Testansätze mit sprachspezifischen Frameworks. Der Datensatz verwendet eine 4-Schritte-Konversationsstruktur, die reale Entwickler-KI-Interaktionen abbildet und von grundlegenden Implementierungen zu erweiterten Sicherheitsüberlegungen und tiefengestaffelter Verteidigungsanleitung eskaliert. Unsere Beiträge: (1) 1.215 rigoros validierte Beispiele, aufgeteilt in 989 Trainings-, 122 Validierungs- und 104 Testdatensätze, (2) ein automatisiertes Validierungsframework zur Sicherstellung der Datensatzkonsistenz, (3) eine 4-Schritte-Konversationsstruktur, die realistische Sicherheits-Workflows erfasst, (4) umfassende operative Sicherheitsanleitung mit SIEM-Integrationsstrategien, (5) vollständige sprachspezifische Implementierungstreue und (6) Open-Source-Veröffentlichung der Daten, Validierungstools und Benchmarking-Protokolle.

Hirnbasierte Achsen zum Lesen und Steuern von LLM-Zuständen
Brain-Grounded Axes for Reading and Steering LLM States

Dec 22

BySandro Andric

Interpretierbarkeitsmethoden für große Sprachmodelle (LLMs) leiten Richtungen typischerweise aus textueller Supervision ab, was an externer Verankerung mangeln kann. Wir schlagen vor, menschliche Gehirnaktivität nicht als Trainingssignal, sondern als Koordinatensystem zum Auslesen und Steuern von LLM-Zuständen zu nutzen. Unter Verwendung des SMN4Lang-MEG-Datensatzes konstruieren wir einen wortbasierten Hirnatlas von Phase-Locking-Value(PLV)-Mustern und extrahieren latente Achsen mittels ICA. Wir validieren die Achsen mit unabhängigen Lexika und NER-basierten Labels (POS/Log-Frequenz als Plausibilitätschecks) und trainieren dann leichte Adapter, die LLM-Verborgene-Zustände auf diese Hirnachsen abbilden, ohne das LLM feinzutunen. Das Steuern entlang der resultierenden, hirnbasierten Richtungen ergibt eine robuste lexikalische (frequenzverknüpfte) Achse in einer mittleren TinyLlama-Schicht, die perplexitätskontrollierte Vergleiche übersteht, und ein Hirn-vs-Text-Probe-Vergleich zeigt größere Log-Frequenz-Verschiebungen (relativ zur Textprobe) bei geringerer Perplexität für die Hirnachse. Eine Funktions-/Inhalts-Achse (Achse 13) zeigt konsistentes Steuerverhalten in TinyLlama, Qwen2-0.5B und GPT-2, mit PPL-angepasster textueller Bestätigung. Effekte in Schicht 4 von TinyLlama sind groß, aber inkonsistent, daher behandeln wir sie als sekundär (Anhang). Die Achsenstruktur ist stabil, wenn der Atlas ohne GPT-Embedding-Änderungs-Merkmale oder mit word2vec-Embeddings neu aufgebaut wird (|r|=0,64–0,95 übereinstimmender Achsen), was Zirkularitätsbedenken reduziert. Eine explorative fMRT-Verankerung deutet auf eine potenzielle Übereinstimmung für Embedding-Änderung und Log-Frequenz hin, aber die Effekte sind empfindlich gegenüber hämodynamischen Modellierungsannahmen und werden nur als populationsbezogene Evidenz betrachtet. Diese Ergebnisse unterstützen eine neue Schnittstelle: neurophysiologisch verankerte Achsen bieten interpretierbare und steuerbare Stellgrößen für das Verhalten von LLMs.

Verständnis syllogistischen Schließens in LLMs aus formaler und natürlicher Sprachperspektive
Understanding Syllogistic Reasoning in LLMs from Formal and Natural Language Perspectives

Dec 14

ByAheli Poddar, Saptarshi Sahoo, Sujata Ghosh

Wir untersuchen syllogistisches Schließen in LLMs aus logischer und natürlichersprachlicher Perspektive. Dabei erforschen wir die grundlegenden Schlussfähigkeiten der LLMs und die Richtung, in die sich diese Forschung bewegt. Zur Unterstützung unserer Studien verwenden wir 14 große Sprachmodelle und untersuchen deren syllogistische Schlussfähigkeiten im Hinblick auf symbolische Inferenzen sowie das Verständnis natürlicher Sprache. Obwohl dieser Schließmechanismus keine einheitlich emergente Eigenschaft über alle LLMs hinweg ist, lassen die perfekten symbolischen Leistungen bestimmter Modelle uns fragen, ob LLMs zunehmend formale Schließmechanismen werden, anstatt die Nuancen menschlichen Denkens explizit zu machen.