HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

32 papers found

Weniger ist genug: Synthese vielfältiger Daten im Merkmalsraum von LLMs
Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs

Feb 11

ByZhongzhi Li, Xuansheng Wu, Yijiang Li, Lijie Hu, Ninghao Liu

202

Die Diversität von Nachtrainingsdaten ist entscheidend für die effektive Downstream-Leistung von großen Sprachmodellen (LLMs). Viele bestehende Ansätze zur Konstruktion von Nachtrainingsdaten quantifizieren Diversität anhand textbasierter Metriken, die linguistische Variation erfassen, doch solche Metriken liefern nur schwache Signale für die aufgabenrelevanten Merkmale, die die Downstream-Leistung bestimmen. In dieser Arbeit führen wir Feature Activation Coverage (FAC) ein, das Datenvielfalt in einem interpretierbaren Merkmalsraum misst. Aufbauend auf dieser Metrik schlagen wir weiterhin ein diversitätsgetriebenes Datensyntheseframework namens FAC Synthesis vor, das zunächst einen sparsamen Autoencoder verwendet, um fehlende Merkmale aus einem Ausgangsdatensatz zu identifizieren und dann synthetische Beispiele generiert, die diese Merkmale explizit abbilden. Experimente zeigen, dass unser Ansatz konsistent sowohl die Datenvielfalt als auch die Downstream-Leistung bei verschiedenen Aufgaben verbessert, einschließlich Befolgung von Instruktionen, Toxizitätserkennung, Belohnungsmodellierung und Verhaltenssteuerung. Interessanterweise identifizieren wir einen gemeinsamen, interpretierbaren Merkmalsraum über Modellfamilien hinweg (d.h. LLaMA, Mistral und Qwen), der modellübergreifenden Wissenstransfer ermöglicht. Unsere Arbeit bietet eine solide und praktische Methodik zur Erforschung datenzentrierter Optimierung von LLMs.

SQuTR: Ein Robustheits-Benchmark für die gesprochene Anfrage zur Textretrieval unter akustischem Rauschen
SQuTR: A Robustness Benchmark for Spoken Query to Text Retrieval under Acoustic Noise

Feb 13

ByYuejie Li, Ke Yang, Yueying Hua, Berlin Chen, Jianhao Nie, Yueping He, Caixin Kang

134

Die gesprochene Abfragesuche ist ein wichtiger Interaktionsmodus in der modernen Informationsrückgewinnung. Bisherige Evaluierungsdatensätze sind jedoch oft auf einfache Abfragen unter eingeschränkten Rauschbedingungen beschränkt, was sie ungeeignet macht, um die Robustheit von Systemen zur gesprochenen Abfragesuche unter komplexen akustischen Störungen zu bewerten. Um diese Lücke zu schließen, stellen wir SQuTR vor, einen Robustheits-Benchmark für die gesprochene Abfragesuche, der einen groß angelegten Datensatz und ein einheitliches Evaluierungsprotokoll umfasst. SQuTR bündelt 37.317 einzigartige Abfragen aus sechs häufig verwendeten englischen und chinesischen Textretrieval-Datensätzen, die mehrere Domänen und verschiedene Abfragetypen abdecken. Wir synthetisieren Sprache mittels Sprachprofilen von 200 echten Sprechern und mischen 17 Kategorien von realen Umgebungsgeräuschen unter kontrollierten SNR-Werten, was eine reproduzierbare Robustheitsbewertung von ruhigen bis hin zu stark verrauschten Bedingungen ermöglicht. Im Rahmen des einheitlichen Protokolls führen wir umfangreiche Evaluationen an repräsentativen kaskadierten und end-to-end Retrievalsystemen durch. Experimentelle Ergebnisse zeigen, dass die Retrievalleistung mit zunehmendem Rauschen abnimmt, wobei die Einbrüche zwischen den Systemen erheblich variieren. Selbst groß angelegte Retrievalmodelle haben unter extremem Rauschen Schwierigkeiten, was darauf hindeutet, dass Robustheit nach wie vor ein kritischer Engpass ist. Insgesamt bietet SQuTR eine reproduzierbare Testumgebung für Benchmarking und diagnostische Analysen und erleichtert zukünftige Forschung zur Robustheit bei der gesprochenen Abfragesuche in Textretrievalsystemen.

MedXIAOHE: Ein umfassendes Rezept zur Entwicklung medizinischer MLLMs
MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

Feb 13

ByBaorong Shi, Bo Cui, Boyuan Jiang, Deli Yu, Fang Qian, Haihua Yang, Huichao Wang, Jiale Chen, Jianfei Pan, Jieqiong Cao, Jinghao Lin, Kai Wu, Lin Yang, Shengsheng Yao, Tao Chen, Xiaojun Xiao, Xiaozhong Ji, Xu Wang, Yijun He, Zhixiong Yang

Wir stellen MedXIAOHE vor, ein medizinisches Vision-Language-Foundation-Modell, das entwickelt wurde, um das allgemeine medizinische Verständnis und die klinische Denkfähigkeit in realen Anwendungsszenarien zu erweitern. MedXIAOHE erzielt state-of-the-art Leistungen in diversen medizinischen Benchmarks und übertrifft führende Closed-Source-Multimodalsysteme in mehreren Fähigkeiten. Um dies zu erreichen, schlagen wir ein entitätsbewusstes kontinuierliches Vortrainierungsframework vor, das heterogene medizinische Korpora strukturiert, um die Wissensabdeckung zu erweitern und Lücken im Long-Tail-Bereich (z.B. seltene Krankheiten) zu verringern. Für expertenähnliches medizinisches Denken und Interaktion integriert MedXIAOHE diverse medizinische Reasoning-Muster durch Reinforcement Learning und werkzeuggestütztes agentenbasiertes Training, wodurch mehrstufiges diagnostisches Reasoning mit nachvollziehbaren Entscheidungspfaden ermöglicht wird. Um die Zuverlässigkeit im realen Einsatz zu verbessern, vereint MedXIAOHE nutzerpräferenzbasierte Bewertungskriterien, evidenzbasiertes Reasoning und halluzinationsarme Langform-Berichterstattung mit verbesserter Einhaltung medizinischer Anweisungen. Wir veröffentlichen diesen Bericht, um unsere praktischen Designentscheidungen, Skalierungserkenntnisse und Evaluierungsframework zu dokumentieren, in der Hoffnung, weitere Forschungsarbeiten anzuregen.

Zooming ohne Zooming: Region-zu-Bild-Distillation für feinkörnige multimodale Wahrnehmung
Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

Feb 12

ByLai Wei, Liangbo He, Jun Lan, Lingzhong Dong, Yutong Cai, Siyuan Li, Huijia Zhu, Weiqiang Wang, Linghe Kong, Yue Wang, Zhuosheng Zhang, Weiran Huang

Multimodale Large Language Models (MLLMs) zeichnen sich durch ein breites visuelles Verständnis aus, haben aber nach wie vor Schwierigkeiten mit der feingranularen Wahrnehmung, bei der entscheidende Hinweise klein sind und leicht vom globalen Kontext überlagert werden. Kürzlich entwickelte "Thinking-with-Images"-Methoden mildern dieses Problem, indem sie während des Inferenzvorgangs iterativ interessante Regionen heran- und herauszoomen, verursachen jedoch aufgrund wiederholter Tool-Aufrufe und visueller Neuencodierung hohe Latenzzeiten. Um dies zu beheben, schlagen wir Region-to-Image Distillation vor, wodurch das Zoomen von einem Inferenz-Tool zu einem Training-Primitive wird und so die Vorteile des agentenbasierten Zoomens in einem einzigen Vorwärtsdurchlauf eines MLLM internalisiert werden. Insbesondere zoomen wir zunächst in mikrobeschnittene Regionen hinein, um starken Teacher-Modellen die Generierung hochwertiger VQA-Daten zu ermöglichen, und destillieren dann diese regionsbasierte Supervision zurück auf das Vollbild. Nach dem Training mit solchen Daten verbessert das kleinere Student-Modell die "Single-Glance"-feingranulare Wahrnehmung ohne Tool-Einsatz. Um diese Fähigkeit rigoros zu evaluieren, stellen wir außerdem ZoomBench vor, einen hybrid-annotierten Benchmark mit 845 VQA-Daten, die sechs feingranulare Wahrnehmungsdimensionen abdecken, zusammen mit einem Dual-View-Protokoll, das die globale-regionale "Zooming-Lücke" quantifiziert. Experimente zeigen, dass unsere Modelle eine führende Leistung über mehrere Benchmarks für feingranulare Wahrnehmung hinweg erzielen und auch die allgemeine multimodale Kognition auf Benchmarks wie visuelles Reasoning und GUI-Agenten verbessern. Wir diskutieren ferner, wann "Thinking-with-Images" notwendig ist versus wann dessen Gewinne in einen einzelnen Vorwärtsdurchlauf destilliert werden können. Unser Code ist verfügbar unter https://github.com/inclusionAI/Zooming-without-Zooming.

OneVision-Encoder: Codec-angepasste Sparsity als grundlegendes Prinzip für multimodale Intelligenz
OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

Feb 9

ByFeilong Tang, Xiang An, Yunyao Yan, Yin Xie, Bin Qin, Kaicheng Yang, Yifei Shen, Yuanhan Zhang, Chunyuan Li, Shikun Feng, Changrui Chen, Huajie Tan, Ming Hu, Manyuan Zhang, Bo Li, Ziyong Feng, Ziwei Liu, Zongyuan Ge, Jiankang Deng

Hypothese. Künstliche allgemeine Intelligenz ist im Kern ein Kompressionsproblem. Effektive Kompression erfordert Resonanz: Deep Learning skaliert am besten, wenn seine Architektur mit der fundamentalen Struktur der Daten übereinstimmt. Dies sind die grundlegenden Prinzipien. Dennoch haben sich moderne Vision-Architekturen von diesen Wahrheiten entfernt: Visuelle Signale sind hochgradig redundant, während diskriminative Information, die Überraschung, spärlich ist. Aktuelle Modelle verarbeiten dichte Pixelraster gleichmäßig und verschwenden immense Rechenleistung auf statische Hintergründe, anstatt sich auf die prädiktiven Residuen zu konzentrieren, die Bewegung und Bedeutung definieren. Wir vertreten die Ansicht, dass wir zur Lösung des visuellen Verständnisses unsere Architekturen an den informationstheoretischen Prinzipien von Video, d.h. an Codecs, ausrichten müssen. Methode. Der OneVision-Encoder kodiert Video, indem er prädiktive visuelle Struktur in semantische Bedeutung komprimiert. Durch die Übernahme von Codec-Patchification verlässt der OV-Encoder die gleichmäßige Berechnung und konzentriert sich ausschließlich auf die 3,1 % bis 25 % der Regionen, die reich an Signalentropie sind. Um räumliches und zeitliches Reasoning unter irregulären Token-Layouts zu vereinheitlichen, verwendet der OneVision-Encoder eine gemeinsame 3D-RoPE und wird mit einem groß angelegten Cluster-Diskriminierungsziel über mehr als eine Million semantischer Konzepte trainiert, wodurch Objektpermanenz und Bewegungsdynamik gemeinsam erfasst werden. Evidenz. Die Ergebnisse validieren unsere Kernhypothese: Effizienz und Genauigkeit sind kein Kompromiss; sie sind positiv korreliert. Bei der Integration in ein LLM übertrifft es durchgängig starke Vision-Backbones wie Qwen3-ViT und SigLIP2 über 16 Benchmarks für Bild-, Video- und Dokumentenverständnis, obwohl es wesentlich weniger visuelle Tokens und Vortrainingsdaten verwendet. Bemerkenswerterweise erzielt der OV-Encoder bei Video-Verständnisaufgaben eine durchschnittliche Verbesserung von 4,1 % gegenüber Qwen3-ViT. Codec-ausgerichtete, patch-level Sparsity ist ein grundlegendes Prinzip, das den OV-Encoder als skalierbare Engine für visuelle Generalisten der nächsten Generation ermöglicht.

CoPE-VideoLM: Codec-Primitive für effiziente Video-Sprachmodelle
CoPE-VideoLM: Codec Primitives For Efficient Video Language Models

Feb 13

BySayan Deb Sarkar, Rémi Pautrat, Ondrej Miksik, Marc Pollefeys, Iro Armeni, Mahdi Rad, Mihai Dusmanu

Video Language Models (VideoLMs) befähigen KI-Systeme, zeitliche Dynamiken in Videos zu verstehen. Um der Beschränkung durch das maximale Kontextfenster zu genügen, verwenden aktuelle Methoden die Schlüsselbildabtastung, die aufgrund der spärlichen zeitlichen Abdeckung sowohl makroskopische Ereignisse als auch mikroskopische Details verpassen kann. Darüber hinaus verursacht die Verarbeitung vollständiger Bilder und ihrer Token für jedes Einzelbild erheblichen Rechenaufwand. Um diese Einschränkungen zu adressieren, schlagen wir vor, Video-Codec-Primitive (insbesondere Bewegungsvektoren und Residuen) zu nutzen, die von Natur aus Redundanz und Sparsamkeit im Video kodieren, ohne für die meisten Bilder eine aufwändige Vollbildkodierung zu erfordern. Zu diesem Zweck führen wir leichtgewichtige, transformerbasierte Encoder ein, die Codec-Primitive aggregieren und ihre Repräsentationen durch eine Vor-Trainingsstrategie mit den Einbettungen des Bildencoders in Einklang bringen, was die Konvergenz während des End-to-End-Feintunings beschleunigt. Unser Ansatz reduziert die Zeit bis zum ersten Token um bis zu 86 % und die Token-Nutzung um bis zu 93 % im Vergleich zu Standard-VideoLMs. Darüber hinaus können wir durch Variation der Dichte von Schlüsselbildern und Codec-Primitiven die Leistung auf 14 verschiedenen Videoverständnis-Benchmarks, die allgemeine Fragebeantwortung, zeitliches Schließen, Langzeitverständnis und räumliches Szenenverständnis umfassen, halten oder übertreffen.

GeoAgent: Georeferenzierung überall erlernen mit verstärkten geografischen Merkmalen
GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics

Feb 13

ByModi Jin, Yiming Zhang, Boyuan Sun, Dingwen Zhang, MingMing Cheng, Qibin Hou

Dieses Papier stellt GeoAgent vor, ein Modell, das in der Lage ist, menschenähnlich zu argumentieren und feingranulare Adressschlussfolgerungen abzuleiten. Bisherige RL-basierte Methoden haben zwar Durchbrüche in Leistung und Interpretierbarkeit erzielt, werfen jedoch weiterhin Bedenken auf, da sie auf KI-generierten Chain-of-Thought-Daten (CoT) und Trainingsstrategien basieren, die mit geografischen Charakteristika im Konflikt stehen. Um diese Probleme zu adressieren, führen wir zunächst GeoSeek ein, einen neuen Geodatensatz, der von Geografieexperten und professionellen Spielern annotierte CoT-Daten umfasst. Darüber hinaus erforschen wir gründlich die inherenten Eigenschaften geografischer Aufgaben und schlagen eine Geo-Ähnlichkeitsbelohnung sowie eine Konsistenzbelohnung vor, die von einem Konsistenz-Agenten bewertet wird, um das Training zu unterstützen. Dies ermutigt das Modell, sich aus geografischer Perspektive korrekten Antworten anzunähern und dabei die Integrität und Konsistenz seines Argumentationsprozesses zu gewährleisten. Experimentelle Ergebnisse zeigen, dass GeoAgent bestehende Methoden und eine Reihe allgemeiner VLLMs über mehrere Granularitäten hinweg übertrifft und dabei Argumentationen generiert, die eng mit menschlichem Denken übereinstimmen.

SemanticMoments: Trainingsfreie Bewegungsähnlichkeit mittels Merkmalen dritter Momente
SemanticMoments: Training-Free Motion Similarity via Third Moment Features

Feb 9

BySaar Huberman, Kfir Goldberg, Or Patashnik, Sagie Benaim, Ron Mokady

Die Extraktion von Videos basierend auf semantischer Bewegung ist ein grundlegendes, aber ungelöstes Problem. Bestehende Video-Repräsentationsansätze stützen sich übermäßig auf statische Erscheinungsmerkmale und Szenenkontext anstatt auf Bewegungsdynamik – eine Verzerrung, die von ihren Trainingsdaten und -zielen übernommen wird. Im Gegensatz dazu fehlt traditionellen bewegungszentrierten Eingaben wie optischem Fluss die semantische Verankerung, die zum Verständnis hochgradiger Bewegung notwendig ist. Um diese inhärente Verzerrung zu demonstrieren, führen wir die SimMotion-Benchmarks ein, die kontrollierte synthetische Daten mit einem neuen, menschlich annotierten Echtwelt-Datensatz kombinieren. Wir zeigen, dass bestehende Modelle auf diesen Benchmarks schlecht abschneiden und oft scheitern, Bewegung von Erscheinungsmerkmalen zu trennen. Um diese Lücke zu schließen, schlagen wir SemanticMoments vor, eine einfache, trainingsfreie Methode, die zeitliche Statistiken (insbesondere höhere Momente) über Merkmale vortrainierter semantischer Modelle berechnet. In unseren Benchmarks übertrifft SemanticMoments durchgängig bestehende RGB-, Fluss- und textüberwachte Methoden. Dies zeigt, dass zeitliche Statistiken in einem semantischen Merkmalsraum eine skalierbare und wahrnehmungsfundierte Grundlage für bewegungszentriertes Videoverständnis bieten.

Was verbessert RL für visuelle Reasoning-Aufgaben? Eine Frankenstein-artige Analyse
What does RL improve for Visual Reasoning? A Frankenstein-Style Analysis

Feb 12

ByXirui Li, Ming Li, Tianyi Zhou

Verstärkendes Lernen (RL) mit verifizierbaren Belohnungen ist zu einer standardmäßigen Nachtrainingsphase geworden, um das visuelle Reasoning in Vision-Language-Modellen zu verbessern. Dennoch bleibt unklar, welche Fähigkeiten RL tatsächlich im Vergleich zur überwachten Feinabstimmung als Cold-Start-Initialisierung (IN) verbessert. End-to-End-Benchmark-Verbesserungen vereinen mehrere Faktoren, was es schwierig macht, Fortschritte auf spezifische Fertigkeiten zurückzuführen. Um diese Lücke zu schließen, schlagen wir einen Frankenstein-artigen Analyseframework vor, der umfasst: (i) funktionale Lokalisierung durch kausales Probing; (ii) Update-Charakterisierung durch Parametervergleich; und (iii) Übertragbarkeitstests durch Modellzusammenführung. Stattdessen induziert RL eine konsistente Inferenzzeit-Verschiebung hauptsächlich in mittleren bis späten Schichten, und diese Verfeinerungen in mittleren bis späten Schichten sind sowohl übertragbar (durch Zusammenführung) als auch notwendig (durch Einfrieren) für RL-Gewinne. Insgesamt deuten unsere Ergebnisse darauf hin, dass der zuverlässige Beitrag von RL beim visuellen Reasoning keine gleichmäßige Verbesserung der visuellen Wahrnehmung ist, sondern eine systematische Verfeinerung der Transformer-Berechnung in mittleren bis späten Schichten, die die Ausrichtung von Vision auf Reasoning und die Reasoning-Leistung verbessert. Dies unterstreicht die Grenzen einer reinen Benchmark-Bewertung für das Verständnis von multimodalen Reasoning-Verbesserungen.

Intelligente KI-Delegation
Intelligent AI Delegation

Feb 12

ByNenad Tomašev, Matija Franklin, Simon Osindero

KI-Agenten sind in der Lage, zunehmend komplexe Aufgaben zu bewältigen. Um anspruchsvollere Ziele zu erreichen, müssen KI-Agenten Probleme sinnvoll in handhabbare Teilkomponenten zerlegen und deren Bearbeitung sicher an andere KI-Agenten sowie an Menschen delegieren können. Bisherige Methoden zur Aufgabenzerlegung und Delegation stützen sich jedoch auf einfache Heuristiken und sind nicht in der Lage, dynamisch auf Umweltveränderungen zu reagieren und unerwartete Fehler robust zu bewältigen. Hier schlagen wir einen adaptiven Rahmen für intelligente KI-Delegation vor – eine Abfolge von Entscheidungen zur Aufgabenverteilung, die auch die Übertragung von Befugnissen, Verantwortung, Rechenschaftspflicht, klare Spezifikationen von Rollen und Grenzen, Klarheit der Absicht sowie Mechanismen zur Vertrauensbildung zwischen den beiden (oder mehr) Parteien umfasst. Der vorgeschlagene Rahmen ist sowohl für menschliche als auch für KI-Delegierende und Empfangende in komplexen Delegationsnetzwerken anwendbar und zielt darauf ab, die Entwicklung von Protokollen für das entstehende agentenbasierte Web zu informieren.

ABot-M0: VLA-Foundation-Modell für robotische Manipulation mit Aktionsmannigfaltigkeitslernen
ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning

Feb 11

ByYandan Yang, Shuang Zeng, Tong Lin, Xinyuan Chang, Dekang Qi, Junjin Xiao, Haoyun Liu, Ronghan Chen, Yuzhi Chen, Dongjie Huo, Feng Xiong, Xing Wei, Zhiheng Ma, Mu Xu

Die Entwicklung allgemeiner, verkörperter Agenten für verschiedene Hardwareplattformen bleibt eine zentrale Herausforderung in der Robotik, die oft als „One-Brain, Many-Forms“-Paradigma beschrieben wird. Der Fortschritt wird durch fragmentierte Daten, inkonsistente Repräsentationen und nicht aufeinander abgestimmte Trainingsziele behindert. Wir stellen ABot-M0 vor, ein Framework, das eine systematische Datenkuratierungspipeline aufbaut und gleichzeitig Modellarchitektur und Trainingsstrategien gemeinsam optimiert, um eine end-to-end-Transformation heterogener Rohdaten in vereinheitlichte, effiziente Repräsentationen zu ermöglichen. Aus sechs öffentlichen Datensätzen bereinigen, standardisieren und balancieren wir Proben, um den UniACT-Datensatz zu konstruieren – einen großvolumigen Datensatz mit über 6 Millionen Trajektorien und 9.500 Stunden Daten, der verschiedene Robotermorphologien und Aufgaben-szenarien abdeckt. Vereinheitlichtes Pre-training verbessert die Wissensübertragung und Generalisierung über Plattformen und Aufgaben hinweg und unterstützt allgemeine verkörperte Intelligenz. Um die Effizienz und Stabilität der Aktionsvorhersage zu verbessern, stellen wir die Action Manifold-Hypothese auf: Effektive Roboteraktionen liegen nicht im vollständigen hochdimensionalen Raum, sondern auf einer niedrigdimensionalen, glatten Mannigfaltigkeit, die durch physikalische Gesetze und Aufgabenbeschränkungen bestimmt wird. Darauf aufbauend führen wir Action Manifold Learning (AML) ein, das ein DiT-Backbone nutzt, um direkt saubere, kontinuierliche Aktionssequenzen vorherzusagen. Dies verlagert das Lernen von Rauschunterdrückung auf die Projektion auf machbare Mannigfaltigkeiten und verbessert die Dekodiergeschwindigkeit und Politikstabilität. ABot-M0 unterstützt modulare Wahrnehmung über einen dual-stream-Mechanismus, der VLM-Semantik mit geometrischen Priors und Multi-View-Eingaben von Plug-and-Play-3D-Modulen wie VGGT und Qwen-Image-Edit integriert. Dies verbessert das räumliche Verständnis ohne Modifikation des Backbones und mildert Standardeinschränkungen von VLMs im 3D-Schließen. Experimente zeigen, dass Komponenten unabhängig voneinander mit additiven Vorteilen operieren. Wir werden allen Code und Pipelines zur Reproduzierbarkeit und für zukünftige Forschung veröffentlichen.

RLinf-Co: Reinforcement Learning-basiertes Sim-Real-Co-Training für VLA-Modelle
RLinf-Co: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models

Feb 13

ByLiangzhi Shi, Shuaihang Chen, Feng Gao, Yinuo Chen, Kang Chen, Tonghe Zhang, Hongzhi Zhang, Weinan Zhang, Chao Yu, Yu Wang

Simulation bietet eine skalierbare und kostengünstige Möglichkeit, das Training von Vision-Language-Action (VLA)-Modellen zu bereichern und die Abhängigkeit von teuren Real-Roboter-Demonstrationen zu verringern. Die meisten Sim-Real-Co-Training-Methoden stützen sich jedoch auf überwachtes Feinjustieren (SFT), das die Simulation als statische Quelle für Demonstrationen behandelt und keine groß angelegten geschlossenen Interaktionsschleifen nutzt. Folglich sind die Verbesserungen in der realen Welt und die Generalisierungsfähigkeit oft begrenzt. In diesem Artikel schlagen wir einen RL-basierten Sim-Real-Co-Training (RL-Co)-Rahmen vor, der die interaktive Simulation nutzt, während die Fähigkeiten in der realen Welt erhalten bleiben. Unser Ansatz folgt einem generischen Zwei-Stufen-Design: Zuerst initialisieren wir die Policy durch SFT mit einer Mischung aus realen und simulierten Demonstrationen. Anschließend feinjustieren wir sie mittels Reinforcement Learning in der Simulation, wobei wir einen zusätzlichen überwachten Verlust auf Realweltdaten hinzufügen, um die Policy zu stabilisieren und katastrophales Vergessen zu mildern. Wir evaluieren unseren Rahmen an vier realen Tisch-Manipulationsaufgaben mit zwei repräsentativen VLA-Architekturen, OpenVLA und π_{0.5}, und beobachten konsistente Verbesserungen gegenüber Feinjustieren nur mit Realweltdaten und SFT-basiertem Co-Training, einschließlich einer Steigerung des Realwelterfolgs um +24 % bei OpenVLA und +20 % bei π_{0.5}. Über höhere Erfolgsquoten hinaus führt RL-Co-Training zu einer besseren Generalisierung bei ungesehenen Aufgabenvariationen und einer deutlich verbesserten Dateneffizienz in der realen Welt. Dies bietet einen praktischen und skalierbaren Weg, Simulation zu nutzen, um den Einsatz von Real-Robotern zu verbessern.

Hin zu universellen Video-MLLMs mit attributstrukturierten und qualitätsgeprüften Instruktionen
Towards Universal Video MLLMs with Attribute-Structured and Quality-Verified Instructions

Feb 13

ByYunheng Li, Hengrui Zhang, Meng-Hao Guo, Wenzhao Gao, Shaoyong Jia, Shaohui Jiao, Qibin Hou, Ming-Ming Cheng

Umfassendes Videoverständnis erfordert die Modellierung feinkörniger visueller und auditiver Informationen über die Zeit hinweg in verschiedenen realen Szenarien. Die Leistung bestehender Modelle wird jedoch hauptsächlich durch Video-Instruktionsdaten eingeschränkt, die komplexen audiovisuellen Inhalt als einzelne, unvollständige Beschreibungen darstellen, denen eine feinkörnige Organisation und zuverlässige Annotation fehlt. Um dies zu adressieren, führen wir ein: (i) ASID-1M, eine Open-Source-Sammlung von einer Million strukturierter, feinkörniger audiovisueller Instruktionsannotationen mit Einzel- und Multi-Attribut-Aufsicht; (ii) ASID-Verify, eine skalierbare Datenkuratierungspipeline für die Annotation mit automatischer Verifikation und Verfeinerung, die semantische und zeitliche Konsistenz zwischen den Beschreibungen und dem entsprechenden audiovisuellen Inhalt erzwingt; und (iii) ASID-Captioner, ein Videoverständnismodell, das mittels Supervised Fine-Tuning (SFT) auf ASID-1M trainiert wurde. Experimente über sieben Benchmarks, die audiovisuelle Beschreibung, attributweise Beschreibung, beschreibungsbasierte Fragebeantwortung und beschreibungsbasiertes temporales Grounding abdecken, zeigen, dass ASID-Captioner die Qualität feinkörniger Beschreibungen verbessert, während Halluzinationen reduziert und die Befolgung von Instruktionen verbessert wird. Es erzielt state-of-the-art Leistung unter Open-Source-Modellen und ist mit Gemini-3-Pro wettbewerbsfähig.

BPDQ: Bit-Ebenen-Zerlegungsquantisierung auf einem variablen Gitter für große Sprachmodelle
BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models

Feb 4

ByJunyu Chen, Jungang Li, Jing Xiong, Wenjie Wang, Qingyao Yang, He Xiao, Zhen Li, Taiqiang Wu, Mengzhao Chen, Zhen Peng, Chaofan Tao, Long Shi, Hongxia Yang, Ngai Wong

Die Inferenz großer Sprachmodelle (LLM) ist in ressourcenbeschränkten Umgebungen oft durch den Speicherbedarf und die Speicherbandbreite begrenzt, was die Quantisierung zu einer grundlegenden Technik für effizientes Bereitstellen macht. Während die Quantisierung nach dem Training (PTQ) bei 4 Bit eine hohe Genauigkeit beibehält, verschlechtert sie sich bei 2-3 Bit. Grundsätzlich erzwingen bestehende Methoden ein forminvariantes Quantisierungsgitter (z.B. die festen gleichmäßigen Intervalle von UINT2) für jede Gruppe, was den zulässigen Lösungsraum für die Fehlerminimierung stark einschränkt. Um dies zu adressieren, schlagen wir Bit-Plane Decomposition Quantization (BPDQ) vor, das ein variables Quantisierungsgitter über Bit-Ebenen und Skalarkoeffizienten konstruiert und diese unter Verwendung approximativer Informationen zweiter Ordnung iterativ verfeinert, während Quantisierungsfehler progressiv kompensiert werden, um die Ausgabeabweichung zu minimieren. Im 2-Bit-Bereich ermöglicht BPDQ das Bereitstellen von Qwen2.5-72B auf einer einzelnen RTX 3090 mit 83,85 % GSM8K-Genauigkeit (vs. 90,83 % bei 16-Bit). Darüber hinaus liefern wir eine theoretische Analyse, die zeigt, dass das variable Gitter den zulässigen Lösungsraum erweitert und dass der Quantisierungsprozess konsistent mit dem Optimierungsziel in der hessian-induzierten Geometrie ausgerichtet ist. Code: github.com/KingdalfGoodman/BPDQ.

DICE: Diffusion-große Sprachmodelle übertreffen sich bei der Generierung von CUDA-Kerneln
DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels

Feb 12

ByHaolei Bai, Lingcheng Kong, Xueyi Chen, Jianmian Wang, Zhiqiang Tao, Huan Wang

Diffusionsbasierte große Sprachmodelle (dLLMs) haben sich als vielversprechende Alternative zu autoregressiven (AR) LLMs etabliert, was auf ihre Fähigkeit zur parallelen Token-Generierung zurückzuführen ist. Dieses Paradigma eignet sich besonders gut für die Code-Generierung, bei der ganzheitliche Strukturplanung und nicht-sequentielle Verfeinerung entscheidend sind. Trotz dieses Potenzials gestaltet sich die Anpassung von dLLMs für die CUDA-Kernel-Generierung nach wie vor schwierig, was nicht nur an der hohen Spezialisierung, sondern auch am gravierenden Mangel an hochwertigen Trainingsdaten liegt. Um diese Herausforderungen zu bewältigen, erstellen wir CuKe, einen erweiterten Supervised-Fine-Tuning-Datensatz, der für hochperformante CUDA-Kernel optimiert ist. Darauf aufbauend schlagen wir einen Bi-Phase-Curated-Reinforcement-Learning (BiC-RL)-Framework vor, der eine CUDA-Kernel-Infilling-Phase und eine End-to-End-CUDA-Kernel-Generierungsphase umfasst. Mithilfe dieses Trainingsframeworks stellen wir DICE vor, eine Reihe von diffusionsbasierten großen Sprachmodellen für die CUDA-Kernel-Generierung in drei Parametergrößen: 1,7B, 4B und 8B. Umfangreiche Experimente auf KernelBench zeigen, dass DICE sowohl autoregressive als auch diffusionsbasierte LLMs vergleichbarer Größe signifikant übertrifft und einen neuen State-of-the-Art für die CUDA-Kernel-Generierung etabliert.

SciAgentGym: Benchmarking von mehrstufiger wissenschaftlicher Werkzeugnutzung in LLM-Agenten
SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents

Feb 13

ByYujiong Shen, Yajie Yang, Zhiheng Xi, Binze Hu, Huayu Sha, Jiazheng Zhang, Qiyuan Peng, Junlin Shang, Jixuan Huang, Yutao Fan, Jingqi Tong, Shihan Dou, Ming Zhang, Lei Bai, Zhenfei Yin, Tao Gui, Xingjun Ma, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang

Wissenschaftliches Denken erfordert inhärent die Integration anspruchsvoller Werkzeugsätze, um domänenspezifisches Wissen zu navigieren. Dennoch übersehen aktuelle Benchmarks weitgehend die Fähigkeit von Agenten, Werkzeuge für solche rigorosen Arbeitsabläufe zu orchestrieren. Um diese Lücke zu schließen, stellen wir SciAgentGym vor, eine skalierbare interaktive Umgebung mit 1.780 domänenspezifischen Werkzeugen aus vier Naturwissenschaftsdisziplinen, unterstützt durch eine robuste Ausführungsinfrastruktur. Ergänzend dazu präsentieren wir SciAgentBench, eine gestaffelte Evaluierungssuite, die darauf ausgelegt ist, agentenbasierte Fähigkeiten von elementaren Aktionen bis hin zu langfristigen Arbeitsabläufen zu belastungstesten. Unsere Auswertung identifiziert einen kritischen Engpass: State-of-the-Art-Modelle haben Schwierigkeiten mit komplexer wissenschaftlicher Werkzeugnutzung. Selbst für ein führendes Modell wie GPT-5 sinken die Erfolgsquoten von 60,6 % auf 30,9 %, sobald die Interaktionshorizonte länger werden, primär aufgrund von Fehlern bei der Ausführung mehrstufiger Arbeitsabläufe. Um dies zu adressieren, schlagen wir SciForge vor, eine Methode zur Datensynthese, die den Werkzeugaktionsraum als Abhängigkeitsgraph modelliert, um logikbewusste Trainingsverläufe zu generieren. Durch Feinabstimmung auf diesen Verläufen übertrifft unser SciAgent-8B das deutlich größere Qwen3-VL-235B-Instruct und zeigt gleichzeitig einen positiven domänenübergreifenden Transfer wissenschaftlicher Werkzeugnutzungsfähigkeiten. Diese Ergebnisse unterstreichen das vielversprechende Potenzial autonomer wissenschaftlicher Agenten der nächsten Generation.

Über die Robustheit und Chain-of-Thought-Konsistenz von RL-feingetuneten VLMs
On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs

Feb 13

ByRosie Zhao, Anshul Shah, Xiaoyu Zhu, Xinke Deng, Zhongyu Jiang, Yang Yang, Joerg Liebelt, Arnab Mondal

Reinforcement Learning (RL)-Feintuning hat sich als Schlüsseltechnik zur Verbesserung großer Sprachmodelle (LLMs) bei reasoning-intensiven Aufgaben etabliert, was seine Erweiterung auf Vision-Language-Modelle (VLMs) motiviert. Während RL-feingetunte VLMs bei Benchmarks für visuelles Reasoning Verbesserungen zeigen, bleiben sie anfällig für schwache visuelle Verankerung, Halluzinationen und eine zu starke Abhängigkeit von textuellen Hinweisen. Wir zeigen, dass einfache, kontrollierte textuelle Störungen – irreführende Bildbeschreibungen oder falsche Chain-of-Thought (CoT)-Abläufe – zu erheblichen Einbrüchen in Robustheit und Konfidenz führen und dass diese Effekte ausgeprägter sind, wenn CoT-Konsistenz über Open-Source-Multimodale Reasoning-Modelle hinweg berücksichtigt wird. Entropiebasierte Metriken zeigen weiterhin, dass diese Störungen die Modellunsicherheit und die Wahrscheinlichkeitsmasse auf der korrekten Option verändern und modellspezifische Trends in der Fehlkalibrierung aufdecken. Um diese Schwachstellen besser zu verstehen, analysieren wir weiterhin die Dynamik des RL-Feintunings und decken einen Zielkonflikt zwischen Genauigkeit und Zuverlässigkeit (Accuracy-Faithfulness Trade-off) auf: Feintuning steigert die Benchmark-Genauigkeit, kann aber gleichzeitig die Zuverlässigkeit des begleitenden CoT und dessen Robustheit gegenüber kontextuellen Veränderungen untergraben. Obwohl adversarielle Augmentierung die Robustheit verbessert, verhindert sie allein keine Drift der Zuverlässigkeit. Die Integration einer zuverlässigkeitsbewussten Belohnung (Faithfulness-Aware Reward) kann die Ausrichtung zwischen Antworten und Reasoning wiederherstellen, birgt jedoch in Kombination mit Augmentierung das Risiko, dass das Training auf Abkürzungsstrategien kollabiert und die Robustheit unerreichbar bleibt. Zusammengenommen unterstreichen diese Ergebnisse die Grenzen von reinen Genauigkeitsbewertungen und motivieren Trainings- und Bewertungsprotokolle, die Korrektheit, Robustheit und die Zuverlässigkeit visuell fundierten Reasonings gleichermaßen betonen.

FLAC: Maximale Entropie RL durch kinetische Energie-regularisierte Brückenanpassung
FLAC: Maximum Entropy RL via Kinetic Energy Regularized Bridge Matching

Feb 13

ByLei Lv, Yunfei Li, Yu Luo, Fuchun Sun, Xiao Ma

Iterative generative Strategien wie Diffusionsmodelle und Flow-Matching bieten überlegene Ausdrucksfähigkeit für kontinuierliche Steuerung, erschweren jedoch Maximum-Entropy Reinforcement Learning, da ihre Aktionslog-Dichten nicht direkt zugänglich sind. Um dies zu adressieren, schlagen wir Field Least-Energy Actor-Critic (FLAC) vor, ein likelihood-freies Framework, das die Stochastizität der Strategie bestraft, indem es die kinetische Energie des Geschwindigkeitsfeldes penalisiert. Unsere zentrale Erkenntnis ist, Strategieoptimierung als ein Generalized Schrödinger Bridge (GSB)-Problem relativ zu einem Referenzprozess mit hoher Entropie (z.B. uniform) zu formulieren. In dieser Sichtweise ergibt sich das Maximum-Entropy-Prinzip natürlich als das Bestreben, nahe an einer hoch-entropischen Referenz zu bleiben, während der Ertrag optimiert wird, ohne explizite Aktionsdichten zu benötigen. In diesem Framework dient kinetische Energie als physikalisch fundierter Stellvertreter für die Divergenz von der Referenz: Die Minimierung der Energie im Pfadraum begrenzt die Abweichung der induzierten terminalen Aktionsverteilung. Aufbauend auf dieser Sichtweise leiten wir ein energie-regularisiertes Strategie-Iterationsschema und einen praktischen Off-Policy-Algorithmus ab, der die kinetische Energie automatisch über einen Lagrangian-Dual-Mechanismus abstimmt. Empirisch erreicht FLAC auf hochdimensionalen Benchmarks eine überlegene oder vergleichbare Leistung gegenüber starken Baseline-Methoden, während explizite Dichteschätzung vermieden wird.

Xiaomi-Robotics-0: Ein Open-Source-Vision-Language-Action-Modell mit Echtzeitausführung
Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution

Feb 13

ByRui Cai, Jun Guo, Xinze He, Piaopiao Jin, Jie Li, Bingxuan Lin, Futeng Liu, Wei Liu, Fei Ma, Kun Ma, Feng Qiu, Heng Qu, Yifei Su, Qiao Sun, Dong Wang, Donghao Wang, Yunhong Wang, Rujie Wu, Diyun Xiang, Yu Yang, Hangjun Ye, Yuan Zhang, Quanyun Zhou

In diesem Bericht stellen wir Xiaomi-Robotics-0 vor, ein fortschrittliches Vision-Language-Action (VLA)-Modell, das für hohe Leistungsfähigkeit sowie schnelle und flüssige Echtzeitausführung optimiert ist. Der Schlüssel unserer Methode liegt in einem sorgfältig konzipierten Trainingsrezept und einer durchdachten Bereitstellungsstrategie. Xiaomi-Robotics-0 wird zunächst mit groß angelegten, roboterübergreifenden Trajektorien und Vision-Language-Daten vortrainiert, wodurch es breite und generalisierbare Aktionsgenerierungsfähigkeiten erlangt, ohne das katastrophale Vergessen des visuell-semantischen Wissens des zugrundeliegenden vortrainierten VLM zu riskieren. Während des Nachtrainings schlagen wir mehrere Techniken vor, um das VLA-Modell für asynchrone Ausführung zu trainieren und so die Inferenzlatenz während des Einsatzes auf realen Robotern zu adressieren. Bei der Bereitstellung synchronisieren wir die Zeitpunkte aufeinanderfolgender vorhergesagter Aktionsabschnitte sorgfältig, um kontinuierliche und nahtlose Echtzeitausführungen zu gewährleisten. Wir evaluieren Xiaomi-Robotics-0 umfassend in Simulations-Benchmarks und an zwei anspruchsvollen Aufgaben mit realen Robotern, die präise und geschickte bimanuelle Manipulation erfordern. Die Ergebnisse zeigen, dass unsere Methode in allen Simulations-Benchmarks state-of-the-art Leistung erzielt. Darüber hinaus kann Xiaomi-Robotics-0 auf realen Robotern mit einer Consumer-Grade-GPU schnell und flüssig agieren und erreicht bei beiden Real-Roboter-Aufgaben hohe Erfolgsquoten und Durchsatzraten. Um zukünftige Forschung zu ermöglichen, sind Code und Modell-Checkpoints unter https://xiaomi-robotics-0.github.io quelloffen verfügbar.

Code2Worlds: Stärkung von Coding-LLMs für die 4D-Weltengenerierung
Code2Worlds: Empowering Coding LLMs for 4D World Generation

Feb 12

ByYi Zhang, Yunshuang Wang, Zeyu Zhang, Hao Tang

Um räumliche Intelligenz zu erreichen, muss über visuelle Plausibilität hinausgegangen werden, um Weltsimulatoren zu entwickeln, die auf physikalischen Gesetzen basieren. Während kodierende LLMs die Erzeugung statischer 3D-Szenen vorangetrieben haben, bleibt die Erweiterung dieses Paradigmas auf 4D-Dynamiken eine entscheidende Herausforderung. Diese Aufgabe stellt zwei grundlegende Probleme dar: die Verschränkung von Kontexten auf mehreren Skalen, bei der monolithische Generierung lokale Objektstrukturen und globale Umgebungslayouts nicht in Einklang bringen kann; und eine semantisch-physikalische Ausführungslücke, bei der open-loop Code-Generierung zu physikalischen Halluzinationen ohne dynamische Treue führt. Wir stellen Code2Worlds vor, ein Framework, das 4D-Generierung als Sprach-zu-Simulationscode-Generierung formuliert. Erstens schlagen wir eine Dual-Stream-Architektur vor, die retrieval-gestützte Objektgenerierung von hierarchischer Umgebungsorchestrierung entkoppelt. Zweitens etablieren wir, um dynamische Treue zu gewährleisten, einen physikbewussten Closed-Loop-Mechanismus, bei dem ein PostProcess-Agent Dynamiken skriptet, gekoppelt mit einem VLM-Motion-Critic, der Selbstreflektion durchführt, um Simulationscode iterativ zu verfeinern. Evaluationen auf dem Code4D-Benchmark zeigen, dass Code2Worlds Baseline-Methoden mit einem SGS-Zuwachs von 41 % und 49 % höherer Reichhaltigkeit übertrifft, während es einzigartig physikbewusste Dynamiken erzeugt, die in früheren statischen Methoden fehlen. Code: https://github.com/AIGeeksGroup/Code2Worlds. Website: https://aigeeksgroup.github.io/Code2Worlds.

Light4D: Trainingsfreie 4D-Video-Neubeleuchtung aus extremen Blickwinkeln
Light4D: Training-Free Extreme Viewpoint 4D Video Relighting

Feb 12

ByZhenghuang Wu, Kang Chen, Zeyu Zhang, Hao Tang

Jüngste Fortschritte bei diffusionsbasierten generativen Modellen haben ein neues Paradigma für die Neubeleuchtung von Bildern und Videos etabliert. Die Übertragung dieser Fähigkeiten auf die 4D-Neubeleuchtung bleibt jedoch eine Herausforderung, hauptsächlich aufgrund der Knappheit an gepaarten 4D-Trainingsdaten zur Neubeleuchtung und der Schwierigkeit, die zeitliche Konsistenz über extreme Blickwinkel hinweg aufrechtzuerhalten. In dieser Arbeit stellen wir Light4D vor, ein neuartiges, trainingsfreies Framework, das darauf ausgelegt ist, konsistente 4D-Videos unter Zielbeleuchtung zu synthetisieren, selbst bei extremen Blickwinkeländerungen. Erstens führen wir eine Entkoppelte Flussführung (Disentangled Flow Guidance) ein, eine zeitbewusste Strategie, die Lichtsteuerung effektiv in den latenten Raum einbringt und gleichzeitig die geometrische Integrität bewahrt. Zweitens entwickeln wir, um die zeitliche Konsistenz zu verstärken, eine Temporal Consistent Attention innerhalb der IC-Light-Architektur und integrieren weiterhin eine deterministische Regularisierung, um Flackern in der Erscheinung zu eliminieren. Umfangreiche Experimente belegen, dass unsere Methode eine wettbewerbsfähige Leistung in Bezug auf zeitliche Konsistenz und Beleuchtungstreue erzielt und Kamerarotationen von -90° bis 90° robust handhabt. Code: https://github.com/AIGeeksGroup/Light4D. Website: https://aigeeksgroup.github.io/Light4D.

Beste aus beiden Welten: Multimodales Schließen und Generieren mittels vereinheitlichtem diskretem Flow Matching
Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching

Feb 12

ByOnkar Susladkar, Tushar Prakash, Gayatri Deshmukh, Kiet A. Nguyen, Jiaxun Zhang, Adheesh Juvekar, Tianshu Bao, Lin Chai, Sparsh Mittal, Inderjit S Dhillon, Ismini Lourentzou

Wir stellen UniDFlow vor, einen vereinheitlichten diskreten Flow-Matching-Rahmen für multimodales Verständnis, Generierung und Bearbeitung. Er entkoppelt Verständnis und Generierung durch aufgabenspezifische Low-Rank-Adapter, vermeidet dadurch Zielkonflikte und Repräsentationsverschränkungen, während eine neuartige referenzbasierte multimodale Präferenzabstimmung relative Ergebnisse unter identischen Bedingungen optimiert und so Treue und Steuerbarkeit ohne aufwändiges Neutraining verbessert. UniDFlow erzielt state-of-the-art Leistungen in acht Benchmarks und zeigt starke Zero-Shot-Generalisierung für Aufgaben wie Inpainting, kontextbezogene Bildgenerierung, referenzbasierte Bearbeitung und kompositionelle Generierung, obwohl kein explizites aufgabenspezifisches Training erfolgte.

Self-EvolveRec: Selbst-evolvierende Empfehlungssysteme mit LLM-basierter gerichteter Rückmeldung
Self-EvolveRec: Self-Evolving Recommender Systems with LLM-based Directional Feedback

Feb 13

BySein Kim, Sangwu Park, Hongseok Kang, Wonjoong Kim, Jimin Seo, Yeonjun In, Kanghoon Yoon, Chanyoung Park

Herkömmliche Methoden zur Automatisierung des Designs von Empfehlungssystemen, wie Neural Architecture Search (NAS), sind oft durch einen festen Suchraum eingeschränkt, der durch menschliche Prämissen definiert ist. Dies begrenzt die Innovation auf vordefinierte Operatoren. Während neuere, durch LLM gesteuerte Code-Evolutions-Frameworks das Ziel von festen Suchräumen auf offene Programmräume verlagern, stützen sie sich primär auf skalare Metriken (z.B. NDCG, Hit Ratio), die keine qualitativen Einblicke in Modellfehler oder richtungsweisende Hinweise für Verbesserungen liefern. Um dieses Problem zu adressieren, schlagen wir Self-EvolveRec vor, ein neuartiges Framework, das eine richtungsweisende Feedback-Schleife etabliert, indem es einen User Simulator für qualitative Kritiken und ein Model Diagnosis Tool zur quantitativen internen Verifikation integriert. Darüber hinaus führen wir eine Diagnose-Tool – Modell-Co-Evolution-Strategie ein, um sicherzustellen, dass sich die Bewertungskriterien dynamisch anpassen, während sich die Empfehlungsarchitektur weiterentwickelt. Umfangreiche Experimente zeigen, dass Self-EvolveRec state-of-the-art NAS- und LLM-gesteuerte Code-Evolution-Baselines sowohl in der Empfehlungsleistung als auch in der Benutzerzufriedenheit signifikant übertrifft. Unser Code ist verfügbar unter https://github.com/Sein-Kim/self_evolverec.

TADA! Feinabstimmung von Audio-Diffusionsmodellen durch Aktivierungssteuerung
TADA! Tuning Audio Diffusion Models through Activation Steering

Feb 12

ByŁukasz Staniszewski, Katarzyna Zaleska, Mateusz Modrzejewski, Kamil Deja

Audiodefusionsmodelle können aus Text hochwertige Musik synthetisieren, doch ihre internen Mechanismen zur Repräsentation hochgradiger Konzepte sind nach wie vor wenig verstanden. In dieser Arbeit verwenden wir Aktivierungspatching, um zu zeigen, dass distinkte semantische Musikkonzepte – wie das Vorhandensein bestimmter Instrumente, Gesang oder Genrecharakteristika – durch eine kleine, gemeinsame Teilmenge von Attention-Layern in modernsten Audiodefusionsarchitekturen gesteuert werden. Des Weiteren demonstrieren wir, dass die Anwendung von Contrastive Activation Addition und Sparse Autoencodern in diesen Schichten eine präzisere Steuerung des generierten Audios ermöglicht, was auf einen direkten Nutzen des Spezialisierungsphänomens hindeutet. Durch das Lenken der Aktivierungen in den identifizierten Layern können wir spezifische musikalische Elemente mit hoher Präzision verändern, wie etwa die Modulation des Tempos oder die Veränderung der Stimmung eines Tracks.

Steer2Edit: Von der Aktivierungssteuerung zur Komponentenebenen-Bearbeitung
Steer2Edit: From Activation Steering to Component-Level Editing

Feb 10

ByChung-En Sun, Ge Yan, Zimo Wang, Tsui-Wei Weng

Steuerungsmethoden beeinflussen das Verhalten von Large Language Models, indem sie semantische Richtungen in verborgenen Repräsentationen identifizieren, werden jedoch typischerweise durch Aktivierungsinterventionen zur Inferenzzeit realisiert, die eine feste, globale Modifikation der internen Zustände des Modells anwenden. Obwohl wirksam, führen solche Eingriffe oft zu ungünstigen Attribut-Nutzen-Kompromissen bei starker Kontrolle, da sie ignorieren, dass viele Verhaltensweisen durch eine kleine und heterogene Teilmenge von Modellkomponenten gesteuert werden. Wir schlagen Steer2Edit vor, einen theoretisch fundierten, trainingsfreien Rahmen, der Steuerungsvektoren von Inferenzzeit-Steuersignalen in diagnostische Signale für komponentenbasierte Rang-1-Gewichtseditierung transformiert. Anstatt eine Steuerungsrichtung während der Generierung uniform zu injizieren, verteilt Steer2Edit Verhaltenseinflüsse selektiv über einzelne Attention-Heads und MLP-Neuronen um und erzeugt interpretierbare Editierungen, die den standardmäßigen Vorwärtsdurchlauf beibehalten und mit optimierter paralleler Inferenz kompatibel bleiben. In den Bereichen Sicherheitsausrichtung, Halluzinationsreduzierung und Reasoning-Effizienz erzielt Steer2Edit durchgängig günstigere Attribut-Nutzen-Kompromisse: bei gleicher Downstream-Leistung verbessert es die Sicherheit um bis zu 17,2%, steigert die Wahrhaftigkeit um 9,8% und reduziert die Reasoning-Länge im Durchschnitt um 12,2%. Insgesamt schlägt Steer2Edit eine principled Brücke zwischen Repräsentationssteuerung und Gewichtseditierung, indem es Steuerungssignale in interpretierbare, trainingsfreie Parameterupdates übersetzt.

Prinzipientreue synthetische Daten ermöglichen erstmals Skalierungsgesetze für LLMs in der Empfehlungsfunktion
Principled Synthetic Data Enables the First Scaling Laws for LLMs in Recommendation

Feb 7

ByBenyu Zhang, Qiang Zhang, Jianpeng Cheng, Hong-You Chen, Qifei Wang, Wei Sun, Shen Li, Jia Li, Jiahao Wu, Xiangjun Fan, Hong Yan

Große Sprachmodelle (LLMs) stellen eine vielversprechende Perspektive für Empfehlungssysteme dar, doch ihre Entwicklung wurde durch das Fehlen vorhersagbarer Skalierungsgesetze behindert, die für die Steuerung der Forschung und die Optimierung der Ressourcenzuteilung entscheidend sind. Wir stellen die Hypothese auf, dass dies auf das inhärente Rauschen, die Verzerrungen und die Unvollständigkeit der Rohdaten von Nutzerinteraktionen in früheren Ansätzen zum kontinuierlichen Vorabtraining (Continual Pre-Training, CPT) zurückzuführen sein könnte. Dieses Artikel stellt einen neuartigen, geschichteten Rahmen zur Erzeugung hochwertiger synthetischer Daten vor, der diese Probleme umgeht, indem ein kuratiertes, pädagogisches Curriculum für das LLM erstellt wird. Wir liefern starke, direkte Belege für den Nutzen unseres Curriculums, indem wir zeigen, dass Standard-Sequenzmodelle, die mit unseren wohlbegründeten synthetischen Daten trainiert wurden, Modelle, die mit echten Daten trainiert wurden, bei nachgelagerten Ranking-Aufgaben signifikant übertreffen (+130 % bei Recall@100 für SasRec). Dies demonstriert die Überlegenheit unserer Daten für das Erlernen generalisierbarer Nutzerpräferenzmuster. Darauf aufbauend weisen wir erstmals empirisch ein robustes Potenzgesetz-Skalierungsverhalten für ein LLM nach, das kontinuierlich mit unseren hochwertigen, empfahlungsspezifischen Daten vortrainiert wird. Unsere Experimente zeigen eine konsistente und vorhersagbare Reduzierung der Perplexität über mehrere synthetische Datenmodalitäten hinweg. Diese Ergebnisse etablieren eine grundlegende Methodik für eine zuverlässige Skalierung von LLM-Fähigkeiten im Empfehlungsbereich und verlagern damit den Forschungsfokus von der Kompensation von Datenmängeln hin zur Nutzung hochwertiger, strukturierter Informationen.

GeneralVLA: Generalisierbare Vision-Sprache-Handlungs-Modelle mit wissensbasierter Trajektorienplanung
GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning

Feb 4

ByGuoqing Ma, Siheng Wang, Zeyu Zhang, Shan Yu, Hao Tang

Große Foundation-Modelle haben eine starke Open-World-Generalisierung für komplexe Probleme in Vision und Sprache gezeigt, ein ähnliches Maß an Generalisierung wurde jedoch in der Robotik noch nicht erreicht. Eine grundlegende Herausforderung besteht darin, dass die Modelle nur begrenzte Zero-Shot-Fähigkeiten aufweisen, was ihre Fähigkeit beeinträchtigt, effektiv auf ungesehene Szenarien zu generalisieren. In dieser Arbeit schlagen wir GeneralVLA (Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning) vor, ein hierarchisches Vision-Language-Action (VLA)-Modell, das die Generalisierung von Foundation-Modellen effektiver nutzen kann, Zero-Shot-Manipulation ermöglicht und automatisch Daten für die Robotik generiert. Insbesondere untersuchen wir eine Klasse hierarchischer VLA-Modelle, bei denen das hochrangige ASM (Affordance Segmentation Module) feinabgestimmt wird, um Affordanzen von Bildmerkmalen in der Szene zu erfassen; der mittlere 3DAgent führt Aufgabenverständnis, Skillwissen und Trajektorienplanung durch, um einen 3D-Pfad zu erzeugen, der die gewünschte Endeffektor-Trajektorie des Roboters angibt. Die Zwischenvorhersage des 3D-Pfads dient dann als Führung für die niedrigere, 3D-bewusste Steuerungsstrategie, die präzise Manipulation ermöglicht. Im Vergleich zu alternativen Ansätzen erfordert unsere Methode keine Datenerfassung mit echten Robotern oder menschliche Demonstrationen, was sie deutlich skalierbarer für verschiedene Aufgaben und Blickwinkel macht. Empirisch generiert GeneralVLA erfolgreich Trajektorien für 14 Aufgaben und übertrifft dabei state-of-the-art Methoden wie VoxPoser signifikant. Die generierten Demonstrationen können robustere Behavior-Cloning-Strategien trainieren als das Training mit menschlichen Demonstrationen oder mit Daten von VoxPoser, Scaling-up und Code-As-Policies. Wir glauben, dass GeneralVLA die skalierbare Methode sein kann, um sowohl Daten für die Robotik zu generieren als auch neue Aufgaben in einer Zero-Shot-Umgebung zu lösen. Code: https://github.com/AIGeeksGroup/GeneralVLA. Website: https://aigeeksgroup.github.io/GeneralVLA.

Quantisierte Evolutionsstrategien: Hochpräzise Feinabstimmung quantisierter LLMs zu Kosten niedriger Präzision
Quantized Evolution Strategies: High-precision Fine-tuning of Quantized LLMs at Low-precision Cost

Feb 3

ByYinggan Xu, Risto Miikkulainen, Xin Qiu

Quantisierung nach dem Training (Post-Training Quantization, PTQ) ist entscheidend für den Einsatz von Large Language Models (LLMs) auf speicherbeschränkten Geräten, macht Modelle jedoch statisch und schwer feinabstimmbar. Standard-Fine-Tuning-Paradigmen, einschließlich Reinforcement Learning (RL), basieren grundlegend auf Backpropagation und hochpräzisen Gewichtungen zur Gradientenberechnung. Daher können sie nicht auf quantisierte Modelle angewendet werden, deren Parameterraum diskret und nicht differenzierbar ist. Während Evolutionsstrategien (Evolution Strategies, ES) eine backpropagationsfreie Alternative bieten, kann die Optimierung der quantisierten Parameter dennoch aufgrund verschwindender oder ungenauer Gradienten scheitern. Dieses Papier stellt Quantized Evolution Strategies (QES) vor, ein Optimierungsparadigma, das eine Feinabstimmung aller Parameter direkt im quantisierten Raum durchführt. QES basiert auf zwei Innovationen: (1) Es integriert akkumulierte Fehlerrückmeldung, um hochpräzise Gradientensignale zu erhalten, und (2) es nutzt einen zustandslosen Seed-Replay, um den Speicherverbrauch auf Low-Precision-Inferenzniveau zu reduzieren. QES übertrifft die aktuellste Zero-Order-Fine-Tuning-Methode bei arithmetischen Denkaufgaben erheblich und ermöglicht so eine direkte Feinabstimmung für quantisierte Modelle. Es eröffnet damit die Möglichkeit, LLMs vollständig im quantisierten Raum zu skalieren. Der Quellcode ist verfügbar unter https://github.com/dibbla/Quantized-Evolution-Strategies.

scPilot: Automatisierte Einzelzellanalyse und -entdeckung durch Reasoning mit großen Sprachmodellen
scPilot: Large Language Model Reasoning Toward Automated Single-Cell Analysis and Discovery

Feb 12

ByYiming Gao, Zhen Wang, Jefferson Chen, Mark Antkowiak, Mengzhou Hu, JungHo Kong, Dexter Pratt, Jieyuan Liu, Enze Ma, Zhiting Hu, Eric P. Xing

Wir stellen scPilot vor, das erste systematische Framework zur Anwendung omics-nativen Denkens: Ein großes Sprachmodell (LLM) kommuniziert in natürlicher Sprache, während es direkt Einzelzell-RNA-Seq-Daten und bei Bedarf Bioinformatik-Tools analysiert. scPilot wandelt zentrale Einzelzellanalysen – nämlich Zelltyp-Annotation, Rekonstruktion von Entwicklungstrajektorien und Transkriptionsfaktor-Zielbestimmung – in schrittweise Denkprobleme um, die das Modell lösen, begründen und bei Bedarf mit neuen Beweisen überarbeiten muss. Um den Fortschritt zu messen, veröffentlichen wir scBench, eine Suite von 9 fachkundig kuratierten Datensätzen und Bewertungstools, die die omics-native Denkfähigkeit von scPilot im Vergleich zu verschiedenen LLMs zuverlässig evaluieren. Experimente mit o1 zeigen, dass iteratives omics-natives Denken die durchschnittliche Genauigkeit bei der Zelltyp-Annotation um 11 % steigert und Gemini-2.5-Pro die Graph-Edit-Distanz von Trajektorien im Vergleich zu One-Shot-Prompting um 30 % reduziert, während transparente Denkspuren erzeugt werden, die Markergen-Ambiguïtät und regulatorische Logik erklären. Durch die Verankerung von LLMs in Roh-Omics-Daten ermöglicht scPilot überprüfbare, interpretierbare und diagnostisch informative Einzelzellanalysen. Code, Daten und Paket sind verfügbar unter https://github.com/maitrix-org/scPilot.

Lernen der baumkronenbasierten Bildsegmentierung aus verbesserten lidarbasierten Pseudolabels
Learning Image-based Tree Crown Segmentation from Enhanced Lidar-based Pseudo-labels

Feb 13

ByJulius Pesonen, Stefan Rua, Josef Taher, Niko Koivumäki, Xiaowei Yu, Eija Honkavaara

Die Kartierung einzelner Baumkronen ist entscheidend für Aufgaben wie die Führung von städtischen Baumkatastern und die Überwachung des Waldgesundheitszustands, was uns hilft, unsere Umwelt zu verstehen und zu schützen. Die automatische Abgrenzung der Kronen voneinander in Luftbildaufnahmen ist jedoch aufgrund von Faktoren wie der Textur und teilweisen Überlappungen von Baumkronen eine Herausforderung. In dieser Studie stellen wir eine Methode vor, um Deep-Learning-Modelle zu trainieren, die einzelne Bäume in RGB- und multispektralen Bildern segmentieren und voneinander trennen, wobei Pseudo-Labels verwendet werden, die aus luftgestützten Laserscanning-Daten (ALS) abgeleitet werden. Unsere Studie zeigt, dass diese ALS-abgeleiteten Pseudo-Labels mit einem Zero-Shot-Instanzensegmentierungsmodell, Segment Anything Model 2 (SAM 2), verbessert werden können. Unser Ansatz bietet eine Möglichkeit, domainspezifische Trainingsannotationen für optische Bilddaten zu erhalten, ohne manuelle Annotationkosten, was zu Segmentierungsmodellen führt, die alle verfügbaren Modelle übertreffen, die für einen allgemeinen Einsatzbereich für dieselbe Aufgabe entwickelt wurden.

Favia: Forensischer Agent zur Identifizierung und Analyse von Sicherheitslückenbehebungen
Favia: Forensic Agent for Vulnerability-fix Identification and Analysis

Feb 13

ByAndré Storhaug, Jiamou Sun, Jingyue Li

Die Identifizierung von Commits, die Sicherheitslücken beheben und zu veröffentlichten CVEs gehören, ist für die sichere Softwarewartung unerlässlich, bleibt jedoch im großen Maßstab eine Herausforderung, da große Repositorys Millionen von Commits enthalten, von denen nur ein kleiner Teil Sicherheitsprobleme behandelt. Bestehende automatisierte Ansätze, einschließlich traditioneller Machine-Learning-Verfahren und neuerer Methoden auf Basis großer Sprachmodelle (LLM), leiden oft unter einem schlechten Präzisions-Recall-Verhältnis. Da sie häufig an zufällig ausgewählten Commits evaluiert werden, zeigen wir auf, dass sie die reale Schwierigkeit erheblich unterschätzen, bei der Kandidaten-Commits bereits sicherheitsrelevant und sehr ähnlich sind. Wir stellen Favia vor, ein forensisches, agentenbasiertes Framework zur Identifizierung von Sicherheitslücken-Behebungen, das skalierbare Kandidatenpriorisierung mit tiefgreifendem und iterativem semantischem Reasoning kombiniert. Favia nutzt zunächst eine effiziente Ranking-Stufe, um den Suchraum der Commits einzugrenzen. Anschließend wird jeder Commit rigoros mit einem ReAct-basierten LLM-Agenten evaluiert. Indem der Agent mit einem Pre-Commit-Repository als Umgebung sowie spezialisierten Tools ausgestattet wird, kann dieser anfällige Komponenten lokalisieren, im Codebase navigieren und eine kausale Übereinstimmung zwischen Codeänderungen und den Ursachen der Sicherheitslücke herstellen. Dieser evidenzbasierte Prozess ermöglicht eine robuste Identifizierung von indirekten, mehrdateibezogenen und nicht-trivialen Behebungen, die Einzelprüfungs- oder Ähnlichkeits-basierten Methoden entgehen. Wir evaluieren Favia auf CVEVC, einem von uns erstellten umfangreichen Datensatz mit über 8 Millionen Commits aus 3.708 realen Repositorys, und zeigen, dass es unter realistischer Kandidatenauswahl durchgängig state-of-the-art traditionelle und LLM-basierte Baseline-Methoden übertrifft und die stärksten Präzisions-Recall-Verhältnisse sowie die höchsten F1-Werte erzielt.

OpenLID-v3: Verbesserung der Präzision bei der Identifikation eng verwandter Sprachen – Ein Erfahrungsbericht
OpenLID-v3: Improving the Precision of Closely Related Language Identification -- An Experience Report

Feb 13

ByMariia Fedorova, Nikolay Arefyev, Maja Buljan, Jindřich Helcl, Stephan Oepen, Egil Rønningstad, Yves Scherrer

Die Sprachidentifikation (Language Identification, LID) ist ein wesentlicher Schritt bei der Erstellung hochwertiger multilingualer Datensätze aus Webdaten. Bestehende LID-Tools (wie OpenLID oder GlotLID) haben oft Schwierigkeiten, eng verwandte Sprachen zu identifizieren und gültige natürliche Sprache von Rauschen zu unterscheiden, was die sprachspezifischen Teilmengen verunreinigt, insbesondere für niedrigressourcierte Sprachen. In dieser Arbeit erweitern wir den OpenLID-Klassifikator, indem wir mehr Trainingsdaten hinzufügen, problematische Sprachvarianten-Cluster zusammenführen und eine spezielle Kennzeichnung für Rauschen einführen. Wir nennen dieses erweiterte System OpenLID-v3 und evaluieren es im Vergleich zu GlotLID anhand mehrerer Benchmarks. Während der Entwicklung konzentrieren wir uns auf drei Gruppen eng verwandter Sprachen (Bosnisch, Kroatisch und Serbisch; romanische Varietätens Norditaliens und Südfrankreichs; und skandinavische Sprachen) und tragen neue Evaluierungsdatensätze bei, wo bestehende unzureichend sind. Wir stellen fest, dass Ensemble-Ansätze die Präzision verbessern, aber auch die Abdeckung für niedrigressourcierte Sprachen erheblich reduzieren. OpenLID-v3 ist verfügbar unter https://huggingface.co/HPLT/OpenLID-v3.