HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

41 papers found

OmniLottie: Erzeugung von Vektoranimationen über parametrisierte Lottie-Tokens
OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens

Mar 2

ByYiying Yang, Wei Cheng, Sijin Chen, Honghao Fu, Xianfang Zeng, Yujun Cai, Gang Yu, Xingjun Ma

147

OmniLottie ist ein vielseitiges Framework, das hochwertige Vektoranimationen aus multimodalen Anweisungen generiert. Für eine flexible Steuerung von Bewegung und visuellen Inhalten konzentrieren wir uns auf Lottie, ein leichtgewichtiges JSON-Format zur Darstellung sowohl von Formen als auch von Animationsverhalten. Allerdings enthalten die rohen Lottie-JSON-Dateien umfangreiche invariante strukturelle Metadaten und Formatierungstokens, was erhebliche Herausforderungen für das Erlernen der Generierung von Vektoranimationen darstellt. Daher führen wir einen speziell entwickelten Lottie-Tokenizer ein, der JSON-Dateien in strukturierte Sequenzen von Befehlen und Parametern umwandelt, welche Formen, Animationsfunktionen und Steuerparameter repräsentieren. Ein solcher Tokenizer ermöglicht es uns, OmniLottie auf vortrainierten Vision-Language-Modellen aufzubauen, um multimodalen, verschachtelten Anweisungen zu folgen und hochwertige Vektoranimationen zu erzeugen. Um die Forschung zur Generierung von Vektoranimationen weiter voranzutreiben, haben wir MMLottie-2M kuratiert, einen umfangreichen Datensatz mit professionell gestalteten Vektoranimationen, die mit textuellen und visuellen Annotationen versehen sind. Durch umfangreiche Experimente validieren wir, dass OmniLottie lebendige und semantisch abgestimmte Vektoranimationen produzieren kann, die sich eng an multimodalen menschlichen Anweisungen orientieren.

Von Skalierung zu Geschwindigkeit: Adaptive Skalierung zur Testzeit für Bildbearbeitung
From Scale to Speed: Adaptive Test-Time Scaling for Image Editing

Feb 24

ByXiangyan Qu, Zhenlong Yuan, Jing Tang, Rui Chen, Datao Tang, Meng Yu, Lei Sun, Yancheng Bai, Xiangxiang Chu, Gaopeng Gou, Gang Xiong, Yujun Cai

138

Image Chain-of-Thought (Image-CoT) ist ein Paradigma zur Skalierung zur Testzeit, das die Bildgenerierung durch Verlängerung der Inferenzzeit verbessert. Die meisten Image-CoT-Methoden konzentrieren sich auf die Text-zu-Bild (T2I)-Generierung. Im Gegensatz zur T2I-Generierung ist die Bildbearbeitung zielgerichtet: Der Lösungsraum wird durch das Quellbild und die Anweisung eingeschränkt. Diese Diskrepanz führt bei der Anwendung von Image-CoT auf die Bearbeitung zu drei Herausforderungen: ineffiziente Ressourcenallokation mit festen Sampling-Budgets, unzuverlässige Verifikation in frühen Stadien mittels allgemeiner MLLM-Scores und redundante bearbeitete Ergebnisse durch groß angelegtes Sampling. Um dies zu adressieren, schlagen wir ADaptive Edit-CoT (ADE-CoT) vor, ein On-Demand-Framework zur Skalierung zur Testzeit, das die Bearbeitungseffizienz und -leistung steigert. Es umfasst drei Schlüsselstrategien: (1) eine schwierigkeitsbewusste Ressourcenallokation, die dynamische Budgets basierend auf der geschätzten Bearbeitungsschwierigkeit zuweist; (2) eine bearbeitungsspezifische Verifikation beim frühen Ausmerzen, die Regionslokalisierung und Beschreibungskonsistenz nutzt, um vielversprechende Kandidaten auszuwählen; und (3) ein tiefenorientiertes, opportunistisches Stoppen, geleitet von einem instanzspezifischen Verifizierer, das abbricht, sobald intentionskonforme Ergebnisse gefunden werden. Umfangreiche Experimente mit drei state-of-the-art Bearbeitungsmodellen (Step1X-Edit, BAGEL, FLUX.1 Kontext) über drei Benchmarks hinweg zeigen, dass ADE-CoT überlegene Kompromisse zwischen Leistung und Effizienz erzielt. Bei vergleichbaren Sampling-Budgets erreicht ADE-CoT eine bessere Leistung mit einer mehr als 2-fachen Beschleunigung gegenüber Best-of-N.

SWE-rebench V2: Sprachagnostische Sammlung von SWE-Aufgaben in großem Maßstab
SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale

Feb 27

ByIbragim Badertdinov, Maksim Nekrashevich, Anton Shevtsov, Alexander Golubev

Software Engineering Agents (SWE) verbessern sich rapide, wobei die jüngsten Fortschritte maßgeblich durch Reinforcement Learning (RL) vorangetrieben werden. Das RL-Training wird jedoch durch den Mangel an umfangreichen Aufgabensammlungen mit reproduzierbaren Ausführungsumgebungen und zuverlässigen Testsuites eingeschränkt. Obwohl zunehmend mehr Benchmarks verfügbar sind, bleiben für das Training geeignete Datensätze in Umfang und Vielfalt begrenzt oder zielen oft auf eine begrenzte Anzahl von Ökosystemen für Hochressourcen-Sprachen ab. Wir stellen SWE-rebench V2 vor, eine sprachagnostische, automatisierte Pipeline zur Erfassung ausführbarer SWE-Aufgaben aus der Praxis und zur Konstruktion von RL-Trainingsumgebungen im großen Maßstab. Die Pipeline synthetisiert repositoriespezifische Installations- und Testverfahren über einen interaktiven Setup-Agenten und filtert unzuverlässige Instanzen mittels eines Ensembles von LLM-Judges, die anhand menschlich verifizierter SWE-Bench-Annotationen validiert wurden. Mit dieser Pipeline erstellen wir einen Datensatz mit über 32.000 Aufgaben, die 20 Sprachen und über 3.600 Repositories umfassen, inklusive vorgefertigter Images für reproduzierbare Ausführung. Um die Trainingsdaten weiter zu skalieren, veröffentlichen wir zusätzlich über 120.000 Aufgaben mit Installationsanweisungen, Fail-to-Pass-Tests und umfangreichen Metadaten, wobei die Problemstellung auf Basis der ursprünglichen Pull-Request-Beschreibung generiert wird. Wir validieren die gesammelten Instanzen durch eine Diagnosestudie, die eine Teilmenge von Aufgaben in fünf Programmiersprachen über sieben verbreitete Modelle abdeckt, und stellen instanzspezifische Metadaten bereit, die häufige Störfaktoren wie zu restriktive Tests und unzureichend spezifizierte Beschreibungen kennzeichnen. Wir veröffentlichen die Datensätze, den Erfassungs- und Ausführungscode sowie zugehörige Artefakte, um das Training von SWE-Agents im großen Maßstab über verschiedene Sprachen und Repositories hinweg zu ermöglichen.

RubricBench: Abgleich von modellgenerierten Bewertungsrastern mit menschlichen Standards
RubricBench: Aligning Model-Generated Rubrics with Human Standards

Mar 2

ByQiyuan Zhang, Junyi Zhou, Yufei Wang, Fuyuan Lyu, Yidong Ming, Can Xu, Qingfeng Sun, Kai Zheng, Peng Kang, Xue Liu, Chen Ma

Mit der Weiterentwicklung des Alignment von Large Language Models (LLMs) von einfachen Textvervollständigungen hin zu komplexen, hochgradig anspruchsvollen Generierungen verlagern sich Reward Models zunehmend auf rubrikengestützte Evaluationen, um oberflächliche Verzerrungen zu reduzieren. Allerdings fehlt der Community ein einheitlicher Benchmark zur Bewertung dieses Evaluationsparadigmas, da bestehende Benchmarks weder die notwendige diskriminative Komplexität noch die erforderlichen Ground-Truth-Rubrikenannotationen für eine rigorose Analyse aufweisen. Um diese Lücke zu schließen, stellen wir RubricBench vor, einen kuratierten Benchmark mit 1.147 paarweisen Vergleichen, der speziell zur Bewertung der Zuverlässigkeit rubrikbasierter Evaluationen entwickelt wurde. Unser Erstellungsprozess nutzt eine mehrdimensionale Filterpipeline, um anspruchsvolle Beispiele mit nuancenreicher Eingabekomplexität und irreführender Oberflächenverzerrung zu identifizieren, und erweitert diese um expertengestützte, atomare Rubriken, die strikt aus den Instruktionen abgeleitet werden. Umfassende Experimente zeigen eine erhebliche Fähigkeitslücke zwischen humanannotierten und modellgenerierten Rubriken auf, was darauf hindeutet, dass selbst state-of-the-art Modelle Schwierigkeiten haben, autonom valide Bewertungskriterien zu spezifizieren, und dabei deutlich hinter der leitliniengestützten menschlichen Leistung zurückbleiben.

CHIMERA: Kompakte synthetische Daten für generalisierbare LLM-Argumentation
CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning

Mar 1

ByXinyu Zhu, Yihao Feng, Yanchao Sun, Xianzhi Du, Pingzhi Li, Olli Saarikivi, Yun Zhu, Yu Meng

Große Sprachmodelle (LLMs) haben kürzlich bemerkenswerte Fähigkeiten im logischen Denken gezeigt, die größtenteils durch überwachtes Feinabstimmen (SFT) und verstärkendes Lernen (RL) auf Grundlage hochwertiger Denkdaten ermöglicht wurden. Die Reproduktion und Erweiterung dieser Fähigkeiten in offenen und skalierbaren Umgebungen wird jedoch durch drei grundlegende datenzentrierte Herausforderungen behindert: (1) das Cold-Start-Problem, das aus dem Mangel an Ausgangsdatensätzen mit detaillierten, langen Denkketten (Chain-of-Thought, CoT) zur Initialisierung von Denkrichtlinien resultiert; (2) begrenzte Domänenabdeckung, da die meisten existierenden Open-Source-Denkdatensätze auf Mathematik konzentriert sind und nur eine eingeschränkte Abdeckung breiterer wissenschaftlicher Disziplinen bieten; und (3) der Annotationsengpass, bei dem die Schwierigkeit von Spitzen-Denkaufgaben eine zuverlässige menschliche Annotation prohibitiv teuer oder undurchführbar macht. Um diese Herausforderungen zu adressieren, stellen wir CHIMERA vor, einen kompakten synthetischen Denkdatensatz mit 9K Beispielen für generalisierbares domänenübergreifendes Denken. CHIMERA wurde mit drei Schlüsseleigenschaften konstruiert: (1) Er bietet umfangreiche, lange CoT-Denkverläufe, die von modernsten Denkmodellen synthetisiert wurden; (2) Er verfügt über eine breite und strukturierte Abdeckung, die 8 große wissenschaftliche Disziplinen und über 1.000 feingranulare Themen umfasst, die über eine modellgenerierte hierarchische Taxonomie organisiert sind; und (3) Er verwendet eine vollständig automatisierte, skalierbare Evaluierungspipeline, die starke Denkmodelle zur Kreuzvalidierung sowohl der Problemvalidität als auch der Antwortkorrektheit nutzt. Wir verwenden CHIMERA, um ein Qwen3-Modell mit 4B Parametern nachzutrainieren. Trotz der bescheidenen Größe des Datensatzes erreicht das resultierende Modell starke Leistungen auf einer Reihe anspruchsvoller Denkbenchmarks, darunter GPQA-Diamond, AIME 24/25/26, HMMT 25 und Humanity's Last Exam, und nähert sich der oder erreicht sogar die Denkleistung wesentlich größerer Modelle wie DeepSeek-R1 und Qwen3-235B.

OpenAutoNLU: Open-Source-Automatisierungsbibliothek für maschinelles Lernen im Bereich NLU
OpenAutoNLU: Open Source AutoML Library for NLU

Mar 2

ByGrigory Arshinov, Aleksandr Boriskin, Sergey Senichev, Ayaz Zaripov, Daria Galimzianova, Daniil Karpov, Leonid Sanochkin

OpenAutoNLU ist eine Open-Source-Automatisierte-Machine-Learning-Bibliothek für Natural Language Understanding (NLU) Aufgaben, die sowohl Textklassifikation als auch Named Entity Recognition (NER) abdeckt. Im Gegensatz zu bestehenden Lösungen führen wir eine datenbewusste Auswahl des Trainingsregimes ein, die keine manuelle Konfiguration durch den Benutzer erfordert. Die Bibliothek bietet außerdem integrierte Datenqualitätsdiagnosen, konfigurierbare Out-of-Distribution (OOD) Erkennung und Large Language Model (LLM) Funktionen, alles innerhalb einer minimalen Low-Code-API. Die Demo-App ist hier zugänglich: https://openautonlu.dev.

MMR-Life: Zusammensetzung realer Szenen für multimodale Mehrbilder-Analyse
MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning

Mar 2

ByJiachun Li, Shaoping Huang, Zhuoran Jin, Chenlong Zhang, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao

Jüngste Fortschritte in den reasoning-Fähigkeiten multimodaler großer Sprachmodelle (MLLMs) haben es ihnen ermöglicht, komplexere Aufgaben wie wissenschaftliche Analysen und mathematisches Reasoning zu bewältigen. Trotz ihres Potenzials sind die Reasoning-Fähigkeiten von MLLMs in verschiedenen realen Lebensszenarien weitgehend unerforscht und es mangelt an standardisierten Benchmarks für die Bewertung. Um diese Lücke zu schließen, stellen wir MMR-Life vor, einen umfassenden Benchmark, der entwickelt wurde, um die vielfältigen multimodalen Multi-Image-Reasoning-Fähigkeiten von MLLMs in realen Lebensszenarien zu evaluieren. MMR-Life besteht aus 2.646 Multiple-Choice-Fragen, basierend auf 19.108 Bildern, die hauptsächlich aus realen Kontexten stammen, und deckt umfassend sieben Reasoning-Typen ab: abduktiv, analog, kausal, deduktiv, induktiv, räumlich und temporal. Im Gegensatz zu bestehenden Reasoning-Benchmarks stützt sich MMR-Life nicht auf domänenspezifisches Fachwissen, sondern erfordert von den Modellen, Informationen über mehrere Bilder hinweg zu integrieren und verschiedene Reasoning-Fähigkeiten anzuwenden. Die Evaluation von 37 fortschrittlichen Modellen unterstreicht die erhebliche Herausforderung, die MMR-Life darstellt. Selbst Spitzenmodelle wie GPT-5 erreichen nur eine Genauigkeit von 58 % und zeigen erhebliche Leistungsunterschiede zwischen den Reasoning-Typen. Darüber hinaus analysieren wir die Reasoning-Paradigmen bestehender MLLMs und untersuchen, wie Faktoren wie Denklänge, Reasoning-Methode und Reasoning-Typ ihre Leistung beeinflussen. Zusammenfassend bildet MMR-Life eine umfassende Grundlage für die Bewertung, Analyse und Verbesserung der nächsten Generation multimodaler Reasoning-Systeme.

VGGT-Det: Extraktion interner VGGT-Priors für geometrieunabhängige 3D-Objekterkennung in Innenräumen mit multiplen Blickwinkeln
VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection

Mar 1

ByYang Cao, Feize Wu, Dave Zhenyu Chen, Yingji Zhong, Lanqing Hong, Dan Xu

Aktuelle Multi-View-3D-Objektdetektoren für Innenräume sind auf eine kostenintensiv zu beschaffende Sensorgeometrie (d.h. präzise kalibrierte Multi-View-Kameraposen) angewiesen, um Multi-View-Informationen in eine globale Szenendarstellung zu fusionieren, was den Einsatz in realen Szenen einschränkt. Wir verfolgen einen praxisnäheren Ansatz: Sensor-Geometry-Free (SG-Free) Multi-View-3D-Objekterkennung in Innenräumen, bei der keine sensorgestützten geometrischen Eingaben (Multi-View-Posen oder Tiefeninformationen) vorliegen. Der kürzlich vorgestellte Visual Geometry Grounded Transformer (VGGT) zeigt, dass starke 3D-Hinweise direkt aus Bildern abgeleitet werden können. Aufbauend auf dieser Erkenntnis präsentieren wir VGGT-Det, das erste Framework, das speziell für SG-Free Multi-View-3D-Objekterkennung in Innenräumen entwickelt wurde. Anstatt lediglich VGGT-Vorhersagen zu verwerten, integriert unsere Methode den VGGT-Encoder in eine Transformer-basierte Pipeline. Um die semantischen und geometrischen Priori-Informationen innerhalb von VGGT effektiv zu nutzen, führen wir zwei neuartige Schlüsselkomponenten ein: (i) Attention-Guided Query Generation (AG): Sie nutzt VGGT-Attentionskarten als semantische Priori-Informationen zur Initialisierung von Objekt-Queries, verbessert die Lokalisierung durch Fokussierung auf Objektregionen und bewahrt gleichzeitig die globale räumliche Struktur. (ii) Query-Driven Feature Aggregation (QD): Eine lernbare See-Query interagiert mit Objekt-Queries, um zu „sehen“, was diese benötigen, und aggregiert dann dynamisch geometrische Merkmale über mehrere Ebenen hinweg aus verschiedenen VGGT-Schichten, die 2D-Merkmale schrittweise in den 3D-Raum heben. Experimente zeigen, dass VGGT-Det die leistungsstärkste Methode im SG-Free-Setting auf ScanNet und ARKitScenes um 4,4 bzw. 8,6 mAP@0,25 signifikant übertrifft. Eine Ablationsstudie belegt, dass die innerhalb von VGGT erlernten semantischen und geometrischen Priori-Informationen durch unsere Komponenten AG und QD effektiv genutzt werden können.

CMI-RewardBench: Bewertung von Musik-Belohnungsmodellen mit kompositioneller multimodaler Instruktion
CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Feb 28

ByYinghao Ma, Haiwen Xia, Hewei Gao, Weixiong Chen, Yuxin Ye, Yuchen Yang, Sungkyun Chang, Mingshuo Ding, Yizhi Li, Ruibin Yuan, Simon Dixon, Emmanouil Benetos

Während Musikgenerierungsmodelle sich weiterentwickelt haben, um komplexe multimodale Eingaben zu verarbeiten, die Text, Songtexte und Referenzaudio mischen, sind die Evaluierungsmechanismen zurückgeblieben. In dieser Arbeit schließen wir diese kritische Lücke, indem wir ein umfassendes Ökosystem für Music Reward Modeling unter Compositional Multimodal Instruction (CMI) etablieren, bei dem die generierte Musik auf Textbeschreibungen, Songtexte und Audio-Prompts konditioniert sein kann. Wir führen zunächst CMI-Pref-Pseudo ein, einen groß angelegten Präferenzdatensatz mit 110.000 pseudo-gelabelten Stichproben, und CMI-Pref, ein hochwertiges, menschlich annotiertes Korpus, das für feinkörnige Alignment-Aufgaben maßgeschneidert ist. Um die Evaluierungslandschaft zu vereinheitlichen, schlagen wir CMI-RewardBench vor, einen einheitlichen Benchmark, der Music-Reward-Modelle an heterogenen Stichproben in Bezug auf Musicalität, Text-Musik-Alignment und Alignment an kompositionelle Instruktionen bewertet. Gestützt auf diese Ressourcen entwickeln wir CMI-Reward-Modelle (CMI-RMs), eine parameter-effiziente Familie von Reward-Modellen, die in der Lage ist, heterogene Eingaben zu verarbeiten. Wir evaluieren ihre Korrelation mit menschlichen Bewertungen für Musicalität und Alignment auf CMI-Pref sowie auf früheren Datensätzen. Weitere Experimente zeigen, dass CMI-RM nicht nur stark mit menschlichen Urteilen korreliert, sondern auch eine effektive Inferenzzeit-Skalierung via Top-k-Filterung ermöglicht. Die notwendigen Trainingsdaten, Benchmarks und Reward-Modelle sind öffentlich verfügbar.

CoVe: Training interaktiver Werkzeugnutzungsagenten durch restriktionsgesteuerte Verifikation
CoVe: Training Interactive Tool-Use Agents via Constraint-Guided Verification

Mar 2

ByJinpeng Chen, Cheng Gong, Hanbo Li, Ziru Liu, Zichen Tian, Xinyu Fu, Shi Wu, Chenyang Zhang, Wu Zhang, Suiyun Zhang, Dandan Tu, Rui Liu

Die Entwicklung mehrschrittiger interaktiver Werkzeugnutzungsagenten ist anspruchsvoll, da reale Nutzerbedürfnisse oft komplex und mehrdeutig sind, die Agenten jedoch deterministische Aktionen ausführen müssen, um diese zu erfüllen. Um diese Lücke zu schließen, stellen wir CoVe (Constraint-Verification) vor, ein Framework zur Datensynthese nach dem Training, das für das Training interaktiver Werkzeugnutzungsagenten entwickelt wurde und dabei sowohl Datenkomplexität als auch Korrektheit gewährleistet. CoVe beginnt mit der Definition expliziter Aufgabenbeschränkungen, die eine doppelte Rolle erfüllen: Sie leiten die Generierung komplexer Trajektorien und dienen als deterministische Verifizierer zur Bewertung der Trajektorienqualität. Dies ermöglicht die Erstellung hochwertiger Trainings-Trajektorien für supervised Fine-Tuning (SFT) und die Ableitung genauer Belohnungssignale für Reinforcement Learning (RL). Unsere Auswertung auf dem anspruchsvollen τ^2-Bench-Benchmark demonstriert die Wirksamkeit des Frameworks. Besonders bemerkenswert ist, dass unser kompaktes CoVe-4B-Modell Erfolgsquoten von 43,0 % bzw. 59,4 % in den Domänen Airline und Einzelhandel erreicht; seine Gesamtleistung übertrifft starke Baseline-Modelle ähnlicher Größe signifikant und bleibt wettbewerbsfähig mit Modellen, die bis zu 17-mal größer sind. Diese Ergebnisse zeigen, dass CoVe einen effektiven und effizienten Weg zur Synthese von Trainingsdaten für state-of-the-art interaktive Werkzeugnutzungsagenten bietet. Um zukünftige Forschung zu unterstützen, veröffentlichen wir unseren Code, das trainierte Modell und den vollständigen Satz von 12.000 hochwertigen Trainings-Trajektorien als Open Source.

LLaDA-o: Ein effektives und längenadaptives Omni-Diffusionsmodell
LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model

Mar 1

ByZebin You, Xiaolu Zhang, Jun Zhou, Chongxuan Li, Ji-Rong Wen

Wir stellen LLaDA-o vor, ein effektives und längenadaptives Omni-Diffusionsmodell für multimodales Verständnis und Generierung. LLaDA-o basiert auf einem Mixture of Diffusion (MoD) Framework, das diskrete maskierte Diffusion für Textverständnis und kontinuierliche Diffusion für visuelle Generierung entkoppelt, während es sie durch ein gemeinsames, einfaches und effizientes Attention-Backbone koppelt, das redundante Berechnungen für feste Bedingungen reduziert. Aufbauend auf MoD führen wir weiterhin eine datenzentrierte Längenanpassungsstrategie ein, die flexibles Längendecodieren in multimodalen Settings ohne Architekturänderungen ermöglicht. Umfangreiche Experimente zeigen, dass LLaDA-o state-of-the-art Leistung unter Omni-Diffusionsmodellen in multimodalen Verständnis- und Generierungsbenchmarks erreicht und für Text-zu-Bild-Generierung auf DPG-Bench 87.04 Punkte erzielt, was die Effektivität der vereinheitlichten Omni-Diffusionsmodellierung unterstützt. Code ist verfügbar unter https://github.com/ML-GSAI/LLaDA-o.

PhotoBench: Über visuelle Ähnlichkeit hinaus – hin zur personalisierten, intentionsgesteuerten Fotosuche
PhotoBench: Beyond Visual Matching Towards Personalized Intent-Driven Photo Retrieval

Mar 2

ByTianyi Xu, Rong Shan, Junjie Wu, Jiadeng Huang, Teng Wang, Jiachen Zhu, Wenteng Chen, Minxin Tu, Quantao Dou, Zhaoxiang Wang, Changwang Zhang, Weinan Zhang, Jun Wang, Jianghao Lin

Persönliche Fotoalben sind nicht bloß Sammlungen statischer Bilder, sondern lebendige, ökologische Archive, die durch zeitliche Kontinuität, soziale Verflechtungen und umfangreiche Metadaten definiert werden. Dies macht die personalisierte Fotorecherche zu einer anspruchsvollen Aufgabe. Bisherige Retrieval-Benchmarks stützen sich jedoch stark auf kontextisolierte Web-Schnappschüsse und erfassen nicht die multi-source Reasoning-Fähigkeiten, die zur Beantwortung authentischer, intentionsgetriebener Nutzeranfragen nötig sind. Um diese Lücke zu schließen, führen wir PhotoBench ein, den ersten Benchmark, der auf echten persönlichen Alben basiert. Er wurde entwickelt, um das Paradigma von visuellem Matching hin zu personalisiertem, multi-source, intentionsgesteuertem Reasoning zu verschieben. Basierend auf einem rigorosen Multi-Source-Profiling-Framework, das visuelle Semantik, raum-zeitliche Metadaten, soziale Identität und zeitliche Ereignisse für jedes Bild integriert, synthetisieren wir komplexe, intentionsgetriebene Anfragen, die in den Lebensverläufen der Nutzer verwurzelt sind. Eine umfangreiche Auswertung mit PhotoBench deckt zwei kritische Schwachstellen auf: die Modalitätslücke, bei der vereinheitlichte Embedding-Modelle bei nicht-visuellen Constraints versagen, und das Quellen-Fusions-Paradoxon, bei dem agentenbasierte Systeme Schwächen in der Werkzeugorchestrierung zeigen. Diese Erkenntnisse deuten darauf hin, dass die nächste Herausforderung im personalisierten multimodalen Retrieval jenseits vereinheitlichter Embeddings liegt und robuste agentenbasierte Reasoning-Systeme erfordert, die in der Lage sind, Constraints präzise zu erfüllen und Multi-Source-Informationen zu fusionieren. Unser PhotoBench ist verfügbar.

WorldStereo: Brückenschlag zwischen kamerageführter Videogenerierung und Szenenrekonstruktion durch 3D-geometrische Gedächtnisse
WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories

Mar 2

ByYisu Zhang, Chenjie Cao, Tengfei Wang, Xuhui Zuo, Junta Wu, Jianke Zhu, Chunchao Guo

Jüngste Fortschritte bei grundlegenden Video-Diffusionsmodellen (VDMs) haben bedeutende Verbesserungen erzielt. Trotz der bemerkenswerten visuellen Qualität generierter Videos bleibt die Rekonstruktion konsistenter 3D-Szenen aus diesen Ergebnissen jedoch eine Herausforderung, was auf die eingeschränkte Kamerasteuerbarkeit und inkonsistente generierte Inhalte bei Betrachtung aus verschiedenen Kameratrajektorien zurückzuführen ist. In diesem Artikel stellen wir WorldStereo vor, einen neuartigen Rahmen, der kamerageführte Videogenerierung und 3D-Rekonstruktion über zwei spezielle geometrische Speichermodule verbindet. Formal ermöglicht der global-geometrische Speicher eine präzise Kamerasteuerung, während grobe Strukturpriors durch inkrementell aktualisierte Punktwolken injiziert werden. Darüber hinaus beschränkt der räumlich-stereo-Speicher die Aufmerksamkeitsrezeptivfelder des Modells mit 3D-Korrespondenz, um sich auf feinkörnige Details aus dem Speicherbank zu konzentrieren. Diese Komponenten ermöglichen es WorldStereo, multiview-konsistente Videos unter präziser Kamerasteuerung zu generieren und so hochwertige 3D-Rekonstruktionen zu erleichtern. Weiterhin zeigt das flexible, auf Steuerungszweigen basierende WorldStereo eine beeindruckende Effizienz, die von dem durch Verteilungsabgleich destillierten VDM-Backbone profitiert, ohne gemeinsames Training. Umfangreiche Experimente in Benchmarks sowohl für kamerageführte Videogenerierung als auch für 3D-Rekonstruktion demonstrieren die Wirksamkeit unseres Ansatzes. Bemerkenswerterweise zeigen wir, dass WorldStereo als leistungsstarkes Weltmodell fungiert und verschiedene Szenengenerierungsaufgaben (ob ausgehend von perspektivischen oder panoramischen Bildern) mit hochwertigen 3D-Ergebnissen bewältigt. Die Modelle werden veröffentlicht.

Spektrale Bedingung für μP unter Skalierung von Breite und Tiefe
Spectral Condition for μP under Width-Depth Scaling

Feb 28

ByChenyu Zheng, Rongzhen Wang, Xinyu Zhang, Chongxuan Li

Generative Foundation-Modelle werden zunehmend sowohl in der Breite als auch in der Tiefe skaliert, was erhebliche Herausforderungen für stabiles Feature-Learning und zuverlässigen Hyperparameter- (HP-) Transfer über verschiedene Modellgrößen hinweg darstellt. Während die Maximale-Update-Parametrisierung (μP) eine prinzipielle Lösung für beide Probleme bei der Breitenskalierung bietet, bleiben bestehende Erweiterungen auf das gemeinsame Breite-Tiefe-Skalierungsregime fragmentiert, architektur- und optimiererspezifisch und stützen sich oft auf technisch anspruchsvolle Theorien. In dieser Arbeit entwickeln wir einen einfachen und vereinheitlichten spektralen Rahmen für μP unter gemeinsamer Breite-Tiefe-Skalierung. Unter Betrachtung von Residual-Netzen mit variierenden Blocktiefen führen wir zunächst eine spektrale μP-Bedingung ein, die präzise charakterisiert, wie sich die Normen der Gewichte und ihrer Updates pro Schritt mit Breite und Tiefe skalieren sollten und dabei zuvor disparate μP-Formulierungen als Spezialfälle vereinheitlicht. Aufbauend auf dieser Bedingung leiten wir dann ein allgemeines Rezept zur Implementierung von μP für eine breite Klasse von Optimierern ab, indem wir die spektralen Einschränkungen auf konkrete HP-Parametrisierungen abbilden. Dieser Ansatz reproduziert nicht nur bestehende μP-Formulierungen (z.B. für SGD und AdamW), sondern erstreckt sich natürlicherweise auch auf eine größere Bandbreite von Optimierern. Experimente an GPT-2-artigen Sprachmodellen demonstrieren schließlich, dass die vorgeschlagene spektrale μP-Bedingung stabiles Feature-Learning bewahrt und einen robusten HP-Transfer unter Breite-Tiefe-Skalierung ermöglicht.

Effizientes RLVR-Training durch gewichtete Mutual-Information-Datenselektion
Efficient RLVR Training via Weighted Mutual Information Data Selection

Mar 2

ByXinyu Zhou, Boyu Zhu, Haotian Zhang, Huiming Wang, Zhijiang Guo

Verstärkendes Lernen (RL) spielt eine zentrale Rolle bei der Verbesserung der Denkfähigkeiten und Ausrichtung großer Sprachmodelle, doch seine Effizienz hängt entscheidend von der Auswahl der Trainingsdaten ab. Bestehende Online-Auswahlstrategien stützen sich überwiegend auf schwierigkeitsbasierte Heuristiken, begünstigen Datenpunkte mit mittleren Erfolgsquoten und setzen Schwierigkeit implizit mit Informationsgehalt gleich, wodurch die epistemische Unsicherheit aufgrund begrenzter Evidenz vernachlässigt wird. Wir stellen InSight vor, eine INformationsgesteuerte Datenauswahlmethode für das RL-Training, die auf einem gewichteten Mutual-Information-Ziel basiert. Indem wir Datenresultate mit bayesschen latenten Erfolgsraten modellieren, zeigen wir, dass die erwartete Unsicherheitsreduktion sich in komplementäre, schwierigkeits- und evidenzabhängige Komponenten zerlegen lässt, was eine grundlegende Beschränkung rein schwierigkeitsbasierter Auswahl offenbart. Gestützt auf diese Erkenntnis konstruiert InSight einen stabilen Akquisitionsscore basierend auf der mittleren Erwartung der Erfolgsrate von Datenpunkten anstelle von verrauschten Stichprobenergebnissen und erweitert sich natürlich auf Multi-Rollout-Szenarien, die bei Verstärkendem Lernen mit verifizierbaren Belohnungen (RLVR) üblich sind. Umfangreiche Experimente belegen, dass InSight durchgängig state-of-the-art Leistung erzielt und die Trainingseffizienz steigert, einschließlich eines durchschnittlichen Zugewinns von +1,41 auf Planungs- und Mathematik-Benchmarks, einer Verbesserung von +1,01 beim allgemeinen logischen Denken und einer bis zu ~2,2-fachen Beschleunigung, bei vernachlässigbarem zusätzlichem Rechenaufwand.

Tool-R0: Selbst-evolvierende LLM-Agenten für Tool-Learning ohne Ausgangsdaten
Tool-R0: Self-Evolving LLM Agents for Tool-Learning from Zero Data

Feb 24

ByEmre Can Acikgoz, Cheng Qian, Jonas Hübotter, Heng Ji, Dilek Hakkani-Tür, Gokhan Tur

Große Sprachmodelle (LLMs) bilden zunehmend die Grundlage für autonome Agenten, die Werkzeuge zur Lösung komplexer Aufgaben nutzen können. Reinforcement Learning (RL) hat sich als gängiger Ansatz etabliert, um solche agentenbasierten Fähigkeiten zu vermitteln, jedoch typischerweise unter streng kontrollierten Trainingsbedingungen. Es ist oft auf sorgfältig konstruierte Aufgaben-Lösungs-Paare und erhebliche menschliche Aufsicht angewiesen, was ein grundlegendes Hindernis für die offene Selbstevolution hin zu superintelligenten Systemen darstellt. In diesem Artikel schlagen wir das Tool-R0-Framework vor, um universelle Werkzeug-aufrufende Agenten von Grund auf mit Self-Play-Reinforcement-Learning und unter der Annahme keiner vorgegebenen Daten (Zero-Data) zu trainieren. Vom gleichen Basis-LLM initialisiert, entwickelt Tool-R0 einen Generator und einen Solver mit komplementären Belohnungen koevolutionär weiter: Der eine schlägt gezielt herausfordernde Aufgaben an der Kompetenzgrenze des anderen vor, und der andere lernt, diese mit Aufrufen von Werkzeugen aus der realen Welt zu lösen. Dies schafft einen sich selbst weiterentwickelnden Zyklus, der keine vorgefertigten Aufgaben oder Datensätze erfordert. Evaluationen auf verschiedenen Benchmarks für Werkzeugnutzung zeigen, dass Tool-R0 eine relative Verbesserung von 92,5 % gegenüber dem Basismodell erzielt und unter denselben Bedingungen vollständig überwachte Werkzeug-aufrufende Baseline-Modelle übertrifft. Unsere Arbeit liefert weiterhin empirische Einblicke in Self-Play-LLM-Agenten durch die Analyse von Koevolution, Curriculumdynamik und Skalierungsverhalten.

Schwierige Probleme während des RL-Lernens durch referenzgesteuerte Feinabstimmung
Learn Hard Problems During RL with Reference Guided Fine-tuning

Mar 1

ByYangzhen Wu, Shanda Li, Zixin Wen, Xin Zhou, Ameet Talwalkar, Yiming Yang, Wenhao Huang, Tianle Cai

Reinforcement Learning (RL) für mathematisches Reasoning kann unter spärlichen Belohnungen leiden: Bei anspruchsvollen Problemen gelingt es LLMs oft nicht, korrekte Trajektorien zu sampeln, was verhindert, dass das RL-Mechanismus sinnvolles positives Feedback erhält. Gleichzeitig liegen vielen Problemen (z.B. aus AoPS) von Menschen verfasste Referenzlösungen bei, doch direktes Fine-Tuning anhand dieser Lösungen bringt keinen Nutzen, da Modelle menschliche Beweise, die außerhalb ihrer eigenen Reasoning-Verteilung liegen, oft nicht nachahmen können. Wir stellen Reference-Guided Fine-Tuning (ReGFT) vor, eine einfache und effektive Methode, die menschlich verfasste Referenzlösungen nutzt, um positive Trajektorien für schwierige Probleme zu synthetisieren und damit das Training vor dem RL-Schritt durchzuführen. Für jedes Problem geben wir dem Modell einen Teil der Referenzlösung vor und lassen es seinen eigenen Reasoning-Pfad generieren. Dadurch bleiben die resultierenden Trajektorien im Reasoning-Raum des Modells, profitieren aber dennoch von der Referenzführung. Das Fine-Tuning auf diesen referenzgestützten Trajektorien erhöht die Anzahl lösbarer Probleme und erzeugt einen Checkpoint, der während des RL-Trainings mehr positive Belohnungen erhält. In drei Benchmarks (AIME24, AIME25, BeyondAIME) verbessert ReGFT durchgängig die überwachte Genauigkeit, beschleunigt das DAPO-Training und erhöht das finale Leistungsplateau von RL. Unsere Ergebnisse zeigen, dass ReGFT die Problem der spärlichen Belohnung effektiv überwindet und leistungsfähigeres RL-basiertes mathematisches Reasoning ermöglicht.

Agentisches Code-Reasoning
Agentic Code Reasoning

Mar 2

ByShubham Ugare, Satish Chandra

Können LLM-Agenten Codebasen erkunden und über Codesemantik nachdenken, ohne den Code auszuführen? Wir untersuchen diese Fähigkeit, die wir als agentenbasiertes Code-Reasoning bezeichnen, und führen semi-formales Reasoning ein: eine strukturierte Prompting-Methodik, die von Agenten verlangt, explizite Prämissen zu konstruieren, Ausführungspfade nachzuverfolgen und formale Schlussfolgerungen abzuleiten. Im Gegensatz zu unstrukturierten Gedankenketten (Chain-of-Thought) dient semi-formales Reasoning als Zertifikat: Der Agent kann keine Fälle überspringen oder unbelegte Behauptungen aufstellen. Wir evaluieren drei Aufgaben (Patch-Äquivalenzverifikation, Fehlerlokalisierung und Code-Fragebeantwortung) und zeigen, dass semi-formales Reasoning durchgängig die Genauigkeit bei allen Aufgaben verbessert. Bei der Patch-Äquivalenz steigt die Genauigkeit von 78 % auf 88 % bei kuratierten Beispielen und erreicht 93 % bei realen, von Agenten generierten Patches – was sich der für ausführungsfreie RL-Belohnungssignale benötigten Zuverlässigkeit annähert. Bei der Code-Fragebeantwortung auf RubberDuckBench Mohammad et al. (2026) erreicht semi-formales Reasoning eine Genauigkeit von 87 %. Bei der Fehlerlokalisierung auf Defects4J Just et al. (2014) verbessert semi-formales Reasoning die Top-5-Genauigkeit um 5 Prozentpunkte gegenüber Standard-Reasoning. Diese Ergebnisse demonstrieren, dass strukturiertes agentenbasiertes Reasoning bedeutungsvolle semantische Codeanalyse ohne Ausführung ermöglicht und praktische Anwendungen in RL-Trainingspipelines, Code-Reviews und statischer Programmanalyse eröffnet.

Wann unterstützt RL medizinische VLMs? Entflechtung von Vision-, SFT- und RL-Gewinnen
When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

Mar 1

ByAhmadreza Jeddi, Kimia Shaban, Negin Baghbanzadeh, Natasha Sharan, Abhishek Moturu, Elham Dolatabadi, Babak Taati

Reinforcement Learning (RL) wird zunehmend eingesetzt, um medizinische Vision-Language-Modelle (VLMs) nachzutrainieren. Dennoch ist unklar, ob RL das medizinische visuelle Reasoning verbessert oder hauptsächlich Verhaltensweisen verstärkt, die bereits durch Supervised Fine-Tuning (SFT) induziert wurden. Wir präsentieren eine kontrollierte Studie, die diese Effekte entlang drei Achsen entwirrt: Vision, SFT und RL. Unter Verwendung von MedMNIST als multimodale Testplattform untersuchen wir die visuelle Wahrnehmung, indem wir Vision-Tower von VLMs gegen rein visuelle Baselines benchmarken, quantifizieren die Reasoning-Unterstützung und Stichprobeneffizienz mittels Accuracy@1 versus Pass@K und bewerten, wann RL die Unterstützungslücke schließt und wie Gewinne über Modalitäten hinweg transferiert werden. Wir stellen fest, dass RL am effektivsten ist, wenn das Modell bereits eine nicht-triviale Unterstützung (hoher Pass@K) aufweist: Es schärft primär die Ausgabeverteilung, verbessert Acc@1 und die Stichprobeneffizienz, während SFT die Unterstützung erweitert und RL erst wirksam macht. Auf Basis dieser Erkenntnisse schlagen wir ein grenzenbewusstes Rezept vor und instanziieren es durch RL-Nachtraining eines OctoMed-initialisierten Modells auf einer kleinen, balancierten Teilmenge von PMC-Multiple-Choice-VQA, wodurch eine starke durchschnittliche Leistung über sechs medizinische VQA-Benchmarks hinweg erzielt wird.

Legal RAG Bench: Ein End-to-End-Benchmark für Legal RAG
Legal RAG Bench: an end-to-end benchmark for legal RAG

Mar 2

ByAbdur-Rahman Butler, Umar Butler

Wir stellen Legal RAG Bench vor, einen Benchmark und eine Evaluierungsmethodik zur Bewertung der End-to-End-Leistung von juristischen RAG-Systemen. Als Benchmark besteht Legal RAG Bench aus 4.876 Textpassagen aus dem Victorian Criminal Charge Book sowie 100 komplexen, handgefertigten Fragen, die Expertenwissen im Strafrecht und -verfahren erfordern. Sowohl Langform-Antworten als auch unterstützende Textpassagen werden bereitgestellt. Als Evaluierungsmethodik nutzt Legal RAG Bench ein vollfaktorielles Design und einen neuartigen hierarchischen Fehlerzerlegungsrahmen, der direkte Vergleichbarkeit der Beiträge von Retrieval- und Reasoning-Modellen in RAG-Systemen ermöglicht. Wir evaluieren drei state-of-the-art Embedding-Modelle (Isaacus' Kanon 2 Embedder, Googles Gemini Embedding 001 und OpenAIs Text Embedding 3 Large) und zwei führende LLMs (Gemini 3.1 Pro und GPT-5.2) und stellen fest, dass die Informationsbeschaffung der primäre Treiber für die Leistung juristischer RAG-Systeme ist, während LLMs einen moderateren Einfluss auf Korrektheit und Fundiertheit ausüben. Der Kanon 2 Embedder hatte insbesondere den größten positiven Einfluss auf die Leistung und verbesserte die durchschnittliche Korrektheit um 17,5 Punkte, die Fundiertheit um 4,5 Punkte und die Retrieval-Genauigkeit um 34 Punkte. Wir beobachten, dass viele Fehler, die Halluzinationen in juristischen RAG-Systemen zugeschrieben werden, tatsächlich durch Retrieval-Fehler ausgelöst werden, und schlussfolgern, dass das Retrieval die Obergrenze für die Leistung vieler moderner juristischer RAG-Systeme setzt. Wir dokumentieren, warum und wie wir Legal RAG Bench aufgebaut haben, zusammen mit den Ergebnissen unserer Evaluationen. Wir veröffentlichen auch unseren Code und unsere Daten offen, um die Reproduktion unserer Ergebnisse zu unterstützen.

Technischer Bericht zu FireRed-OCR
FireRed-OCR Technical Report

Mar 2

ByHao Wu, Haoran Lou, Xinyue Li, Zuodong Zhong, Zhaojun Sun, Phellon Chen, Xuanhe Zhou, Kai Zuo, Yibo Chen, Xu Tang, Yao Hu, Boxiang Zhou, Jian Wu, Yongji Wu, Wenxin Yu, Yingmiao Liu, Yuhao Huang, Manjie Xu, Gang Liu, Yidong Ma, Zhichao Sun, Changhao Qiao

Wir stellen FireRed-OCR vor, einen systematischen Rahmen, um allgemeine VLMs in leistungsstarke OCR-Modelle zu spezialisieren. Große visuell-sprachliche Modelle (VLMs) haben beeindruckende allgemeine Fähigkeiten gezeigt, leiden jedoch häufig unter „struktureller Halluzination“ bei der Verarbeitung komplexer Dokumente, was ihren Nutzen in industriellen OCR-Anwendungen einschränkt. In diesem Artikel führen wir FireRed-OCR ein, einen neuartigen Rahmen, der darauf ausgelegt ist, allgemeine VLMs (basierend auf Qwen3-VL) in pixelgenaue Experten für die strukturelle Dokumentenanalyse zu verwandeln. Um den Mangel an hochwertigen strukturierten Daten zu beheben, konstruieren wir eine „Geometrie + Semantik“-Datenfabrik. Im Gegensatz zur traditionellen Zufallsstichprobe nutzt unsere Pipeline geometrische Merkmalsclustering und mehrdimensionale Verschlagwortung, um einen hochgradig ausgewogenen Datensatz zu synthetisieren und aufzubereiten, der Langschwanz-Layouts und seltene Dokumenttypen effektiv behandelt. Darüber hinaus schlagen wir eine Drei-Stufen-Progressive-Trainingsstrategie vor, die das Modell von der Pixelebene-Wahrnehmung zur logischen Strukturgenerierung führt. Dieser Lehrplan umfasst: (1) Multi-Task-Vorabstimmung, um das Verständnis des Modells für die Dokumentstruktur zu verankern; (2) Spezialisiertes SFT zur Standardisierung der Vollbild-Markdown-Ausgabe; und (3) Formatbeschränkte Gruppenrelative Richtlinienoptimierung (GRPO), die bestärkendes Lernen nutzt, um strenge syntaktische Gültigkeit und strukturelle Integrität (z.B. Tabellenabschluss, Formelsyntax) durchzusetzen. Umfangreiche Auswertungen auf OmniDocBench v1.5 zeigen, dass FireRed-OCR mit einer Gesamtpunktzahl von 92,94 % state-of-the-art-Leistung erreicht und starke Baseline-Modelle wie DeepSeek-OCR 2 und OCRVerse in den Metriken für Text, Formeln, Tabellen und Lesereihenfolge signifikant übertrifft. Wir veröffentlichen unseren Code und unsere Modellgewichte, um das Paradigma „Allgemeiner VLM zum spezialisierten Strukturexperten“ zu fördern.

Werkzeugverifikation für Testzeit-Verstärkungslernen
Tool Verification for Test-Time Reinforcement Learning

Mar 2

ByRuotong Liao, Nikolai Röhrich, Xiaohan Wang, Yuhui Zhang, Yasaman Samadzadeh, Volker Tresp, Serena Yeung-Levy

Test-Time Reinforcement Learning (TTRL) hat sich als vielversprechendes Paradigma für sich selbst weiterentwickelnde große Reasoning-Modelle (LRMs) etabliert, das eine Online-Anpassung an ungelabelten Testeingaben über selbstgenerierte Belohnungen durch Mehrheitsentscheid ermöglicht. Ein trügerischer, jedoch hochfrequenter ungeprüfter Konsens kann jedoch zu einem verzerrten und verstärkten Belohnungssignal werden, was zu einem fehlerhaften Mode Collapse führt. Wir adressieren diesen Fehlermodus mit T³RL (Tool-Verification for Test-Time Reinforcement Learning), das eine Test-Time-Toolverifikation in die Belohnungsschätzung einführt. Konkret verwendet ein Verifizierer ein externes Tool als Evidenz (z.B. durch Code-Ausführung), um verifizierte Rollouts in einer verifikationsbasierten Abstimmung höher zu gewichten, wodurch zuverlässigere Pseudo-Labels für das Training erzeugt werden. Über verschiedene Schwierigkeitsgrade in Mathematik (MATH-500, AMC und AIME 2024) und diverse Backbone-Typen hinweg verbessert T³RL die Leistung von TTRL signifikant, mit größeren Gewinnen bei schwierigeren Problemen. Im weiteren Sinne kann T³RL als verifizierte Online-Datensynthese betrachtet werden, was Test-Time-Toolverifikation als einen Schlüsselmechanismus zur Stabilisierung der Selbstevolution hervorhebt.

Rekursiver Denk- und Antwortprozess für LLMs und VLMs
Recursive Think-Answer Process for LLMs and VLMs

Mar 2

ByByung-Kwan Lee, Youngchae Chee, Yong Man Ro

Denk-Antwort-Systeme wie DeepSeek-R1 haben durch die Nutzung interpretierbarer interner Schlussfolgerungen bemerkenswerte Fortschritte erzielt. Trotz des häufigen Auftretens selbstreflexiver Signale wie "Oops!" bleiben sie jedoch bei Einzeldurchlauf-Inferenzen anfällig für Ausgabefehler. Um diese Einschränkung zu adressieren, schlagen wir einen effizienten Rekursiven Denk-Antwort-Prozess (R-TAP) vor, der Modellen iterative Denkzyklen ermöglicht und präzisere Antworten generiert, die über konventionelle Einzeldurchlauf-Ansätze hinausgehen. Zentral für diesen Ansatz ist ein Konfidenzgenerator, der die Sicherheit der Modellantworten bewertet und nachfolgende Verbesserungen steuert. Durch die Integration zweier komplementärer Belohnungen - Rekursiver Konfidenzsteigerungs-Belohnung und Endantwort-Konfidenz-Belohnung - zeigen wir, dass R-TAP-optimierte Modelle konventionelle Einzeldurchlauf-Methoden sowohl bei großen Sprachmodellen (LLMs) als auch bei Vision-Sprach-Modellen (VLMs) konsistent übertreffen. Darüber hinaus stellen wir durch die Analyse der Häufigkeit von "Oops"-ähnlichen Ausdrücken in Modellantworten fest, dass R-TAP-modifizierte Modelle signifikant weniger selbstreflexive Muster aufweisen, was zu stabilerer und schnellerer Inferenzzeit-Argumentation führt. Wir hoffen, dass R-TAP den Weg für die Entwicklung effizienter und ausgefeilter Methoden ebnet, um die Denkprozesse zukünftiger KI-Systeme zu verfeinern.

Spektrale Aufmerksamkeitslenkung zur Hervorhebung von Prompts
Spectral Attention Steering for Prompt Highlighting

Mar 1

ByWeixian Waylon Li, Yuchen Niu, Yongxin Yang, Keshuang Li, Tiejun Ma, Shay B. Cohen

Attention Steering ist eine wichtige Technik zur Steuerung der Modellfokussierung, die Funktionen wie Prompt-Hervorhebung ermöglicht, bei der das Modell benutzerdefinierten Text priorisiert. Bisherige Attention-Steering-Methoden erfordern jedoch die explizite Speicherung der vollständigen Attention-Matrix, was sie inkompatibel mit speichereffizienten Implementierungen wie FlashAttention macht. Wir stellen Spectral Editing Key Amplification (SEKA) vor, eine trainingsfreie Steering-Methode, die dieses Problem löst, indem sie Key-Embeddings direkt vor der Attention-Berechnung modifiziert. SEKA nutzt Spektralzerlegung, um Key-Embeddings in latente Richtungen zu lenken, die Attention-Scores für bestimmte Tokens verstärken. Wir erweitern dies zu Adaptive SEKA (AdaSEKA), einer query-adaptiven Variante, die einen trainingsfreien Routing-Mechanismus verwendet, um mehrere Expertensubräume dynamisch basierend auf der semantischen Intention des Prompts zu kombinieren. Unsere Experimente zeigen, dass beide Methoden starke Baselines auf standardisierten Steering-Benchmarks signifikant übertreffen, bei deutlich geringerer Latenz und geringerem Speicherverbrauch sowie voller Kompatibilität mit optimierter Attention.

Vereinheitlichte Vision-Sprache-Modellierung durch Konzeptraum-Abgleich
Unified Vision-Language Modeling via Concept Space Alignment

Mar 1

ByYifu Qiu, Paul-Ambroise Duquenne, Holger Schwenk

Wir stellen V-SONAR vor, einen Vision-Language-Einbettungsraum, der aus dem textbasierten Einbettungsraum SONAR (Omnilingual Embeddings Team et al., 2026) erweitert wurde und 1500 Textsprachen sowie 177 Sprachsprachen unterstützt. Für die Konstruktion von V-SONAR schlagen wir einen nachgelagerten Alignment-Prozess vor, der die Repräsentationen eines existierenden Vision-Encoders in den SONAR-Raum abbildet. Wir evaluieren V-SONAR umfassend und zeigen, dass seine Einbettungen wettbewerbsfähige Leistungen bei der Text-zu-Video-Retrieval erzielen. Ausgestattet mit dem OMNISONAR-Textdecoder übertrifft V-SONAR zudem state-of-the-art Vision-Language-Modelle bei Video-Captioning-Aufgaben, einschließlich DREAM-1K (BLEU 23,9 vs. 19,6) und PE-VIDEO (BLEU 39,0 vs. 30,0). Unter Nutzung von V-SONAR demonstrieren wir zunächst, dass das Large Concept Model (LCM; LCM Team et al. 2024), das in SONAR operiert und nur mit englischem Text trainiert wurde, sowohl einzelne als auch mehrere visuelle Konzepte auf Zero-Shot-Weise verstehen kann. Abschließend stellen wir V-LCM vor, das das LCM durch Vision-Language-Instruction-Tuning erweitert. V-LCM kodiert visuelle und sprachliche Eingaben über V-SONAR und SONAR in eine vereinheitlichte Folge latenter Einbettungen und wird mit demselben latenten Diffusionsziel zur nächsten Einbettungsvorhersage trainiert wie beim textbasierten Pre-Training des LCM. Experimente mit einer groß angelegten multilingualen und -modalen Instruction-Tuning-Datenmischung unterstreichen das Potenzial von V-LCM: V-LCM erreicht state-of-the-art Vision-Language-Modelle bei Aufgaben zu Bild-/Videobeschreibung und Fragebeantwortung und übertrifft sie gleichzeitig signifikant in 61 von insgesamt 62 getesteten Sprachen, von ressourcenstarken bis zu ressourcenschwachen Sprachen.

Halbwahrheiten beeinträchtigen ähnlichkeitsbasiertes Retrieval.
Half-Truths Break Similarity-Based Retrieval

Feb 27

ByBora Kargi, Arnas Uselis, Seong Joon Oh

Wenn eine Textbeschreibung um ein zusätzliches Detail erweitert wird, sollte die Bild-Text-Ähnlichkeit sinken, wenn dieses Detail falsch ist. Wir zeigen, dass CLIP-artige Dual-Encoder oft gegen diese Intuition verstoßen: Das Anhängen eines plausiblen, aber falschen Objekts oder einer Relation an eine ansonsten korrekte Beschreibung kann den Ähnlichkeitswert erhöhen. Wir bezeichnen solche Fälle als Halbwahrheiten. Bei COCO bevorzugt CLIP die korrekte kürzere Beschreibung nur in 40,6 % der Fälle, und die Leistung sinkt auf 32,9 %, wenn das hinzugefügte Detail eine Relation ist. Wir führen diese Anfälligkeit auf schwache Supervision von Beschreibungsteilen zurück: Kontrastives Training richtet vollständige Sätze aus, erzwingt aber nicht explizit, dass einzelne Entitäten und Relationen verankert werden. Wir schlagen CS-CLIP (Component-Supervised CLIP) vor, das Beschreibungen in Entitäts- und Relationseinheiten zerlegt, für jede Einheit eine minimal bearbeitete Fälschung konstruiert und das Modell feinabstimmt, um die korrekte Einheit höher zu bewerten als ihre Fälschung, wobei die standardmäßige Dual-Encoder-Inferenz beibehalten wird. CS-CLIP steigert die Halbwahrheitsgenauigkeit auf 69,3 % und verbessert die durchschnittliche Leistung auf etablierten kompositionellen Benchmarks um 5,7 Punkte, was darauf hindeutet, dass die Reduzierung von Halbwahrheitsfehlern mit breiteren Fortschritten im kompositionellen Verständnis einhergeht. Der Code ist öffentlich verfügbar unter: https://github.com/kargibora/CS-CLIP

CharacterFlywheel: Skalierbare iterative Verbesserung ansprechender und lenkbarer LLMs in der Produktion
CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production

Mar 2

ByYixin Nie, Lin Guan, Zhongyao Ma, Anchit Gupta, Yipin Zhou, Xiao Li, Zhengping Zhou, Raymond Zeng, Gelin Zhou, Shigan Chu, Ajay Thampi, Wancen Mu, Nathan Shuster, Ketong Wang, Lin Chen, Jason Brewer, Derek Hao Hu, Alexander McCauley, Jason Weston, Sem Park, Na Zhang, Kevin Tang

Dieser Bericht stellt CharacterFlywheel vor, einen iterativen Flywheel-Prozess zur Verbesserung großer Sprachmodelle (LLMs) in produktiven Social-Chat-Anwendungen auf Instagram, WhatsApp und Messenger. Ausgehend von LLaMA 3.1 verfeinerten wir Modelle über 15 Generationen hinweg mit Daten aus internem und externem Echtnutzerverkehr. Durch kontinuierliche Deployment-Schritte von Juli 2024 bis April 2025 führten wir kontrollierte 7-Tage-A/B-Tests durch, die konsistente Verbesserungen bei der Nutzerbindung zeigten: 7 von 8 neu eingesetzten Modellen erzielten eine positive Steigerung gegenüber der Basislinie, wobei die leistungsstärksten Modelle Verbesserungen von bis zu 8,8 % in der Breite der Nutzerbindung und 19,4 % in ihrer Tiefe erreichten. Wir verzeichneten auch erhebliche Fortschritte in der Steuerbarkeit: Die Befolgung von Anweisungen stieg von 59,2 % auf 84,8 % an, während Verstöße gegen Anweisungen von 26,6 % auf 5,8 % zurückgingen. Wir erläutern detailliert den CharacterFlywheel-Prozess, der Datenkuratierung, Reward-Modellierung zur Schätzung und Interpolation des Metriken-Spektrums der Nutzerbindung, überwachte Feinabstimmung (SFT), Reinforcement Learning (RL) sowie Offline- und Online-Evaluierung integriert, um zuverlässige Fortschritte in jedem Optimierungsschritt zu gewährleisten. Zudem diskutieren wir unsere Methoden zur Überanpassungsvermeidung und zur Bewältigung von Produktionsdynamiken im großen Maßstab. Diese Beiträge fördern die wissenschaftliche Strenge und das Verständnis von LLMs in sozialen Anwendungen, die Millionen von Nutzern dienen.

LaSER: Internalisierung expliziter Schlussfolgerungen in den latenten Raum für dichtes Retrieval
LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval

Mar 2

ByJiajie Jin, Yanzhao Zhang, Mingxin Li, Dingkun Long, Pengjun Xie, Yutao Zhu, Zhicheng Dou

Große Sprachmodelle (LLMs) haben das dichte Retrieval grundlegend transformiert, indem sie die Architektur von diskriminativen Encodern zu generativen Architekturen weiterentwickelt haben. Es bleibt jedoch eine kritische Diskrepanz bestehen: Während LLMs über starke Reasoning-Fähigkeiten verfügen, nutzen aktuelle Retriever sie überwiegend als statische Encoder, wodurch ihr Potenzial für komplexes Reasoning ungenutzt bleibt. Um dies zu adressieren, verwenden bestehende Ansätze typischerweise Rewrite-then-Retrieve-Pipelines, um explizite CoT-Begründungen vor dem Retrieval zu generieren. Dies verursacht jedoch prohibitive Latenzzeiten. In diesem Papier schlagen wir LaSER vor, einen neuartigen Self-Distillation-Framework, der explizites Reasoning in den latenten Raum dichter Retriever internalisiert. LaSER operiert auf einer gemeinsamen LLM-Backbone und führt einen dual-view Trainingsmechanismus ein: eine explizite Sicht, die Ground-Truth-Reasoning-Pfade explizit encodiert, und eine latente Sicht, die implizites latentes Denken durchführt. Um die Lücke zwischen diesen Sichten zu überbrücken, entwerfen wir eine multi-grained Alignment-Strategie. Über die Standard-Output-Ausrichtung hinaus führen wir einen Trajectory-Alignment-Mechanismus ein, der die intermediären latenten Zustände des latenten Pfades mit dem semantischen Fortschritt der expliziten Reasoning-Segmente synchronisiert. Dies ermöglicht es dem Retriever, still und effektiv zu denken, ohne autoregressive Textgenerierung. Umfangreiche Experimente auf sowohl domäneninternen als auch domänenexternen, reasoning-intensiven Benchmarks zeigen, dass LaSER state-of-the-art Baseline-Methoden signifikant übertrifft. Weiterhin validieren Analysen über diverse Backbones und Modellgrößen hinweg die Robustheit unseres Ansatzes und bestätigen, dass unser vereinheitlichtes Lernframework essentiell ist, um effektives latentes Denken zu elicittieren. Unsere Methode kombiniert erfolgreich die Reasoning-Tiefe expliziter CoT-Pipelines mit der Inferenzeffizienz standardmäßiger dichter Retriever.

SeeThrough3D: Verdeckungsbewusste 3D-Steuerung in der Text-zu-Bild-Generierung
SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation

Feb 26

ByVaibhav Agrawal, Rishubh Parihar, Pradhaan Bhat, Ravi Kiran Sarvadevabhatla, R. Venkatesh Babu

Wir identifizieren die Okklusionsmodellierung als einen grundlegenden, aber vernachlässigten Aspekt für die 3D-Layout-konditionierte Generierung. Sie ist entscheidend für die Synthese teilweise verdeckter Objekte mit tiefenkonsistenter Geometrie und Skalierung. Während bestehende Methoden realistische Szenen generieren können, die den Eingabe-Layouts folgen, scheitern sie oft an der präzisen Modellierung von Objektüberlagerungen. Wir stellen SeeThrough3D vor, ein Modell für die 3D-Layout-konditionierte Generierung, das Okklusionen explizit modelliert. Wir führen eine okklusionsbewusste 3D-Szenendarstellung (OSCR) ein, bei der Objekte als transluzente 3D-Boxen in einer virtuellen Umgebung platziert und aus der gewünschten Kameraperspektive gerendert werden. Die Transparenz kodiert verborgene Objektbereiche und ermöglicht es dem Modell, Okklusionen zu berücksichtigen, während die gerenderte Perspektive eine explizite Kamerasteuerung während der Generierung bietet. Wir konditionieren ein vortrainiertes, flussbasiertes Text-zu-Bild-Generierungsmodell, indem wir einen Satz visueller Token einführen, die aus unserer gerenderten 3D-Darstellung abgeleitet werden. Darüber hinaus wenden wir maskierte Self-Attention an, um jede Objekt-Bounding-Box präzise mit ihrer entsprechenden Textbeschreibung zu verknüpfen und so eine genaue Generierung mehrerer Objekte ohne Vermischung von Objektattributen zu ermöglichen. Für das Training des Modells erstellen wir einen synthetischen Datensatz mit vielfältigen Multi-Objekt-Szenen und starken Objektüberlagerungen. SeeThrough3D generalisiert effektiv auf unbekannte Objektkategorien und ermöglicht eine präzise 3D-Layout-Steuerung mit realistischen Okklusionen und konsistenter Kamerakontrolle.

Reasoning Core: Eine skalierbare Suite zur prozeduralen Datengenerierung für symbolisches Pre-Training und Post-Training
Reasoning Core: A Scalable Procedural Data Generation Suite for Symbolic Pre-training and Post-Training

Mar 2

ByValentin Lacombe, Valentin Quesnel, Damien Sileo

Training anhand verifizierbarer symbolischer Daten ist ein vielversprechender Ansatz, um die Reasoning-Fähigkeiten von Sprachmodellen über die Grenzen hinaus zu erweitern, die Standard-Pre-Training-Korpora bieten. Bisherige prozedurale Generatoren basieren jedoch oft auf festen Rätseln oder Templates und liefern nicht die benötigte Verteilungsbreite im großen Maßstab. Wir stellen Reasoning Core vor, eine skalierbare Suite, die prozedural verifizierbare symbolische Reasoning-Daten in zentralen formalen Domänen generiert: PDDL-Planung in randomisierten Domänen, Logik erster Stufe mit Gleichheit, Parsen und Generierung kontextfreier Grammatiken, kausales Schließen mit zufälligen Bayes-Netzen und Gleichungssysteme. Jede Aufgabe ist mit einem externen Solver zur rigorosen Verifikation gekoppelt und erlaubt eine kontinuierliche Schwierigkeitskontrolle für Curriculum Design. Beispiele können optional vom Solver abgeleitete Reasoning-Traces enthalten, was überwachtes Training bereits in frühen Pre-Training-Phasen ermöglicht; dieselbe Schnittstelle bietet verifizierbare Belohnungsfunktionen für Reinforcement Learning. Unsere Experimente zeigen, dass die Beimischung von Reasoning-Core-Daten zum Pre-Training das nachgelagerte Reasoning verbessert, während die Sprachmodellierungsqualität erhalten bleibt oder sich leicht verbessert. Zero-Shot-Evaluierungen bestätigen, dass diese Aufgaben Spitzenmodelle wie GPT-5 vor Herausforderungen stellen. Code und Daten sind unter der MIT-Lizenz öffentlich verfügbar.

Klausurabschlussprüfung: Ein von Lehrkräften getesteter Bewertungsmaßstab für logisches Denken
Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Feb 23

ByChongyang Gao, Diji Yang, Shuyan Zhou, Xichen Yan, Luchuan Song, Shuo Li, Kezhen Chen

Wir stellen (Classroom Final Exam) vor, einen multimodalen Benchmark zur Bewertung der Fähigkeiten großer Sprachmodelle, logisch zu schlussfolgern, über mehr als 20 MINT-Domänen hinweg. wurde aus wiederholt verwendeten, authentischen Universitäts-Hausaufgaben und Klausuraufgaben zusammengestellt, zusammen mit Referenzlösungen, die von den Kursdozenten bereitgestellt wurden. stellt selbst für führende Modelle eine erhebliche Herausforderung dar: Das neu veröffentlichte Gemini-3.1-pro-preview erreicht eine Gesamtgenauigkeit von 59,69 %, während das zweitbeste Modell, Gemini-3-flash-preview, 55,46 % erreicht, was beträchtlichen Verbesserungsspielraum lässt. Über Leaderboard-Ergebnisse hinaus führen wir eine diagnostische Analyse durch, indem wir die Referenzlösungen in logische Lösungsflüsse zerlegen. Wir stellen fest, dass führende Modelle zwar oft Zwischenfragen korrekt beantworten können, sie jedoch Schwierigkeiten haben, korrekte Zwischenzustände über mehrstufige Lösungen hinweg zuverlässig abzuleiten und beizubehalten. Weiterhin beobachten wir, dass modellgenerierte Lösungen typischerweise mehr Lösungsschritte aufweisen als die vom Dozenten bereitgestellten, was auf eine suboptimale Schritteffizienz und ein höheres Risiko der Fehlerakkumulation hindeutet. Die Daten und der Code sind unter https://github.com/Analogy-AI/CFE_Bench verfügbar.

Synthetisches Visual Genome 2: Extraktion großräumiger räumlich-zeitlicher Szenengraphen aus Videos
Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

Feb 26

ByZiqi Gao, Jieyu Zhang, Wisdom Oluchi Ikezogwo, Jae Sung Park, Tario G. You, Daniel Ogbu, Chenhao Zheng, Weikai Huang, Yinuo Yang, Winson Han, Quan Kong, Rajat Saini, Ranjay Krishna

Wir stellen Synthetic Visual Genome 2 (SVG2) vor, einen großflächigen panoptischen Video-Szenengraph-Datensatz. SVG2 umfasst über 636.000 Videos mit 6,6 Millionen Objekten, 52,0 Millionen Attributen und 6,7 Millionen Relationen und bietet damit eine Größenvorteil um eine Größenordnung sowie mehr Vielfalt als frühere räumlich-zeitliche Szenengraph-Datensätze. Für die Erstellung von SVG2 entwickelten wir eine vollautomatische Pipeline, die multi-skaliere panoptische Segmentierung, Online-Offline-Trajektorienverfolgung mit automatischer Neuobjekterkennung, semantisches Parsing pro Trajektorie und räumlich-zeitliche Relationsinferenz auf Basis von GPT-5 kombiniert. Aufbauend auf dieser Ressource trainieren wir TRaSER, ein Modell zur Generierung von Video-Szenengraphen. TRaSER erweitert VLMs mit einem trajektorienausgerichteten Token-Anordnungsmechanismus und neuen Modulen: einem Objekt-Trajektorien-Resampler und einem Temporal-Window-Resampler, um Rohvideos und panoptische Trajektorien in einem einzigen Vorwärtsdurchlauf in kompakte räumlich-zeitliche Szenengraphen umzuwandeln. Der Temporal-Window-Resampler bindet visuelle Tokens an kurze Trajektoriensegmente, um lokale Bewegung und zeitliche Semantik zu erhalten, während der Objekt-Trajektorien-Resampler gesamte Trajektorien aggregiert, um den globalen Kontext für Objekte beizubehalten. Auf den Testdatensätzen PVSG, VIPSeg, VidOR und SVG2 verbessert TRaSER die Relationserkennung um +15 bis 20 %, die Objektvorhersage um +30 bis 40 % gegenüber den stärksten Open-Source-Baselines und um +13 % gegenüber GPT-5 sowie die Attributvorhersage um +15 %. Wenn die von TRaSER generierten Szenengraphen an ein VLM für Video-Frage-Antwort-Aufgaben gesendet werden, erzielt es einen absoluten Genauigkeitszuwachs von +1,5 bis 4,6 % gegenüber der Verwendung von nur Video oder video, das mit von Qwen2.5-VL generierten Szenengraphen angereichert wurde, was den Nutzen expliziter räumlich-zeitlicher Szenengraphen als Zwischendarstellung demonstriert.

RAISE: Anforderungsadaptive evolutionäre Verfeinerung für trainingsfreie Text-zu-Bild-Ausrichtung
RAISE: Requirement-Adaptive Evolutionary Refinement for Training-Free Text-to-Image Alignment

Feb 28

ByLiyao Jiang, Ruichen Chen, Chao Gao, Di Niu

Aktuelle Text-zu-Bild (T2I) Diffusionsmodelle erreichen eine bemerkenswerte Realismus, dennoch bleibt eine zuverlässige Prompt-Bild-Übereinstimmung eine Herausforderung, insbesondere für komplexe Prompts mit mehreren Objekten, Relationen und feingranularen Attributen. Bestehende trainierungsfreie Inferenzzeit-Skalierungsmethoden verlassen sich auf feste Iterationsbudgets, die sich nicht an die Prompt-Schwierigkeit anpassen können, während reflektionsoptimierte Modelle sorgfältig kuratierte Reflektionsdatensätze und umfangreiche gemeinsame Feinabstimmung von Diffusions- und Vision-Language-Modellen erfordern, was oft zu einer Überanpassung an Reflektionspfaddaten führt und die Übertragbarkeit zwischen Modellen beeinträchtigt. Wir stellen RAISE (Requirement-Adaptive Self-Improving Evolution) vor, ein trainierungsfreies, anforderungsgetriebenes evolutionäres Framework für adaptive T2I-Generierung. RAISE formuliert Bildgenerierung als einen anforderungsgetriebenen adaptiven Skalierungsprozess, der einen Kandidatenpool zur Inferenzzeit durch eine Vielzahl von Verfeinerungsaktionen entwickelt – einschließlich Prompt-Rewriting, Rausch-Resampling und instruktionsbasiertem Editieren. Jede Generation wird anhand einer strukturierten Checkliste von Anforderungen verifiziert, was es dem System ermöglicht, dynamisch unerfüllte Punkte zu identifizieren und weitere Berechnungen nur dort zuzuteilen, wo sie benötigt werden. Dies erreicht eine adaptive Testzeit-Skalierung, die den Rechenaufwand mit der semantischen Abfragekomplexität in Einklang bringt. Auf GenEval und DrawBench erzielt RAISE state-of-the-art Alignment (0,94 insgesamt auf GenEval) bei gleichzeitig weniger generierten Samples (reduziert um 30-40 %) und VLM-Aufrufen (reduziert um 80 %) im Vergleich zu früheren Skalierungs- und reflektionsoptimierten Baselines, was effiziente, generalisierbare und modell-agnostische mehrstufige Selbstverbesserung demonstriert. Code ist verfügbar unter https://github.com/LiyaoJiang1998/RAISE.

CC-VQA: Konflikt- und Korrelationsbewusste Methode zur Minderung von Wissenskonflikten beim wissensbasierten visuellen Frage-Antwort-System
CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering

Feb 27

ByYuyang Hong, Jiaqi Gu, Yujin Lou, Lubin Fan, Qi Yang, Ying Wang, Kun Ding, Yue Wu, Shiming Xiang, Jieping Ye

Wissensbasiertes visuelles Frage-Antworten (KB-VQA) zeigt ein erhebliches Potenzial für die Bewältigung von wissensintensiven Aufgaben. Allerdings entstehen Konflikte zwischen dem statischen parametrischen Wissen in visuell-sprachlichen Modellen (VLMs) und dynamisch abgerufenen Informationen, bedingt durch das statische Modellwissen aus dem Vorab-Training. Die Ausgaben ignorieren entweder abgerufene Kontexte oder zeigen eine inkonsistente Integration mit parametrischem Wissen, was erhebliche Herausforderungen für KB-VQA darstellt. Aktuelle Methoden zur Milderung von Wissenskonflikten, die hauptsächlich von textbasierten Ansätzen adaptiert wurden, konzentrieren sich auf Konflikt-Ebene des Kontextes durch konstruierte Prompting-Strategien oder kontextbewusste Decodierungsmechanismen. Diese Methoden vernachlässigen jedoch die entscheidende Rolle visueller Informationen bei Konflikten und leiden unter redundanten abgerufenen Kontexten, was eine genaue Konfliktidentifikation und effektive Minderung beeinträchtigt. Um diese Einschränkungen zu adressieren, schlagen wir CC-VQA vor: eine neuartige, trainingsfreie, konflikt- und korrelationsbewusste Methode für KB-VQA. Unsere Methode umfasst zwei Kernkomponenten: (1) Vision-zentrierte kontextuelle Konfliktanalyse, die eine visuell-semantische Konfliktanalyse über interne und externe Wissenskontexte hinweg durchführt; und (2) Korrelationsgesteuerte Encodierung und Decodierung, mit positionsbasierter Encodierungskompression für Aussagen mit geringer Korrelation und adaptiver Decodierung unter Verwendung von korrelationsgewichteten Konfliktscores. Umfangreiche Auswertungen auf den E-VQA-, InfoSeek- und OK-VQA-Benchmarks zeigen, dass CC-VQA state-of-the-art Leistung erzielt und absolute Genauigkeitsverbesserungen von 3,3 % bis 6,4 % im Vergleich zu bestehenden Methoden erreicht. Der Code ist verfügbar unter https://github.com/cqu-student/CC-VQA.

ArtLLM: Erzeugung artikulierter Assets durch 3D-LLM
ArtLLM: Generating Articulated Assets via 3D LLM

Mar 1

ByPenghao Wang, Siyuan Xie, Hongyu Yan, Xianghui Yang, Jingwei Huang, Chunchao Guo, Jiayuan Gu

Die Erstellung interaktiver digitaler Umgebungen für Gaming, Robotik und Simulation basiert auf artikulierten 3D-Objekten, deren Funktionalität aus ihrer Teilgeometrie und kinematischen Struktur hervorgeht. Bestehende Ansätze sind jedoch grundlegend limitiert: optimierungsbasierte Rekonstruktionsmethoden erfordern eine langsame, objektspezifische Gelenkanpassung und verarbeiten typischerweise nur einfache Objekte mit einem einzelnen Gelenk, während retrievbasierte Methoden Teile aus einer festen Bibliothek zusammensetzen, was zu repetitiver Geometrie und schlechter Generalisierung führt. Um diese Herausforderungen zu adressieren, stellen wir ArtLLM vor, ein neuartiges Framework zur Erzeugung hochwertiger artikulierter Assets direkt aus vollständigen 3D-Meshes. Sein Kernstück ist ein multimodales 3D-Großsprachmodell, das auf einem umfangreichen Artikulationsdatensatz trainiert wurde, der aus bestehenden Artikulationsdatensätzen und prozedural generierten Objekten kuratiert wurde. Im Gegensatz zu früheren Arbeiten sagt ArtLLM autoregressiv eine variable Anzahl von Teilen und Gelenken vorher und leitet deren kinematische Struktur einheitlich aus der Punktwolke des Objekts ab. Dieses artikulationsbewusste Layout konditioniert dann ein 3D-Generativmodell zur Synthese hochauflösender Teilgeometrien. Experimente mit dem PartNet-Mobility-Datensatz zeigen, dass ArtLLM state-of-the-art-Methoden sowohl in der Genauigkeit der Teileanordnung als auch in der Gelenkvorhersage signifikant übertrifft und dabei robust auf reale Objekte generalisiert. Abschließend demonstrieren wir seinen Nutzen für die Erstellung digitaler Zwillinge und unterstreichen damit sein Potenzial für skalierbares Robotik-Lernen.

MicroVerse: Eine vorläufige Erkundung hin zu einer Mikrowelten-Simulation
MicroVerse: A Preliminary Exploration Toward a Micro-World Simulation

Feb 28

ByRongsheng Wang, Minghao Wu, Hongru Zhou, Zhihan Yu, Zhenyang Cai, Junying Chen, Benyou Wang

Jüngste Fortschritte in der Videogenerierung haben neue Wege für die makroskopische Simulation komplexer dynamischer Systeme eröffnet, doch ihre Anwendung auf mikroskopische Phänomene bleibt weitgehend unerforscht. Die Mikrosimulation birgt großes Potenzial für biomedizinische Anwendungen wie Wirkstoffentdeckung, Organ-on-Chip-Systeme und Krankheitsmechanismusstudien, während sie auch Möglichkeiten in Bildung und interaktiver Visualisierung bietet. In dieser Arbeit stellen wir MicroWorldBench vor, einen mehrstufigen, kriterienbasierten Benchmark für Mikrosimulationsaufgaben. MicroWorldBench ermöglicht eine systematische, kriterienbasierte Evaluation durch 459 einzigartige, von Experten annotierte Kriterien, die mehrere Mikrosimulationsaufgaben (z.B. Organprozesse, zelluläre Dynamiken und subzelluläre molekulare Interaktionen) und Evaluationsdimensionen (z.B. wissenschaftliche Treue, visuelle Qualität, Instruktionsbefolgung) abdecken. MicroWorldBench zeigt, dass aktuelle State-of-the-Art-Videogenerierungsmodelle bei der Mikrosimulation versagen, da sie physikalische Gesetze verletzen, zeitliche Inkonsistenzen aufweisen und nicht mit Expertenkriterien übereinstimmen. Um diese Limitationen zu adressieren, erstellen wir MicroSim-10K, einen hochwertigen, expertengeprüften Simulationsdatensatz. Unter Nutzung dieses Datensatzes trainieren wir MicroVerse, ein Videogenerierungsmodell, das speziell für Mikrosimulationen entwickelt wurde. MicroVerse kann komplexe Mikromechanismen präzise reproduzieren. Unsere Arbeit führt erstmals das Konzept der Mikrowelt-Simulation ein und präsentiert einen Machbarkeitsnachweis, der den Weg für Anwendungen in Biologie, Bildung und wissenschaftlicher Visualisierung ebnet. Unsere Arbeit demonstriert das Potenzial edukativer Mikrosimulationen biologischer Mechanismen. Unsere Daten und Codes sind öffentlich verfügbar unter https://github.com/FreedomIntelligence/MicroVerse.

Die Verwendung von Liedern zur Verbesserung der automatischen Spracherkennung für Kasachisch
Using Songs to Improve Kazakh Automatic Speech Recognition

Mar 1

ByRustem Yeshpanov

Die Entwicklung automatischer Spracherkennungssysteme (ASR) für ressourcenschwache Sprachen wird durch den Mangel an transkribierten Korpora erschwert. Diese Machbarkeitsstudie untersucht Lieder als unkonventionelle, aber vielversprechende Datenquelle für die kasachische Spracherkennung. Wir erstellen einen Datensatz aus 3.013 Audio-Text-Paaren (etwa 4,5 Stunden) von 195 Liedern 36 verschiedener Künstler, die auf Lyrik-Zeilenebene segmentiert sind. Unter Verwendung von Whisper als Basis-Erkennungssystem feintunen wir Modelle in sieben Trainingsszenarien mit Liedern, dem Common Voice Corpus (CVC) und FLEURS und evaluieren sie anhand drei Benchmarks: CVC, FLEURS und dem Kazakh Speech Corpus 2 (KSC2). Die Ergebnisse zeigen, dass das Feintuning auf Lieddaten die Leistung im Vergleich zu Zero-Shot-Baselines verbessert. Beispielsweise erreicht Whisper Large-V3 Turbo, trainiert mit einer Mischung aus Liedern, CVC und FLEURS, eine normalisierte WER von 27,6 % auf CVC und 11,8 % auf FLEURS, während sich der Fehler auf KSC2 im Vergleich zum Zero-Shot-Modell halbiert (39,3 % vs. 81,2 %). Obwohl diese Verbesserungen hinter denen von Modellen zurückbleiben, die auf dem 1.100-Stunden-KSC2-Korpus trainiert wurden, demonstrieren sie, dass selbst bescheidene Lied-Sprach-Mischungen sinnvolle Anpassungsverbesserungen in der ressourcenschwachen Spracherkennung bewirken können. Der Datensatz wird zu Forschungszwecken unter einer eingeschränkten, nicht-kommerziellen Lizenz auf Hugging Face veröffentlicht.

ProtegoFed: Hintertürfreies föderiertes Instruction Tuning mit eingestreuten vergifteten Daten
ProtegoFed: Backdoor-Free Federated Instruction Tuning with Interspersed Poisoned Data

Feb 28

ByHaodong Zhao, Jinming Hu, Zhaomin Wu, Zongru Wu, Wei Du, Junyi Hou, Caibei Zhao, Zhuosheng Zhang, Bingsheng He, Gongshen Liu

Federated Instruction Tuning (FIT) ermöglicht das kollaborative Instruction Tuning großer Sprachmodelle über mehrere Organisationen (Clients) hinweg in einer Cross-Silo-Umgebung, ohne dass private Instruktionen geteilt werden müssen. Jüngste Erkenntnisse zu natürlichen Backdoors und die gängige Methode zur Sammlung von Trainingsdaten legen nahe, dass vergiftete Stichproben weit verbreitet und unbeabsichtigt in realen Datensätzen eingebettet sein können, die potenziell auf alle Clients verteilt sind, selbst wenn die Clients vertrauenswürdig sind. Diese Arbeit untersucht diese Bedrohung in FIT systematisch und zeigt, dass bestehende Abwehrmaßnahmen unwirksam sind, wenn vergiftete Daten auf alle Clients verteilt sind. Die Bewältigung dieser Herausforderung birgt zwei Hauptschwierigkeiten: die Identifizierung der charakteristischen Merkmale vergifteter Stichproben bei jedem Client und die Ermöglichung einer kollaborativen Abwehr, wenn einige Clients stark von vergifteten Stichproben dominiert werden. Um diese Schwierigkeiten zu bewältigen, identifizieren wir Gradienten im Frequenzbereich als robustes Signal zur Unterscheidung vergifteter Daten. Wir schlagen weiterhin einen globalen Sekundär-Clustering-Mechanismus vor, der die kollaborative Identifizierung vergifteter Stichproben über Clients hinweg erleichtert. Zusammenfassend stellt diese Arbeit ProtegoFed vor, das erste Backdoor-freie FIT-Framework, das verteilte vergiftete Daten während des Trainings genau erkennt, entfernt und sogar bereinigt. Experimentelle Ergebnisse auf vier FL-Datensätzen zeigen, dass ProtegoFed 92,00 % bis 100,00 % der vergifteten Stichproben identifiziert, die Angriffserfolgsrate auf nahezu Null reduziert und die Nutzbarkeit für die Hauptaufgabe beibehält. Code ist verfügbar unter https://github.com/dongdongzhaoUP/ProtegoFed.

Cryo-Bench: Benchmarking von Foundation Models für Kryosphären-Anwendungen
Cryo-Bench: Benchmarking Foundation Models for Cryosphere Applications

Mar 2

BySaurabh Kaushik, Lalit Maurya, Beth Tellman

Geo-Foundation-Modelle (GFMs) wurden für verschiedene Erdbeobachtungsaufgaben, einschließlich mehrerer Domänen, evaluiert und haben ein starkes Potenzial gezeigt, selbst mit spärlichen Labels zuverlässige Karten zu erzeugen. Das Benchmarking von GFMs für Kryosphären-Anwendungen war jedoch bisher begrenzt, hauptsächlich aufgrund des Mangels an geeigneten Evaluierungsdatensätzen. Um diese Lücke zu schließen, stellen wir Cryo-Bench vor, einen Benchmark, der zusammengestellt wurde, um die Leistung von GFMs für wichtige kryosphärische Komponenten zu bewerten. Cryo-Bench umfasst debris-bedeckte Gletscher, Gletscherseen, Meereis und Kalbungsfronten, die mehrere Sensoren und große geografische Regionen abdecken. Wir evaluieren 14 GFMs zusammen mit UNet- und ViT-Baselines, um ihre Vorteile, Grenzen und optimalen Nutzungsstrategien zu bewerten. Mit einem eingefrorenen Encoder erzielt UNet den höchsten durchschnittlichen mIoU von 66,38, gefolgt von TerraMind mit 64,02 über die fünf in Cryo-Bench enthaltenen Evaluierungsdatensätze. Im Few-Shot-Setting (10 % der Eingabedaten) übertreffen GFMs wie DOFA und TerraMind UNet und erreichen mIoU-Werte von 59,53, 56,62 bzw. 56,60, verglichen mit 56,60 von U-Net. Bei der vollständigen Feinabstimmung von GFMs beobachten wir uneinheitliche Leistungen über Datensätze und Modelle hinweg. Die gleichzeitige Optimierung der Lernrate zusammen mit der Feinabstimmung verbessert die GFM-Leistung jedoch erheblich. Beispielsweise zeigt die Auswertung auf zwei repräsentativen Datensätzen (GLID und CaFFe) eine durchschnittliche relative Verbesserung von 12,77 %. Obwohl die Kryosphäre in ihren Vortrainingsdaten minimal repräsentiert ist, zeigen GFMs bemerkenswerte Domänenanpassungsfähigkeiten und liefern aussagekräftige Ergebnisse über verschiedene Aufgaben hinweg. Basierend auf unseren Ergebnissen empfehlen wir eine Encoder-Feinabstimmung mit Hyperparameter-Optimierung, um die bestmögliche Leistung zu erzielen, während eingefrorene Encoder zu verwenden sind, wenn Benutzer schnelle Ergebnisse ohne umfangreiche Experimente benötigen. (https://github.com/Sk-2103/Cryo-Bench{GitHub}).

Monokulare Mesh-Rekonstruktion und Körpervermessung weiblicher Saanen-Ziegen
Monocular Mesh Recovery and Body Measurement of Female Saanen Goats

Feb 23

ByBo Jin, Shichao Zhao, Jin Lyu, Bin Zhang, Tao Yu, Liang An, Yebin Liu, Meili Wang

Die Milchleistung von Saanen-Milchziegen, die für ihre hohe Milchproduktion bekannt sind, steht in einem intrinsischen Zusammenhang mit ihrer Körpergröße, was eine präzise 3D-Körpermessung für die Bewertung des Milchproduktionspotenzials unerlässlich macht. Bisherigen Rekonstruktionsverfahren mangelt es jedoch an ziegen-spezifischen, authentischen 3D-Daten. Um diese Lücke zu schließen, etablieren wir den FemaleSaanenGoat-Datensatz, der synchronisierte Acht-Kanal-RGBD-Videos von 55 weiblichen Saanen-Ziegen (6-18 Monate alt) enthält. Unter Verwendung von Multi-View-DynamicFusion fusionieren wir verrauschte, nicht-rigide Punktwolken-Sequenzen zu hochauflösenden 3D-Scans und überwinden dabei Herausforderungen durch unregelmäßige Oberflächen und schnelle Bewegungen. Auf Basis dieser Scans entwickeln wir SaanenGoat, ein parametrisches 3D-Formmodell, das speziell für weibliche Saanen-Ziegen konzipiert ist. Dieses Modell verfügt über eine verfeinerte Vorlage mit 41 Skelettgelenken und einer verbesserten Euter-Darstellung, die mit unseren Scandaten registriert ist. Ein umfassender Formraum, der auf Daten von 48 Ziegen basiert, ermöglicht die präzise Darstellung verschiedener individueller Variationen. Mithilfe des SaanenGoat-Modells erreichen wir eine hochpräzise 3D-Rekonstruktion aus Single-View-RGBD-Eingaben und ermöglichen die automatisierte Messung von sechs kritischen Körpermaßen: Körperlänge, Widerristhöhe, Brustbreite, Brustumfang, Beckenbreite und Beckenhöhe. Experimentelle Ergebnisse demonstrieren die überlegene Genauigkeit unserer Methode sowohl in der 3D-Rekonstruktion als auch bei der Körpermessung und stellen ein neuartiges Paradigma für groß angelegte 3D-Vision-Anwendungen in der Präzisionsviehwirtschaft dar.

Planung durch Beobachtung und Interaktion
Planning from Observation and Interaction

Feb 27

ByTyler Han, Siyang Shen, Rohan Baijal, Harine Ravichandiran, Bat Nemekhbold, Kevin Huang, Sanghun Jung, Byron Boots

Beobachtungslernen erfordert, dass ein Agent eine Aufgabe erlernt, indem er ausschließlich auf Beobachtungen der ausgeführten Aufgabe zurückgreift. Diese Arbeit untersucht das entsprechende Szenario im realen Robotik-Lernen, bei dem weder Zugang zu handgefertigten Belohnungsfunktionen noch zu Aktionen des Demonstrators vorausgesetzt wird. Um diesen datenbeschränkten Rahmen zu adressieren, stellt diese Arbeit einen planungsbasierten Algorithmus für Inverse Verstärkungslernen (IRL) vor, der Weltmodelle allein aus Beobachtungen und Interaktionen erlernt. Vollständig in der realen Welt durchgeführte Experimente zeigen, dass dieses Paradigma effektiv ist, um bildbasierte Manipulationsaufgaben in weniger als einer Stunde von Grund auf zu erlernen, ohne Vorwissen, Vortraining oder Daten jeglicher Art außer den Aufgabenbeobachtungen vorauszusetzen. Darüber hinaus zeigt diese Arbeit, dass die gelernte Weltmodell-Darstellung zu Online-Transferlernen in der realen Welt von Grund auf fähig ist. Im Vergleich zu bestehenden Ansätzen, einschließlich IRL, RL und Behavior Cloning (BC), die restriktivere Annahmen treffen, weist der vorgeschlagene Ansatz eine signifikant höhere Stichprobeneffizienz und Erfolgsquote auf und eröffnet damit einen praktikablen Weg für Online-Weltmodellierung und Planung aus Beobachtung und Interaktion. Videos und mehr unter: https://uwrobotlearning.github.io/mpail2/.