papers.title

papers.description

Reflektieren, Wiederholen, Belohnen: Selbstverbessernde LLMs durch Reinforcement Learning
Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning

May 30

ByShelly Bensal, Umar Jamil, Christopher Bryant, Melisa Russak, Kiran Kamble, Dmytro Mozolevskyi, Muayad Ali, Waseem AlShikh

267

Wir untersuchen eine Methode zur Verbesserung der Leistung großer Sprachmodelle durch Selbstreflexion und bestärkendes Lernen. Indem wir das Modell dazu anregen, bessere Selbstreflexionen zu generieren, wenn es eine Frage falsch beantwortet, zeigen wir, dass die Fähigkeit eines Modells, komplexe, überprüfbare Aufgaben zu lösen, selbst dann verbessert werden kann, wenn die Erzeugung synthetischer Daten nicht möglich ist und nur binäres Feedback verfügbar ist. Unser Framework arbeitet in zwei Phasen: Zuerst generiert das Modell, nachdem es eine gegebene Aufgabe nicht gelöst hat, einen selbstreflexiven Kommentar, der den vorherigen Versuch analysiert; anschließend erhält das Modell einen weiteren Versuch, die Aufgabe zu lösen, wobei die Selbstreflexion im Kontext berücksichtigt wird. Wenn der nachfolgende Versuch erfolgreich ist, werden die während der Selbstreflexionsphase generierten Tokens belohnt. Unsere experimentellen Ergebnisse zeigen erhebliche Leistungssteigerungen über eine Vielzahl von Modellarchitekturen hinweg, mit Verbesserungen von bis zu 34,7 % beim Schreiben mathematischer Gleichungen und 18,1 % beim Aufrufen von Funktionen. Bemerkenswerterweise übertreffen kleinere, feinabgestimmte Modelle (1,5 bis 7 Milliarden Parameter) Modelle derselben Familie, die zehnmal größer sind. Unser neuartiges Paradigma ist somit ein vielversprechender Weg zu nützlicheren und zuverlässigeren Sprachmodellen, die sich selbst bei anspruchsvollen Aufgaben mit begrenztem externem Feedback verbessern können.

UniWorld: Hochauflösende semantische Encoder für einheitliches visuelles Verständnis und Generierung
UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

Jun 3

ByBin Lin, Zongjian Li, Xinhua Cheng, Yuwei Niu, Yang Ye, Xianyi He, Shenghai Yuan, Wangbo Yu, Shaodong Wang, Yunyang Ge, Yatian Pang, Li Yuan

Obwohl bestehende einheitliche Modelle eine starke Leistung bei der visuell-sprachlichen Verarbeitung und der Text-zu-Bild-Generierung liefern, sind sie in der Erforschung von Bildwahrnehmungs- und Bildbearbeitungsaufgaben eingeschränkt, die dringend für breite Anwendungen benötigt werden. Kürzlich hat OpenAI sein leistungsstarkes GPT-4o-Image-Modell für umfassende Bildwahrnehmung und -bearbeitung veröffentlicht, das eine ausdrucksstarke Fähigkeit aufweist und das Interesse der Community geweckt hat. Durch die Beobachtung der Leistung von GPT-4o-Image in unseren sorgfältig konstruierten Experimenten schließen wir, dass GPT-4o-Image Merkmale nutzt, die von semantischen Encodern extrahiert werden, anstatt von VAEs, während VAEs als wesentliche Komponenten in vielen Bildbearbeitungsmodellen betrachtet werden. Motiviert durch diese inspirierenden Beobachtungen präsentieren wir ein einheitliches generatives Framework namens UniWorld, das auf semantischen Merkmalen basiert, die von leistungsstarken visuell-sprachlichen Modellen und kontrastiven semantischen Encodern bereitgestellt werden. Als Ergebnis bauen wir ein starkes einheitliches Modell mit nur 1 % der Datenmenge von BAGEL, das BAGEL auf Bildbearbeitungs-Benchmarks konsequent übertrifft. UniWorld behält auch wettbewerbsfähige Fähigkeiten in der Bildverarbeitung und -generierung bei und erzielt starke Leistungen in mehreren Bildwahrnehmungsaufgaben. Wir stellen unsere Modelle vollständig als Open Source zur Verfügung, einschließlich Modellgewichten, Trainings- und Evaluierungsskripten sowie Datensätzen.

VS-Bench: Bewertung von VLMs für strategisches Denken und Entscheidungsfindung in Multi-Agenten-Umgebungen
VS-Bench: Evaluating VLMs for Strategic Reasoning and Decision-Making in Multi-Agent Environments

Jun 3

ByZelai Xu, Zhexuan Xu, Xiangmin Yi, Huining Yuan, Xinlei Chen, Yi Wu, Chao Yu, Yu Wang

Jüngste Fortschritte in Vision-Language-Modellen (VLMs) haben deren Fähigkeiten auf interaktive Agentenaufgaben erweitert, doch bestehende Benchmarks beschränken sich weiterhin auf Einzelagenten- oder textbasierte Umgebungen. Im Gegensatz dazu umfassen reale Szenarien oft mehrere Agenten, die in reichhaltigen visuellen und linguistischen Kontexten interagieren, was Herausforderungen sowohl bei multimodalen Beobachtungen als auch bei strategischen Interaktionen mit sich bringt. Um diese Lücke zu schließen, führen wir Visual Strategic Bench (VS-Bench) ein, einen multimodalen Benchmark, der VLMs hinsichtlich strategischer Argumentation und Entscheidungsfindung in Multi-Agenten-Umgebungen bewertet. VS-Bench umfasst acht visuell basierte Umgebungen, die kooperative, kompetitive und gemischt motivierte Interaktionen abdecken und darauf ausgelegt sind, die Fähigkeit der Agenten zu bewerten, zukünftige Handlungen anderer vorherzusagen und langfristige Ziele zu optimieren. Wir betrachten zwei komplementäre Bewertungsdimensionen, darunter die Offline-Bewertung der strategischen Argumentation anhand der Genauigkeit der nächsten Handlungsvorhersage und die Online-Bewertung der Entscheidungsfindung anhand des normalisierten Episodenergebnisses. Umfangreiche Experimente mit vierzehn führenden VLMs zeigen eine erhebliche Lücke zwischen den aktuellen Modellen und der optimalen Leistung, wobei die besten Modelle eine Vorhersagegenauigkeit von 47,8 % und einen normalisierten Ertrag von 24,3 % erreichen. Wir führen weiterhin vertiefte Analysen zu multimodalen Beobachtungen, Skalierung zur Testzeit, sozialen Verhaltensweisen und Fehlerfällen von VLM-Agenten durch. Durch die Standardisierung der Bewertung und die Hervorhebung der Grenzen bestehender Modelle sehen wir VS-Bench als Grundlage für zukünftige Forschung zu strategischen multimodalen Agenten. Code und Daten sind unter https://vs-bench.github.io verfügbar.

SynthRL: Skalierung visueller Schlussfolgerungen durch verifizierbare Datensynthese
SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis

Jun 2

ByZijian Wu, Jinjie Ni, Xiangyan Liu, Zichen Liu, Hang Yan, Michael Qizhe Shieh

Vision-Language-Modelle (VLMs), die durch Reinforcement Learning mit verifizierbarer Belohnung (RLVR) trainiert werden, haben bemerkenswerte Fortschritte bei der effektiven Skalierung der Rechenleistung zur Testzeit gezeigt. In dieser Arbeit untersuchen wir, wie synthetisierte RL-Daten RLVR weiter verbessern können. Zu diesem Zweck schlagen wir SynthRL vor – eine skalierbare und garantierte Pipeline zur automatischen Datenskalierung im reasoning-orientierten RL-Training. SynthRL umfasst drei Schlüsselphasen: (1) die Auswahl von Ausgangsfragen mit geeigneter Verteilung, (2) deren Erweiterung zu anspruchsvolleren Varianten unter Beibehaltung der ursprünglichen Antworten und (3) eine garantierte Verifizierungsphase, die nahezu perfekte Korrektheit und eine Steigerung der Schwierigkeit sicherstellt. Unsere empirischen Experimente demonstrieren die Skalierbarkeit und Effektivität von SynthRL. Bei Anwendung auf den MMK12-Datensatz synthetisiert SynthRL über 3.300 zusätzliche verifizierbare, anspruchsvolle Fragen aus etwa 8.000 Ausgangsbeispielen. Modelle, die mit unseren synthetisierten Daten trainiert werden, erzielen konsistente Verbesserungen in fünf out-of-domain Benchmarks für visuelles mathematisches Reasoning, mit einer signifikanten Steigerung gegenüber Baseline-Modellen, die nur mit Ausgangsdaten trainiert wurden. Insbesondere zeigt eine detaillierte Analyse, dass die Verbesserungen bei den anspruchsvollsten Evaluierungsbeispielen deutlicher ausfallen, was die Effektivität von SynthRL bei der Förderung tieferer und komplexerer Reasoning-Muster unterstreicht.

GUI-Actor: Koordinatenfreie visuelle Verankerung für GUI-Agenten
GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents

Jun 3

ByQianhui Wu, Kanzhi Cheng, Rui Yang, Chaoyun Zhang, Jianwei Yang, Huiqiang Jiang, Jian Mu, Baolin Peng, Bo Qiao, Reuben Tan, Si Qin, Lars Liden, Qingwei Lin, Huan Zhang, Tong Zhang, Jianbing Zhang, Dongmei Zhang, Jianfeng Gao

Eine der Hauptherausforderungen beim Aufbau von GUI-Agenten, die auf visuellen Sprachmodellen (VLM) basieren, ist die visuelle Verankerung, d.h. die Lokalisierung des geeigneten Bildschirmbereichs für die Ausführung von Aktionen basierend auf dem visuellen Inhalt und den textuellen Plänen. Die meisten bestehenden Arbeiten formulieren dies als eine textbasierte Koordinatengenerierungsaufgabe. Diese Ansätze leiden jedoch unter mehreren Einschränkungen: schwache räumlich-semantische Ausrichtung, Unfähigkeit, mehrdeutige Überwachungsziele zu handhaben, und eine Diskrepanz zwischen der dichten Natur von Bildschirmkoordinaten und der groben, patch-basierten Granularität der visuellen Merkmale, die von Modellen wie Vision Transformern extrahiert werden. In diesem Artikel schlagen wir GUI-Actor vor, eine VLM-basierte Methode für die koordinatenfreie GUI-Verankerung. Kernstück von GUI-Actor ist ein aufmerksamkeitsbasiertes Aktionsmodul, das lernt, einen dedizierten <ACTOR>-Token mit allen relevanten visuellen Patch-Tokens auszurichten, wodurch das Modell in der Lage ist, einen oder mehrere Aktionsbereiche in einem einzigen Vorwärtsdurchlauf vorzuschlagen. In diesem Zusammenhang entwerfen wir weiterhin einen Verankerungsprüfer, um den plausibelsten Aktionsbereich aus den vorgeschlagenen Kandidaten für die Aktionsausführung zu bewerten und auszuwählen. Umfangreiche Experimente zeigen, dass GUI-Actor bisherige state-of-the-art Methoden auf mehreren GUI-Aktionsverankerungs-Benchmarks übertrifft, mit verbesserter Generalisierung auf ungesehene Bildschirmauflösungen und -layouts. Bemerkenswerterweise übertrifft GUI-Actor-7B sogar UI-TARS-72B (38.1) auf ScreenSpot-Pro, mit Werten von 40.7 bei Verwendung von Qwen2-VL und 44.6 mit Qwen2.5-VL als Backbone. Darüber hinaus stellen wir fest, dass durch die Einbindung des Prüfers das Feinabstimmen nur des neu eingeführten Aktionsmoduls (~100M Parameter für das 7B-Modell) bei gleichzeitigem Einfrieren des VLM-Backbones ausreicht, um eine Leistung zu erzielen, die mit früheren state-of-the-art Modellen vergleichbar ist. Dies unterstreicht, dass GUI-Actor dem zugrunde liegenden VLM effektive Verankerungsfähigkeiten verleihen kann, ohne dessen allgemeine Stärken zu beeinträchtigen.

CSVQA: Ein chinesischer multimodaler Benchmark zur Bewertung der STEM-Argumentationsfähigkeiten von VLMs
CSVQA: A Chinese Multimodal Benchmark for Evaluating STEM Reasoning Capabilities of VLMs

May 30

ByAi Jian, Weijie Qiu, Xiaokun Wang, Peiyu Wang, Yunzhuo Hao, Jiangbo Pei, Yichen Wei, Yi Peng, Xuchen Song

Vision-Language Models (VLMs) haben bemerkenswerte Fortschritte im multimodalen Verständnis gezeigt, doch ihre Fähigkeiten zur wissenschaftlichen Argumentation bleiben unzureichend bewertet. Aktuelle multimodale Benchmarks bewerten hauptsächlich generelles Bildverständnis oder textgesteuerte Argumentation und mangeln an authentischen wissenschaftlichen Kontexten, die die Integration von domänenspezifischem Wissen mit der Analyse visueller Beweise erfordern. Um diese Lücke zu schließen, präsentieren wir CSVQA, einen diagnostischen multimodalen Benchmark, der speziell zur Bewertung wissenschaftlicher Argumentation durch domänenbezogenes visuelles Frage-Antworten entwickelt wurde. Unser Benchmark umfasst 1.378 sorgfältig konstruierte Frage-Antwort-Paare aus verschiedenen MINT-Disziplinen, die jeweils Domänenwissen, die Integration visueller Beweise und höhere Argumentationsfähigkeiten erfordern. Im Vergleich zu früheren multimodalen Benchmarks legt CSVQA größeren Wert auf realistische wissenschaftliche Inhalte und komplexe Argumentation. Zusätzlich schlagen wir ein rigoroses Evaluationsprotokoll vor, um systematisch zu bewerten, ob Modellvorhersagen durch gültige Zwischenschritte der Argumentation gestützt werden, basierend auf kuratierten Erklärungen. Unsere umfassende Bewertung von 15 VLMs anhand dieses Benchmarks zeigt bemerkenswerte Leistungsunterschiede, da selbst das bestplatzierte proprietäre Modell nur eine Genauigkeit von 49,6\% erreicht. Diese empirischen Belege unterstreichen den dringenden Bedarf an Fortschritten in den wissenschaftlichen Argumentationsfähigkeiten von VLMs. Unser CSVQA ist unter https://huggingface.co/datasets/Skywork/CSVQA veröffentlicht.

OmniSpatial: Auf dem Weg zu einem umfassenden Benchmark für räumliches Denken in visuell-sprachlichen Modellen
OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

Jun 3

ByMengdi Jia, Zekun Qi, Shaochen Zhang, Wenyao Zhang, Xinqiang Yu, Jiawei He, He Wang, Li Yi

Räumliches Denken ist ein zentraler Aspekt der kognitiven Psychologie und bleibt ein wesentlicher Engpass für aktuelle Vision-Language-Modelle (VLMs). Während umfangreiche Forschung darauf abzielt, das Verständnis von VLMs für grundlegende räumliche Beziehungen zu bewerten oder zu verbessern, wie beispielsweise die Unterscheidung von links und rechts, nah und fern sowie das Zählen von Objekten, repräsentieren diese Aufgaben lediglich die grundlegendste Ebene des räumlichen Denkens. In dieser Arbeit stellen wir OmniSpatial vor, einen umfassenden und anspruchsvollen Benchmark für räumliches Denken, der in der kognitiven Psychologie verankert ist. OmniSpatial deckt vier Hauptkategorien ab: dynamisches Denken, komplexe räumliche Logik, räumliche Interaktion und Perspektivenübernahme, mit 50 fein abgestuften Unterkategorien. Durch das Crawlen von Internetdaten und sorgfältige manuelle Annotation konstruieren wir über 1.500 Frage-Antwort-Paare. Umfangreiche Experimente zeigen, dass sowohl Open-Source- als auch Closed-Source-VLMs sowie bestehende Modelle für logisches und räumliches Verständnis erhebliche Einschränkungen im umfassenden räumlichen Verständnis aufweisen. Wir analysieren weiterhin Fehlerfälle und schlagen potenzielle Richtungen für zukünftige Forschung vor.

OThink-R1: Intrinsischer Wechsel zwischen schnellem/langsamem Denkmodus zur Minderung von Überdenken
OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

Jun 3

ByShengjia Zhang, Junjie Wu, Jiawei Chen, Changwang Zhang, Xingyu Lou, Wangchunshu Zhou, Sheng Zhou, Can Wang, Jun Wang

Aktuelle fortschrittliche große Denkmodelle (Large Reasoning Models, LRMs) nutzen erweiterte Ketten von Gedanken (Chain-of-Thought, CoT), um komplexe Aufgaben zu lösen und dabei Spitzenleistungen zu erzielen. Trotz ihres Erfolgs identifizieren wir ein kritisches Problem: Ein erheblicher Teil der einfachen Aufgaben, die von LRMs gelöst werden, kann auch von nicht-reasoning LLMs (Large Language Models) mit deutlich weniger Tokens bewältigt werden, was darauf hindeutet, dass komplexes Denken nicht immer notwendig ist. Um dies zu adressieren, analysieren wir systematisch die Denkpfade von LRMs und stellen eine Methode vor, die identifizierte Paradigmen und LLM-Judge nutzt, um diese Pfade als entweder Redundantes Denken oder Essenzielles Denken zu klassifizieren. Zudem führen wir OThink-R1 ein, eine Methode, die redundante Denkschritte entfernt, während die logische Gültigkeit erhalten bleibt. OThink-R1 setzt dynamisch den Nicht-Denk-Modus (schnelles Denken) für einfache Probleme ein, während es für komplexe Probleme bewusstes Denken (langsames Denken) aktiviert. Experimente in mathematischen und Frage-Antwort-Aufgaben zeigen, dass OThink-R1 die Redundanz im Denken im Durchschnitt um fast 23 % reduziert, ohne die Genauigkeit zu beeinträchtigen, und bietet praktische Leitlinien für effiziente Denkmodelle. Der Code ist verfügbar unter https://github.com/AgenticIR-Lab/OThink-R1.

FinMME: Benchmark-Datensatz für die Bewertung finanzieller Multi-Modaler Argumentation
FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation

May 30

ByJunyu Luo, Zhizhuo Kou, Liming Yang, Xiao Luo, Jinsheng Huang, Zhiping Xiao, Jingshu Peng, Chengzhong Liu, Jiaming Ji, Xuanzhe Liu, Sirui Han, Ming Zhang, Yike Guo

Multimodale Large Language Models (MLLMs) haben in den letzten Jahren eine rasante Entwicklung erfahren. Im Finanzbereich besteht jedoch ein bemerkenswerter Mangel an effektiven und spezialisierten multimodalen Evaluierungsdatensätzen. Um die Entwicklung von MLLMs im Finanzbereich voranzutreiben, stellen wir FinMME vor, das mehr als 11.000 hochwertige Finanzforschungsproben aus 18 Finanzbereichen und 6 Anlageklassen umfasst und 10 Haupttypen sowie 21 Untertypen von Diagrammen beinhaltet. Wir sichern die Datenqualität durch 20 Annotatoren und sorgfältig gestaltete Validierungsmechanismen. Zudem entwickeln wir FinScore, ein Bewertungssystem, das Halluzinationsstrafen und mehrdimensionale Fähigkeitsbewertungen integriert, um eine unvoreingenommene Bewertung zu ermöglichen. Umfangreiche experimentelle Ergebnisse zeigen, dass selbst state-of-the-art Modelle wie GPT-4o auf FinMME unbefriedigende Leistungen erbringen, was dessen anspruchsvolle Natur unterstreicht. Der Benchmark weist eine hohe Robustheit auf, wobei die Vorhersagevariationen unter verschiedenen Prompts unter 1 % bleiben, was eine überlegene Zuverlässigkeit im Vergleich zu bestehenden Datensätzen demonstriert. Unser Datensatz und das Evaluierungsprotokoll sind verfügbar unter https://huggingface.co/datasets/luojunyu/FinMME und https://github.com/luo-junyu/FinMME.

Visuelles verkörpertes Gehirn: Lassen Sie multimodale große Sprachmodelle sehen, denken und in Räumen steuern
Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces

May 30

ByGen Luo, Ganlin Yang, Ziyang Gong, Guanzhou Chen, Haonan Duan, Erfei Cui, Ronglei Tong, Zhi Hou, Tianyi Zhang, Zhe Chen, Shenglong Ye, Lewei Lu, Jingbo Wang, Wenhai Wang, Jifeng Dai, Yu Qiao, Rongrong Ji, Xizhou Zhu

Die bemerkenswerten Fortschritte von Multimodalen Großen Sprachmodellen (MLLMs) haben zunehmend Aufmerksamkeit darauf gelenkt, diese auf physische Entitäten wie Laufroboter zu erweitern. Dies erfordert typischerweise, dass MLLMs nicht nur multimodale Verständnisfähigkeiten erlangen, sondern auch visuell-räumliches Denken und Fähigkeiten zur physischen Interaktion integrieren. Dennoch haben bestehende Methoden Schwierigkeiten, diese Fähigkeiten aufgrund ihrer grundlegenden Unterschiede zu vereinheitlichen. In diesem Artikel stellen wir das Visuelle Verkörperte Gehirn (VeBrain) vor, ein einheitliches Framework für Wahrnehmung, Denken und Steuerung in der realen Welt. VeBrain formuliert die Robotersteuerung in gängige textbasierte MLLM-Aufgaben im 2D-Visualraum um und vereinheitlicht so die Ziele und Abbildungsräume verschiedener Aufgaben. Anschließend wird ein neuartiger Roboter-Adapter vorgeschlagen, um textbasierte Steuersignale von MLLMs in Bewegungsrichtlinien für echte Roboter umzuwandeln. Aus der Datenperspektive führen wir weiterhin VeBrain-600k ein, einen hochwertigen Instruktionsdatensatz, der verschiedene Fähigkeiten von VeBrain umfasst. In VeBrain-600k haben wir hunderte Stunden darauf verwendet, die Daten zu sammeln, zu kuratieren und zu annotieren, und haben multimodale Ketten des Denkens (CoT) verwendet, um die verschiedenen Fähigkeiten in eine einzige Konversation zu integrieren. Umfangreiche Experimente auf 13 multimodalen Benchmarks und 5 räumlichen Intelligenz-Benchmarks demonstrieren die überlegene Leistung von VeBrain im Vergleich zu bestehenden MLLMs wie Qwen2.5-VL. Bei der Implementierung auf Laufrobotern und Roboterarmen zeigt VeBrain im Vergleich zu bestehenden Methoden starke Anpassungsfähigkeit, Flexibilität und kompositionelle Fähigkeiten. Beispielsweise erzielt VeBrain im Vergleich zu Qwen2.5-VL nicht nur erhebliche Verbesserungen auf MMVet um +5,6 %, sondern übertrifft auch in Aufgaben mit Laufrobotern mit durchschnittlichen Gewinnen von +50 %.

DINGO: Eingeschränkte Inferenz für Diffusions-LLMs
DINGO: Constrained Inference for Diffusion LLMs

May 29

ByTarun Suresh, Debangshu Banerjee, Shubham Ugare, Sasa Misailovic, Gagandeep Singh

Diffusions-LLMs haben sich als vielversprechende Alternative zu konventionellen autoregressiven LLMs erwiesen und bieten ein erhebliches Potenzial für verbesserte Laufzeiteffizienz. Allerdings fehlt es bestehenden Diffusionsmodellen an der Fähigkeit, vom Benutzer spezifizierte formale Einschränkungen, wie reguläre Ausdrücke, nachweislich durchzusetzen, was sie für Aufgaben, die strukturierte Ausgaben erfordern, wie z. B. die Generierung von JSON mit festem Schema, unzuverlässig macht. Im Gegensatz zu autoregressiven Modellen, die Token sequenziell generieren, sagen Diffusions-LLMs einen Block von Token parallel vorher. Dieser Parallelismus macht traditionelle Algorithmen für eingeschränkte Dekodierung, die für die sequenzielle Token-Vorhersage entwickelt wurden, unwirksam bei der Bewahrung der wahren Ausgabeverteilung. Um diese Einschränkung zu überwinden, schlagen wir DINGO vor, eine auf dynamischer Programmierung basierende Strategie für eingeschränkte Dekodierung, die sowohl effizient als auch nachweislich verteilungserhaltend ist. DINGO ermöglicht die Stichprobenziehung von Ausgabezeichenfolgen mit der höchsten Wahrscheinlichkeit unter der vom Modell vorhergesagten Verteilung, während gleichzeitig alle vom Benutzer spezifizierten regulären Ausdrücke strikt erfüllt werden. Bei standardisierten Benchmarks für symbolische Mathematik und JSON-Generierung erreicht DINGO eine Verbesserung von bis zu 68 Prozentpunkten gegenüber unbegrenzter Inferenz.

MotionSight: Verbesserung des feinkörnigen Bewegungsverständnisses in multimodalen LLMs
MotionSight: Boosting Fine-Grained Motion Understanding in Multimodal LLMs

Jun 2

ByYipeng Du, Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Xiang Li, Jian Yang, Zhenheng Yang, Ying Tai

Trotz Fortschritten bei Multimodalen Großen Sprachmodellen (MLLMs) bleibt ihre Fähigkeit zum feinkörnigen Verständnis von Videobewegungen kritisch eingeschränkt. Oft fehlt ihnen die Differenzierung zwischen Bildern, und sie neigen dazu, subtile visuelle Hinweise zu mitteln oder zu ignorieren. Darüber hinaus hat sich visuelles Prompting zwar bei statischen Bildern als vielversprechend erwiesen, seine Anwendung auf die zeitlichen Komplexitäten von Videos, insbesondere für das feinkörnige Verständnis von Bewegung, ist jedoch weitgehend unerforscht. Wir untersuchen, ob inhärente Fähigkeiten freigesetzt werden können, um die Bewegungswahrnehmung von MLLMs zu verbessern und spezifische visuelle Signaturen zu ermöglichen, die dazu dienen, Objekt- und Kamerabewegungshinweise zu entkoppeln. In dieser Studie stellen wir MotionSight vor, eine neuartige Zero-Shot-Methode, die objektzentrierte visuelle Spotlight- und Bewegungsunschärfe als visuelle Prompts nutzt, um das feinkörnige Bewegungsverständnis effektiv ohne Training zu verbessern. Um dies in wertvolle Datenbestände umzuwandeln, haben wir MotionVid-QA kuratiert, den ersten groß angelegten Datensatz für das feinkörnige Verständnis von Videobewegungen, mit hierarchischen Annotationen, einschließlich SFT- und Präferenzdaten, {\Theta}(40K) Videoclips und {\Theta}(87K) Fragen und Antworten (QAs). Experimente zeigen, dass MotionSight state-of-the-art Open-Source-Leistungen erreicht und mit kommerziellen Modellen wettbewerbsfähig ist. Insbesondere für das feinkörnige Bewegungsverständnis präsentieren wir eine neuartige Zero-Shot-Technik und einen groß angelegten, hochwertigen Datensatz. Der gesamte Code und die Annotationen werden öffentlich zugänglich sein.

Robot-R1: Verstärkendes Lernen zur verbesserten verkörperten Entscheidungsfindung in der Robotik
Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics

May 29

ByDongyoung Kim, Sumin Park, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo

Große Vision-Sprach-Modelle (Large Vision-Language Models, LVLMs) haben kürzlich großes Potenzial gezeigt, um die Robotik voranzutreiben, indem sie verkörpertes Denken mit der Robotersteuerung kombinieren. Ein gängiger Ansatz besteht darin, Modelle an verkörperten Denkaufgaben im Zusammenhang mit der Robotersteuerung mittels Supervised Fine-Tuning (SFT) zu trainieren. Allerdings werden SFT-Datensätze oft heuristisch konstruiert und nicht explizit für die Verbesserung der Robotersteuerung optimiert. Darüber hinaus führt SFT häufig zu Problemen wie katastrophalem Vergessen und reduzierter Generalisierungsleistung. Um diese Einschränkungen zu überwinden, stellen wir Robot-R1 vor, ein neuartiges Framework, das Verstärkungslernen nutzt, um verkörpertes Denken speziell für die Robotersteuerung zu verbessern. Robot-R1 lernt, den nächsten Schlüsselpunktzustand vorherzusagen, der zur Aufgabenbewältigung erforderlich ist, basierend auf dem aktuellen Szenenbild und Umgebungsmetadaten, die aus Experten-Demonstrationen abgeleitet werden. Inspiriert vom DeepSeek-R1-Lernansatz, generiert Robot-R1 denkbasierte Antworten und verstärkt solche, die zu genaueren Vorhersagen führen. Unsere Experimente zeigen, dass mit Robot-R1 trainierte Modelle SFT-Methoden bei verkörperten Denkaufgaben übertreffen. Trotz nur 7B Parametern übertrifft Robot-R1 sogar GPT-4o bei Denkaufgaben im Zusammenhang mit der Steuerung von Low-Level-Aktionen, wie z. B. räumlichem und primitivem Bewegungsdenken.

Sparse-vDiT: Die Kraft der Sparse-Attention nutzen, um Video-Diffusion-Transformer zu beschleunigen
Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers

Jun 3

ByPengtao Chen, Xianfang Zeng, Maosen Zhao, Peng Ye, Mingzhu Shen, Wei Cheng, Gang Yu, Tao Chen

Während Diffusion Transformer (DiTs) Durchbrüche in der Videogenerierung erzielt haben, bleibt diese Aufgabe der langen Sequenzgenerierung durch die quadratische Komplexität von Aufmerksamkeitsmechanismen eingeschränkt, was zu erheblicher Inferenzlatenz führt. Durch eine detaillierte Analyse der Aufmerksamkeitskarten in Video Diffusion Transformer (vDiT) identifizieren wir drei wiederkehrende Sparsamkeitsmuster: diagonale, multi-diagonale und vertikal-streifige Strukturen. Selbst 3-6\% der Aufmerksamkeitsköpfe können übersprungen werden. Entscheidend ist, dass diese Muster starke Korrelationen mit der Schichttiefe und der Kopfposition aufweisen, aber nur begrenzt vom Eingabeinhalt abhängen. Basierend auf diesen Erkenntnissen schlagen wir Sparse-vDiT vor, ein Sparsamkeitsbeschleunigungsframework für vDiT, das Folgendes umfasst: 1) Musteroptimierte spärliche Kernel, die die dichte Aufmerksamkeit durch recheneffiziente Implementierungen für jedes identifizierte Sparsamkeitsmuster ersetzen. 2) Ein offline spärlicher Diffusionssuchalgorithmus, der die optimale spärliche Berechnungsstrategie pro Schicht und Kopf über hardwarebewusste Kostenmodellierung auswählt. Nach der Bestimmung der optimalen Konfiguration fusionieren wir Köpfe innerhalb derselben Schicht, die dieselbe Aufmerksamkeitsstrategie teilen, um die Inferenzeffizienz zu steigern. In state-of-the-art vDiT-Modellen (CogVideoX1.5, HunyuanVideo und Wan2.1) integriert, erreicht Sparse-vDiT eine theoretische FLOP-Reduktion um das 2,09-fache, 2,38-fache und 1,67-fache sowie tatsächliche Inferenzbeschleunigungen um das 1,76-fache, 1,85-fache und 1,58-fache, während eine hohe visuelle Qualität mit PSNR-Werten von 24,13, 27,09 und 22,59 erhalten bleibt. Unsere Arbeit zeigt, dass latente strukturelle Sparsamkeit in vDiTs systematisch für die Synthese langer Videos genutzt werden kann.

Co-Evolution von LLM-Codierer und Unit-Tester durch Reinforcement Learning
Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning

Jun 3

ByYinjie Wang, Ling Yang, Ye Tian, Ke Shen, Mengdi Wang

Wir stellen CURE vor, ein neuartiges Reinforcement-Learning-Framework mit einem speziellen Reward-Design, das die Fähigkeiten zur Code- und Unit-Test-Generierung basierend auf ihren Interaktionsergebnissen ko-evolviert, ohne dabei auf Ground-Truth-Code als Supervision angewiesen zu sein. Dieser Ansatz ermöglicht ein flexibles und skalierbares Training und erlaubt es dem Unit-Tester, direkt aus den Fehlern des Coders zu lernen. Unsere abgeleiteten ReasonFlux-Coder-7B- und 14B-Modelle verbessern die Code-Generierungsgenauigkeit um 5,3 % und die Best-of-N-Genauigkeit um 9,0 % nach der Optimierung auf Qwen2.5-Instruct-Modellen und übertreffen damit ähnlich große Modelle wie Qwen-Coder, DeepSeek-Coder und Seed-Coder. Sie lassen sich natürlich auf nachgelagerte Aufgaben wie Test-Time-Scaling und agentenbasiertes Codieren erweitern – mit einer Verbesserung von 8,1 % gegenüber dem Basismodell. Beim Long-CoT-Modell übertrifft unser ReasonFlux-Coder-4B durchgehend Qwen3-4B und erreicht dabei eine Inferenzeffizienz von 64,8 % bei der Unit-Test-Generierung. Bemerkenswerterweise stellen wir auch fest, dass unser Modell als effektives Reward-Modell für Reinforcement-Learning auf Basismodellen dienen kann. Projekt: https://github.com/Gen-Verse/CURE

Negative-geführte Subjekttreue-Optimierung für null-Shot Subjektgetriebene Generierung
Negative-Guided Subject Fidelity Optimization for Zero-Shot Subject-Driven Generation

Jun 4

ByChaehun Shin, Jooyoung Choi, Johan Barthelemy, Jungbeom Lee, Sungroh Yoon

Wir präsentieren Subject Fidelity Optimization (SFO), ein neuartiges vergleichendes Lernframework für die null-Shot-subjektgesteuerte Generierung, das die Subjekttreue verbessert. Im Gegensatz zu überwachten Feinabstimmungsmethoden, die sich ausschließlich auf positive Ziele verlassen und den Diffusionsverlust wie in der Vorabtrainingsphase verwenden, führt SFO synthetische negative Ziele ein und leitet das Modell explizit an, positive gegenüber negativen Zielen durch paarweisen Vergleich zu bevorzugen. Für negative Ziele schlagen wir Condition-Degradation Negative Sampling (CDNS) vor, das automatisch unterscheidbare und informative Negative erzeugt, indem visuelle und textuelle Hinweise absichtlich verschlechtert werden, ohne kostspielige menschliche Annotationen. Darüber hinaus gewichten wir die Diffusionszeitpunkte neu, um die Feinabstimmung auf Zwischenschritte zu konzentrieren, in denen Subjektdetails entstehen. Umfangreiche Experimente zeigen, dass SFO mit CDNS die Baselines sowohl in Bezug auf die Subjekttreue als auch auf die Textausrichtung auf einem Benchmark für subjektgesteuerte Generierung deutlich übertrifft. Projektseite: https://subjectfidelityoptimization.github.io/

AnimeShooter: Ein Multi-Shot-Animationsdatensatz für referenzgesteuerte Videogenerierung
AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation

Jun 3

ByLu Qiu, Yizhuo Li, Yuying Ge, Yixiao Ge, Ying Shan, Xihui Liu

Jüngste Fortschritte bei KI-generierten Inhalten (AIGC) haben die Animationproduktion erheblich beschleunigt. Um ansprechende Animationen zu erstellen, ist es entscheidend, kohärente Mehrfach-Szenen-Videoclips mit narrativen Skripten und Charakterreferenzen zu generieren. Bisher konzentrieren sich öffentlich verfügbare Datensätze jedoch hauptsächlich auf reale Szenarien mit globalen Beschreibungen und bieten keine Referenzbilder für eine konsistente Charakterführung. Um diese Lücke zu schließen, präsentieren wir AnimeShooter, einen referenzgesteuerten Mehrfach-Szenen-Animation-Datensatz. AnimeShooter zeichnet sich durch umfassende hierarchische Annotationen und eine starke visuelle Konsistenz über Szenen hinweg durch einen automatisierten Prozess aus. Story-Level-Annotationen bieten einen Überblick über die Erzählung, einschließlich der Handlung, Schlüsselszenen und Hauptcharakterprofile mit Referenzbildern, während Shot-Level-Annotationen die Geschichte in aufeinanderfolgende Szenen zerlegen, die jeweils mit Szene, Charakteren sowie narrativen und beschreibenden visuellen Beschriftungen annotiert sind. Zusätzlich bietet ein spezieller Subset, AnimeShooter-audio, synchronisierte Audiospuren für jede Szene sowie Audiobeschreibungen und Soundquellen. Um die Effektivität von AnimeShooter zu demonstrieren und eine Baseline für die referenzgesteuerte Mehrfach-Szenen-Videogenerierung zu etablieren, führen wir AnimeShooterGen ein, das Multimodale Große Sprachmodelle (MLLMs) und Video-Diffusionsmodelle nutzt. Das Referenzbild und zuvor generierte Szenen werden zunächst von MLLM verarbeitet, um repräsentationsfähige Informationen zu erzeugen, die sowohl die Referenz als auch den Kontext berücksichtigen. Diese werden dann als Bedingung für das Diffusionsmodell verwendet, um die nachfolgende Szene zu dekodieren. Experimentelle Ergebnisse zeigen, dass das auf AnimeShooter trainierte Modell eine überlegene visuelle Konsistenz über Szenen hinweg und eine hohe Übereinstimmung mit der visuellen Referenzführung erreicht, was den Wert unseres Datensatzes für die kohärente animierte Videogenerierung unterstreicht.

Native-Resolution-Bildsynthese
Native-Resolution Image Synthesis

Jun 3

ByZidong Wang, Lei Bai, Xiangyu Yue, Wanli Ouyang, Yiyuan Zhang

Wir stellen die native Auflösungsbildsynthese vor, ein neuartiges Paradigma der generativen Modellierung, das die Synthese von Bildern in beliebigen Auflösungen und Seitenverhältnissen ermöglicht. Dieser Ansatz überwindet die Einschränkungen herkömmlicher Methoden mit festen Auflösungen und quadratischen Bildern, indem er nativ mit variablen visuellen Tokens umgeht, einer zentralen Herausforderung für traditionelle Techniken. Zu diesem Zweck führen wir den Native-resolution Diffusion Transformer (NiT) ein, eine Architektur, die explizit darauf ausgelegt ist, unterschiedliche Auflösungen und Seitenverhältnisse innerhalb ihres Denoising-Prozesses zu modellieren. Frei von den Beschränkungen fester Formate lernt NiT intrinsische visuelle Verteilungen aus Bildern, die eine breite Palette von Auflösungen und Seitenverhältnissen abdecken. Bemerkenswerterweise erreicht ein einzelnes NiT-Modell gleichzeitig die state-of-the-art Leistung auf den Benchmarks ImageNet-256x256 und 512x512. Überraschenderweise zeigt NiT, ähnlich wie die robusten Zero-Shot-Fähigkeiten fortschrittlicher großer Sprachmodelle, eine hervorragende Zero-Shot-Generalisierungsleistung, obwohl es ausschließlich auf ImageNet trainiert wurde. Es generiert erfolgreich hochauflösende Bilder in zuvor ungesehenen hohen Auflösungen (z. B. 1536 x 1536) und vielfältigen Seitenverhältnissen (z. B. 16:9, 3:1, 4:3), wie in Abbildung 1 dargestellt. Diese Ergebnisse deuten auf das erhebliche Potenzial der nativen Auflösungsmodellierung als Brücke zwischen visueller generativer Modellierung und fortgeschrittenen LLM-Methodologien hin.

LumosFlow: Bewegungsgesteuerte Erzeugung langer Videos
LumosFlow: Motion-Guided Long Video Generation

Jun 3

ByJiahao Chen, Hangjie Yuan, Yichen Qian, Jingyun Liang, Jiazheng Xing, Pengwei Liu, Weihua Chen, Fan Wang, Bing Su

Die Erzeugung langer Videos hat aufgrund ihrer weit verbreiteten Anwendungen in Bereichen wie Unterhaltung und Simulation zunehmend an Bedeutung gewonnen. Trotz Fortschritten bleibt die Synthese zeitlich kohärenter und visuell ansprechender langer Sequenzen eine große Herausforderung. Herkömmliche Ansätze erzeugen lange Videos oft durch sequenzielle Generierung und Verkettung kurzer Clips oder durch die Generierung von Schlüsselbildern und anschließende Interpolation der Zwischenbilder in hierarchischer Weise. Beide Ansätze bergen jedoch weiterhin erhebliche Herausforderungen, die zu Problemen wie zeitlicher Wiederholung oder unnatürlichen Übergängen führen. In diesem Beitrag untersuchen wir den hierarchischen Prozess zur Erzeugung langer Videos erneut und stellen LumosFlow vor, ein Framework, das explizit Bewegungsführung einführt. Konkret verwenden wir zunächst das Large Motion Text-to-Video Diffusion Model (LMTV-DM), um Schlüsselbilder mit größeren Bewegungsintervallen zu generieren und so die Inhaltsvielfalt in den erzeugten langen Videos sicherzustellen. Angesichts der Komplexität der Interpolation kontextueller Übergänge zwischen Schlüsselbildern zerlegen wir die Interpolation der Zwischenbilder weiter in Bewegungsgenerierung und nachträgliche Verfeinerung. Für jedes Paar von Schlüsselbildern synthetisiert das Latent Optical Flow Diffusion Model (LOF-DM) komplexe und großräumige optische Flüsse, während MotionControlNet anschließend die verzerrten Ergebnisse verfeinert, um die Qualität zu verbessern und die Generierung der Zwischenbilder zu steuern. Im Vergleich zur traditionellen Video-Interpolation erreichen wir eine 15-fache Interpolation und gewährleisten so eine sinnvolle und kontinuierliche Bewegung zwischen benachbarten Bildern. Experimente zeigen, dass unsere Methode lange Videos mit konsistenter Bewegung und Erscheinung erzeugen kann. Code und Modelle werden nach der Annahme öffentlich zugänglich gemacht. Unsere Projektseite: https://jiahaochen1.github.io/LumosFlow/

RelationAdapter: Lernen und Übertragen visueller Beziehungen mit Diffusions-Transformern
RelationAdapter: Learning and Transferring Visual Relation with Diffusion Transformers

Jun 3

ByYan Gong, Yiren Song, Yicheng Li, Chenglin Li, Yin Zhang

Inspiriert vom In-Context-Learning-Mechanismus großer Sprachmodelle (LLMs) entsteht ein neues Paradigma für generalisierbare, visuelle prompt-basierte Bildbearbeitung. Bestehende Single-Reference-Methoden konzentrieren sich typischerweise auf Stil- oder Erscheinungsanpassungen und haben Schwierigkeiten mit nicht-starren Transformationen. Um diese Einschränkungen zu überwinden, schlagen wir vor, Quell-Ziel-Bildpaare zu nutzen, um inhaltsbewusste Bearbeitungsabsichten zu extrahieren und auf neue Anfragebilder zu übertragen. Zu diesem Zweck führen wir RelationAdapter ein, ein leichtgewichtiges Modul, das Diffusion-Transformer (DiT)-basierte Modelle befähigt, visuelle Transformationen aus minimalen Beispielen effektiv zu erfassen und anzuwenden. Zudem stellen wir Relation252K vor, einen umfassenden Datensatz, der 218 verschiedene Bearbeitungsaufgaben umfasst, um die Modellgeneralisierung und Anpassungsfähigkeit in visuellen prompt-gesteuerten Szenarien zu bewerten. Experimente auf Relation252K zeigen, dass RelationAdapter die Fähigkeit des Modells, Bearbeitungsabsichten zu verstehen und zu übertragen, signifikant verbessert, was zu bemerkenswerten Fortschritten in der Generierungsqualität und der Gesamtleistung der Bearbeitung führt.

DCM: Dual-Expert-Konsistenzmodell für effiziente und hochwertige Videogenerierung
DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation

Jun 3

ByZhengyao Lv, Chenyang Si, Tianlin Pan, Zhaoxi Chen, Kwan-Yee K. Wong, Yu Qiao, Ziwei Liu

Diffusionsmodelle haben bemerkenswerte Ergebnisse in der Videosynthese erzielt, erfordern jedoch iterative Denoising-Schritte, was zu einem erheblichen Rechenaufwand führt. Konsistenzmodelle haben bedeutende Fortschritte bei der Beschleunigung von Diffusionsmodellen gemacht. Die direkte Anwendung auf Video-Diffusionsmodelle führt jedoch oft zu einer erheblichen Verschlechterung der zeitlichen Konsistenz und der Erscheinungsdetails. In dieser Arbeit analysieren wir die Trainingsdynamik von Konsistenzmodellen und identifizieren einen zentralen Konflikt in der Lern dynamik während des Destillationsprozesses: Es gibt eine erhebliche Diskrepanz in den Optimierungsgradienten und den Verlustbeiträgen über verschiedene Zeitschritte hinweg. Diese Diskrepanz verhindert, dass das destillierte Schülermodell einen optimalen Zustand erreicht, was zu einer beeinträchtigten zeitlichen Konsistenz und einer Verschlechterung der Erscheinungsdetails führt. Um dieses Problem zu lösen, schlagen wir ein parameter effizientes Dual-Expert-Konsistenzmodell (DCM) vor, bei dem ein semantischer Experte sich auf das Lernen von semantischer Anordnung und Bewegung konzentriert, während ein Detail-Experte sich auf die Verfeinerung feiner Details spezialisiert. Darüber hinaus führen wir den Temporal Coherence Loss ein, um die Bewegungskonsistenz für den semantischen Experten zu verbessern, und wenden GAN- und Feature-Matching-Loss an, um die Synthesequalität des Detail-Experten zu steigern. Unser Ansatz erreicht eine erstklassige visuelle Qualität bei deutlich reduzierten Sampling-Schritten und demonstriert die Wirksamkeit der Experten-Spezialisierung in der Destillation von Video-Diffusionsmodellen. Unser Code und unsere Modelle sind verfügbar unter https://github.com/Vchitect/DCM{https://github.com/Vchitect/DCM}.

Datenblätter reichen nicht aus: DataRubrics für automatisierte Qualitätsmetriken und Rechenschaftspflicht
Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability

Jun 2

ByGenta Indra Winata, David Anugraha, Emmy Liu, Alham Fikri Aji, Shou-Yi Hung, Aditya Parashar, Patrick Amadeus Irawan, Ruochen Zhang, Zheng-Xin Yong, Jan Christian Blaise Cruz, Niklas Muennighoff, Seungone Kim, Hanyang Zhao, Sudipta Kar, Kezia Erina Suryoraharjo, M. Farid Adilazuarda, En-Shiun Annie Lee, Ayu Purwarianti, Derry Tanti Wijaya, Monojit Choudhury

Hochwertige Datensätze sind grundlegend für das Training und die Bewertung von maschinellen Lernmodellen, doch ihre Erstellung – insbesondere mit präzisen menschlichen Annotationen – bleibt eine erhebliche Herausforderung. Viele Einreichungen von Datensatzpapers mangelt es an Originalität, Vielfalt oder strenger Qualitätskontrolle, und diese Mängel werden oft während des Peer-Review-Prozesses übersehen. Einreichungen lassen zudem häufig wesentliche Details zur Konstruktion und den Eigenschaften der Datensätze aus. Obwohl bestehende Tools wie Datasheets darauf abzielen, Transparenz zu fördern, sind sie weitgehend deskriptiv und bieten keine standardisierten, messbaren Methoden zur Bewertung der Datenqualität. Ebenso fördern Metadatenanforderungen auf Konferenzen die Rechenschaftspflicht, werden jedoch inkonsequent durchgesetzt. Um diese Einschränkungen zu adressieren, plädiert dieses Positionspapier für die Integration systematischer, kriterienbasierter Bewertungsmetriken in den Datensatz-Review-Prozess – insbesondere angesichts der weiter steigenden Einreichungszahlen. Wir untersuchen auch skalierbare, kosteneffiziente Methoden zur synthetischen Datengenerierung, einschließlich spezialisierter Tools und LLM-as-a-Judge-Ansätze, um eine effizientere Bewertung zu unterstützen. Als Aufruf zum Handeln stellen wir DataRubrics vor, ein strukturiertes Framework zur Bewertung der Qualität sowohl menschlich als auch modellgenerierter Datensätze. Durch die Nutzung jüngster Fortschritte in der LLM-basierten Bewertung bietet DataRubrics eine reproduzierbare, skalierbare und umsetzbare Lösung für die Bewertung der Datensatzqualität, die es sowohl Autoren als auch Gutachtern ermöglicht, höhere Standards in der datenzentrierten Forschung einzuhalten. Wir veröffentlichen zudem Code zur Unterstützung der Reproduzierbarkeit von LLM-basierten Bewertungen unter https://github.com/datarubrics/datarubrics.

FlowMo: Varianzbasierte Flusssteuerung für kohärente Bewegung in der Videogenerierung
FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation

Jun 1

ByAriel Shaulov, Itay Hazan, Lior Wolf, Hila Chefer

Text-to-Video-Diffusionsmodelle sind bekanntlich in ihrer Fähigkeit eingeschränkt, zeitliche Aspekte wie Bewegung, Physik und dynamische Interaktionen zu modellieren. Bestehende Ansätze adressieren diese Einschränkung, indem sie das Modell neu trainieren oder externe Konditionierungssignale einführen, um zeitliche Konsistenz zu erzwingen. In dieser Arbeit untersuchen wir, ob eine sinnvolle zeitliche Repräsentation direkt aus den Vorhersagen eines vortrainierten Modells extrahiert werden kann, ohne zusätzliches Training oder Hilfseingaben. Wir stellen FlowMo vor, eine neuartige, trainingsfreie Leitmethode, die die Bewegungskohärenz allein durch die eigenen Vorhersagen des Modells in jedem Diffusionsschritt verbessert. FlowMo leitet zunächst eine erscheinungsentlastete zeitliche Repräsentation ab, indem es den Abstand zwischen Latents, die aufeinanderfolgenden Frames entsprechen, misst. Dadurch wird die implizite zeitliche Struktur, die das Modell vorhersagt, hervorgehoben. Anschließend schätzt es die Bewegungskohärenz, indem es die patchweise Varianz über die zeitliche Dimension misst, und leitet das Modell an, diese Varianz während des Samplings dynamisch zu reduzieren. Umfangreiche Experimente mit mehreren Text-to-Video-Modellen zeigen, dass FlowMo die Bewegungskohärenz signifikant verbessert, ohne die visuelle Qualität oder die Prompt-Ausrichtung zu beeinträchtigen, und bietet somit eine effektive Plug-and-Play-Lösung zur Verbesserung der zeitlichen Treue vortrainierter Video-Diffusionsmodelle.

Training von Sprachmodellen zur Erzeugung qualitativ hochwertigen Codes mit Programmanalyse-Feedback
Training Language Models to Generate Quality Code with Program Analysis Feedback

May 28

ByFeng Yao, Zilong Wang, Liyuan Liu, Junxia Cui, Li Zhong, Xiaohan Fu, Haohui Mai, Vish Krishnan, Jianfeng Gao, Jingbo Shang

Die Codegenerierung mit großen Sprachmodellen (LLMs), oft auch als "Vibe Coding" bezeichnet, wird zunehmend in der Produktion eingesetzt, gewährleistet jedoch keine Codequalität, insbesondere in Bezug auf Sicherheit (z. B. SQL-Injection-Schwachstellen) und Wartbarkeit (z. B. fehlende Typannotationen). Bestehende Methoden, wie überwachtes Feinabstimmen und regelbasierte Nachbearbeitung, stützen sich auf arbeitsintensive Annotationen oder fragwürdige Heuristiken, was ihre Skalierbarkeit und Effektivität einschränkt. Wir schlagen REAL vor, ein Reinforcement-Learning-Framework, das LLMs dazu anregt, produktionsreifen Code mithilfe von programmanalysengeleitetem Feedback zu generieren. Konkret integriert REAL zwei automatisierte Signale: (1) Programmanalyse, die Sicherheits- oder Wartbarkeitsmängel erkennt, und (2) Unit-Tests, die die funktionale Korrektheit sicherstellen. Im Gegensatz zu früheren Arbeiten ist unser Framework prompt-agnostisch und referenzfrei, was eine skalierbare Überwachung ohne manuellen Eingriff ermöglicht. Experimente über mehrere Datensätze und Modellgrößen hinweg zeigen, dass REAL bei gleichzeitiger Bewertung von Funktionalität und Codequalität state-of-the-art-Methoden übertrifft. Unsere Arbeit schließt die Lücke zwischen schnellem Prototyping und produktionsreifem Code und ermöglicht es LLMs, sowohl Geschwindigkeit als auch Qualität zu liefern.

Ctrl-Crash: Kontrollierbare Diffusion für realistische Autounfälle
Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes

May 30

ByAnthony Gosselin, Ge Ya Luo, Luis Lara, Florian Golemo, Derek Nowrouzezahrai, Liam Paull, Alexia Jolicoeur-Martineau, Christopher Pal

Video-Diffusionstechniken haben in den letzten Jahren erhebliche Fortschritte gemacht; jedoch haben sie Schwierigkeiten, realistische Darstellungen von Autounfällen zu erzeugen, da Unfallereignisse in den meisten Fahrzeugdatensätzen nur selten vorkommen. Die Verbesserung der Verkehrssicherheit erfordert realistische und steuerbare Unfallsimulationen. Um dieses Problem zu lösen, schlagen wir Ctrl-Crash vor, ein steuerbares Modell zur Generierung von Autounfallvideos, das auf Signale wie Begrenzungsrahmen, Unfalltypen und ein initiales Bildframe konditioniert. Unser Ansatz ermöglicht die Generierung kontrafaktischer Szenarien, bei denen geringfügige Variationen in den Eingaben zu dramatisch unterschiedlichen Unfallergebnissen führen können. Um eine fein abgestimmte Steuerung zur Inferenzzeit zu unterstützen, nutzen wir eine klassifikatorfreie Führung mit unabhängig einstellbaren Skalen für jedes Konditionierungssignal. Ctrl-Crash erreicht Spitzenleistungen in quantitativen Videoqualitätsmetriken (z. B. FVD und JEDi) sowie in qualitativen Messungen, die auf einer menschlichen Bewertung des physikalischen Realismus und der Videoqualität im Vergleich zu früheren Diffusions-basierten Methoden basieren.

Selbstherausfordernde Sprachmodell-Agenten
Self-Challenging Language Model Agents

Jun 2

ByYifei Zhou, Sergey Levine, Jason Weston, Xian Li, Sainbayar Sukhbaatar

Große Sprachmodelle werden zunehmend zur Grundlage für intelligente Agenten, die in der Lage sind, Werkzeuge zu nutzen. Die Ausbildung solcher Agenten ist jedoch eine Herausforderung, da sie die menschliche Erstellung und Annotation einer Vielzahl von Aufgaben, Werkzeugen und Bewertungskriterien erfordert. In diesem Artikel schlagen wir das Self-Challenging-Framework vor, um einen Agenten an hochwertigen Aufgaben zu trainieren, die er selbst generiert. Der Agent übernimmt zunächst die Rolle des Herausforderers und erstellt eine Aufgabe nach der Interaktion mit den gegebenen Werkzeugen. Die Aufgaben nehmen die Form einer neuartigen allgemeinen Problemklasse an, die als Code-as-Task bezeichnet wird und durch eine Anweisung, eine Verifizierungsfunktion sowie Lösungs- und Fehlerfälle definiert ist, die als Tests dienen und es ermöglichen, nur hochwertige Aufgaben zu filtern. Anschließend übernimmt der Agent die Rolle des Ausführers und trainiert an diesen Aufgaben mit Verstärkungslernen, wobei das Bewertungsfeedback als Belohnung dient. Die Evaluierung auf zwei bestehenden Benchmarks für mehrstufige Werkzeugnutzung, M3ToolEval und TauBench, zeigt, dass das Self-Challenging-Framework eine mehr als zweifache Verbesserung in Llama-3.1-8B-Instruct erreicht, obwohl nur selbstgenerierte Trainingsdaten verwendet werden.

PCoreSet: Effektives aktives Lernen durch Wissensdistillation von Vision-Sprache-Modellen
PCoreSet: Effective Active Learning through Knowledge Distillation from Vision-Language Models

Jun 1

BySeongjae Kang, Dong Bok Lee, Hyungjoon Jang, Dongseop Kim, Sung Ju Hwang

Knowledge Distillation (KD) ist ein weit verbreitetes Framework, das kompakte, aufgaben-spezifische Modelle durch die Nutzung des Wissens von Lehrer-Modellen trainiert. Seine Anwendung auf Active Learning (AL), das darauf abzielt, Annotationkosten durch iterative Stichprobenauswahl zu minimieren, bleibt jedoch weitgehend unerforscht. Diese Lücke ergibt sich aus der Tatsache, dass KD typischerweise den Zugriff auf ausreichend gelabelte Daten voraussetzt, während AL in datenarmen Szenarien operiert, in denen aufgaben-spezifische Lehrer-Modelle oft nicht verfügbar sind. In diesem Artikel stellen wir ActiveKD vor, ein Framework, das AL mit KD integriert, indem es die Zero- und Few-Shot-Fähigkeiten großer Vision-Language-Modelle (VLMs) nutzt. Ein zentraler Aspekt von ActiveKD ist die strukturierte Vorhersageverzerrung von VLMs – d.h., ihre Vorhersagen bilden Cluster im Wahrscheinlichkeitsraum. Wir betrachten diese Struktur als einen induktiven Bias des Lehrer-Modells, der generalisierbare Ausgabemuster erfasst, die für das Lernen des Schülers vorteilhaft sind. Um diesen Bias zu nutzen, schlagen wir Probabilistic CoreSet (PCoreSet) vor, eine Auswahlstrategie, die die Abdeckung im Wahrscheinlichkeitsraum anstelle des Merkmalsraums maximiert. PCoreSet wählt strategisch kategorial diverse ungelabelte Stichproben aus und ermöglicht so einen effizienteren Transfer des Lehrerwissens unter begrenzten Annotationbudgets. Evaluierungen auf 11 Datensätzen zeigen, dass PCoreSet bestehende Auswahlmethoden innerhalb des ActiveKD-Frameworks konsequent übertrifft und die Forschung an der Schnittstelle von AL und KD vorantreibt.

SHARE: Ein hierarchischer Aktionskorrekturassistent für Text-zu-SQL basierend auf SLM
SHARE: An SLM-based Hierarchical Action CorREction Assistant for Text-to-SQL

May 31

ByGe Qu, Jinyang Li, Bowen Qin, Xiaolong Li, Nan Huo, Chenhao Ma, Reynold Cheng

Aktuelle Selbstkorrekturansätze in Text-zu-SQL stehen vor zwei kritischen Einschränkungen: 1) Konventionelle Selbstkorrekturmethoden stützen sich auf rekursive Selbstaufrufe von LLMs (Large Language Models), was zu einem multiplikativen Rechenaufwand führt, und 2) LLMs haben Schwierigkeiten, effektive Fehlererkennung und -korrektur für deklarative SQL-Abfragen zu implementieren, da sie den zugrunde liegenden Denkpfad nicht aufzeigen können. In dieser Arbeit schlagen wir SHARE vor, einen SLM-basierten hierarchischen Aktionskorrekturassistenten, der es LLMs ermöglicht, präzisere Fehlerlokalisierung und effiziente Korrektur durchzuführen. SHARE orchestriert drei spezialisierte Small Language Models (SLMs) in einer sequenziellen Pipeline, bei der zunächst deklarative SQL-Abfragen in schrittweise Aktionspfade transformiert werden, die den zugrunde liegenden Denkprozess offenlegen, gefolgt von einer zweiphasigen granularen Verfeinerung. Wir schlagen außerdem eine neuartige hierarchische Selbstentwicklungsstrategie für dateneffizientes Training vor. Experimentelle Ergebnisse zeigen, dass SHARE die Selbstkorrekturfähigkeiten effektiv verbessert und sich gleichzeitig robust über verschiedene LLMs hinweg erweist. Darüber hinaus zeigt unsere umfassende Analyse, dass SHARE auch in ressourcenarmen Trainingsumgebungen eine starke Leistung beibehält, was besonders für Text-zu-SQL-Anwendungen mit Datenschutzbeschränkungen wertvoll ist.

Bewegungsbewusste Konzeptausrichtung für konsistente Videobearbeitung
Motion-Aware Concept Alignment for Consistent Video Editing

Jun 1

ByTong Zhang, Juan C Leon Alcazar, Bernard Ghanem

Wir stellen MoCA-Video (Motion-Aware Concept Alignment in Video) vor, ein trainingsfreies Framework, das die Lücke zwischen semantischem Mischen im Bildbereich und Video schließt. Gegeben ein generiertes Video und ein vom Benutzer bereitgestelltes Referenzbild, injiziert MoCA-Video die semantischen Merkmale des Referenzbildes in ein spezifisches Objekt innerhalb des Videos, während die ursprüngliche Bewegung und der visuelle Kontext erhalten bleiben. Unser Ansatz nutzt einen diagonalen Entrauschungsplan und klassenagnostische Segmentierung, um Objekte im latenten Raum zu erkennen und zu verfolgen und die räumliche Position der gemischten Objekte präzise zu steuern. Um zeitliche Kohärenz zu gewährleisten, integrieren wir momentum-basierte semantische Korrekturen und Gamma-Restrauschstabilisierung für flüssige Übergänge zwischen den Bildern. Wir bewerten die Leistung von MoCA mit den Standardmetriken SSIM, bildbasiertem LPIPS, temporalem LPIPS und führen eine neue Metrik CASS (Conceptual Alignment Shift Score) ein, um die Konsistenz und Effektivität der visuellen Verschiebungen zwischen dem Quell-Prompt und den modifizierten Videobildern zu bewerten. Mit einem selbst erstellten Datensatz übertrifft MoCA-Video aktuelle Baselines und erreicht überlegene räumliche Konsistenz, kohärente Bewegung und einen signifikant höheren CASS-Wert, obwohl kein Training oder Fine-Tuning durchgeführt wurde. MoCA-Video demonstriert, dass strukturierte Manipulation in der Diffusionsrauschtrajektorie kontrollierbare, hochwertige Videosynthese ermöglicht.

Beschleunigung von Diffusions-LLMs durch adaptives paralleles Decodieren
Accelerating Diffusion LLMs via Adaptive Parallel Decoding

May 31

ByDaniel Israel, Guy Van den Broeck, Aditya Grover

Die Generierungsgeschwindigkeit von LLMs wird durch das autoregressive Decoding begrenzt, bei dem Token sequenziell nacheinander vorhergesagt werden. Alternativ ermöglichen Diffusion Large Language Models (dLLMs) theoretisch die parallele Token-Generierung, haben jedoch in der Praxis Schwierigkeiten, die Geschwindigkeit autoregressiver Modelle zu erreichen, ohne die Qualität erheblich zu beeinträchtigen. Daher führen wir das adaptive parallele Decoding (APD) ein, eine neuartige Methode, die die Anzahl der parallel abgetasteten Token dynamisch anpasst. Dies erreichen wir, indem wir eine multiplikative Mischung zwischen den marginalen Wahrscheinlichkeiten des dLLM und der gemeinsamen Wahrscheinlichkeit von Sequenzen unter einem kleinen, zusätzlichen autoregressiven Modell definieren. Dies kehrt das Standard-Setup des spekulativen Decodings um, bei dem das Ziel darin besteht, aus einem großen autoregressiven Verifizierer zu sampeln, indem Entwürfe aus einem kleineren Modell erstellt werden. Wir optimieren APD weiter, indem wir KV-Caching aktivieren und die Größe der maskierten Eingabe begrenzen. Insgesamt stellt unsere Methode drei einstellbare Parameter zur Verfügung, um flexibel zwischen Durchsatz und Qualität abzuwägen. Wir zeigen, dass APD einen deutlich höheren Durchsatz bei minimalen Qualitätseinbußen in nachgelagerten Benchmarks bietet.

ORV: 4D belegungszentrierte Robotervideogenerierung
ORV: 4D Occupancy-centric Robot Video Generation

Jun 3

ByXiuyu Yang, Bohan Li, Shaocong Xu, Nan Wang, Chongjie Ye, Zhaoxi Chen, Minghan Qin, Yikang Ding, Xin Jin, Hang Zhao, Hao Zhao

Die Erfassung von realen Robotersimulationsdaten durch Teleoperation ist bekanntlich zeitaufwendig und arbeitsintensiv. In jüngster Zeit haben aktionsgetriebene generative Modelle in der Roboterlern- und Simulationsforschung breite Anwendung gefunden, da sie Sicherheitsbedenken beseitigen und den Wartungsaufwand reduzieren. Allerdings führen die in diesen Methoden verwendeten Aktionssequenzen oft zu begrenzter Kontrollpräzision und schlechter Generalisierung aufgrund ihrer global groben Ausrichtung. Um diese Einschränkungen zu überwinden, schlagen wir ORV, ein Occupancy-zentriertes Robotervideo-Generierungsframework vor, das 4D-semantische Occupancy-Sequenzen als feinkörnige Repräsentation nutzt, um präzisere semantische und geometrische Anleitungen für die Videogenerierung zu bieten. Durch die Nutzung von Occupancy-basierten Repräsentationen ermöglicht ORV die nahtlose Übersetzung von Simulationsdaten in fotorealistische Robotervideos, während gleichzeitig hohe zeitliche Konsistenz und präzise Steuerbarkeit gewährleistet werden. Darüber hinaus unterstützt unser Framework die gleichzeitige Generierung von Multi-View-Videos von Roboter-Greifoperationen – eine wichtige Fähigkeit für nachgelagerte Roboterlernaufgaben. Umfangreiche experimentelle Ergebnisse zeigen, dass ORV bestehende Baseline-Methoden über verschiedene Datensätze und Teilaufgaben hinweg konsequent übertrifft. Demo, Code und Modell: https://orangesodahub.github.io/ORV

TL;DR: Zu lang, Gewichtung neu anpassen für effiziente LLM-Rationalkompression
TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression

Jun 3

ByZhong-Zhi Li, Xiao Liang, Zihao Tang, Lei Ji, Peijie Wang, Haotian Xu, Xing W, Haizhen Huang, Weiwei Deng, Ying Nian Wu, Yeyun Gong, Zhijiang Guo, Xiao Liu, Fei Yin, Cheng-Lin Liu

Große Sprachmodelle (LLMs) haben in letzter Zeit bemerkenswerte Fortschritte erzielt, indem sie Verstärkungslernen und erweiterte Chain-of-Thought (CoT)-Techniken nutzen. Die Herausforderung, effiziente Sprachschlussfolgerungen durchzuführen – insbesondere während der Inferenz mit extrem langen Ausgaben – hat jedoch zunehmend die Aufmerksamkeit der Forschungsgemeinschaft auf sich gezogen. In dieser Arbeit schlagen wir eine dynamische, verhältnisbasierte Trainingspipeline vor, die nicht auf aufwendige Datenannotationen oder Interpolationen zwischen mehreren Modellen angewiesen ist. Wir balancieren kontinuierlich die Gewichte zwischen den System-1- und System-2-Daten des Modells, um redundante Schlussfolgerungsprozesse zu eliminieren, während die Schlussfolgerungsfähigkeit des Modells erhalten bleibt. Wir validieren unseren Ansatz an Modellen wie DeepSeek-R1-Distill-7B und DeepSeek-R1-Distill-14B sowie an einer Vielzahl von Benchmarks mit unterschiedlichen Schwierigkeitsgraden. Unsere Methode reduziert die Anzahl der Ausgabetoken signifikant um fast 40 %, während die Genauigkeit der Schlussfolgerungen erhalten bleibt. Unser Code und unsere Daten werden in Kürze verfügbar sein.

Multimodaler DeepResearcher: Generierung von Text-Diagramm-verflochtenen Berichten Von Grund auf mit agentenbasiertem Framework
Multimodal DeepResearcher: Generating Text-Chart Interleaved Reports From Scratch with Agentic Framework

Jun 3

ByZhaorui Yang, Bo Pan, Han Wang, Yiyao Wang, Xingyu Liu, Minfeng Zhu, Bo Zhang, Wei Chen

Visualisierungen spielen eine entscheidende Rolle bei der effektiven Kommunikation von Konzepten und Informationen. Jüngste Fortschritte im Bereich des schlussfolgernden und abrufgestützten Generierens haben es großen Sprachmodellen (Large Language Models, LLMs) ermöglicht, tiefgehende Recherchen durchzuführen und umfassende Berichte zu erstellen. Trotz dieser Fortschritte konzentrieren sich bestehende Frameworks für tiefgehende Recherchen hauptsächlich auf die Generierung von rein textbasierten Inhalten, wodurch die automatische Erstellung von verschachtelten Texten und Visualisierungen weitgehend unerforscht bleibt. Diese neuartige Aufgabe stellt zentrale Herausforderungen bei der Gestaltung informativer Visualisierungen und deren effektiver Integration in Textberichte dar. Um diese Herausforderungen zu bewältigen, schlagen wir die Formale Beschreibung von Visualisierungen (Formal Description of Visualization, FDV) vor, eine strukturierte textuelle Darstellung von Diagrammen, die es LLMs ermöglicht, aus diversen, hochwertigen Visualisierungen zu lernen und diese zu generieren. Aufbauend auf dieser Darstellung führen wir Multimodal DeepResearcher ein, ein agentenbasiertes Framework, das die Aufgabe in vier Phasen unterteilt: (1) Recherche, (2) Textualisierung von Beispielberichten, (3) Planung und (4) multimodale Berichterstellung. Zur Bewertung der generierten multimodalen Berichte entwickeln wir MultimodalReportBench, das 100 verschiedene Themen als Eingaben sowie fünf spezifische Metriken enthält. Umfangreiche Experimente über verschiedene Modelle und Evaluierungsmethoden hinweg demonstrieren die Effektivität von Multimodal DeepResearcher. Bemerkenswerterweise erreicht Multimodal DeepResearcher unter Verwendung desselben Claude 3.7 Sonnet-Modells eine Gesamterfolgsquote von 82 % gegenüber der Baseline-Methode.

QARI-OCR: Hochpräzise arabische Texterkennung durch Adaption multimodaler großer Sprachmodelle
QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation

Jun 2

ByAhmed Wasfy, Omer Nacar, Abdelakreem Elkhateb, Mahmoud Reda, Omar Elshehy, Adel Ammar, Wadii Boulila

Die inhärenten Komplexitäten der arabischen Schrift; ihre kursivartige Natur, diakritische Zeichen (Tashkeel) und vielfältige Typografie stellen anhaltende Herausforderungen für die optische Zeichenerkennung (OCR) dar. Wir präsentieren Qari-OCR, eine Reihe von Vision-Language-Modellen, die aus Qwen2-VL-2B-Instruct abgeleitet und durch iteratives Feinabstimmen auf spezialisierten synthetischen Datensätzen schrittweise für Arabisch optimiert wurden. Unser führendes Modell, QARI v0.2, etabliert einen neuen Open-Source-Standard mit einer Wortfehlerrate (WER) von 0,160, einer Zeichenfehlerrate (CER) von 0,061 und einem BLEU-Score von 0,737 bei Texten mit reichhaltigen Diakritika. Qari-OCR zeigt eine überlegene Handhabung von Tashkeel, diversen Schriftarten und Dokumentlayouts sowie beeindruckende Leistungen bei niedrigauflösenden Bildern. Weitere Untersuchungen (QARI v0.3) demonstrieren ein starkes Potenzial für das strukturelle Dokumentverständnis und handschriftliche Texte. Diese Arbeit liefert eine deutliche Verbesserung in der Genauigkeit und Effizienz der arabischen OCR, wobei alle Modelle und Datensätze veröffentlicht werden, um weitere Forschungen zu fördern.

Control-R: Auf dem Weg zu kontrollierbarer Skalierung zur Testzeit
Control-R: Towards controllable test-time scaling

May 30

ByDi Zhang, Weida Wang, Junxian Li, Xunzhi Wang, Jiatong Li, Jianbo Wu, Jingdi Lei, Haonan He, Peng Ye, Shufei Zhang, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou

Dieses Papier zielt darauf ab, die Herausforderungen von Unterdenken und Überdenken in langen Ketten von Denkprozessen (Chain-of-Thought, CoT) für große Denkmodelle (Large Reasoning Models, LRMs) zu adressieren, indem es Reasoning Control Fields (RCF) einführt – einen neuartigen Ansatz zur Laufzeit, der strukturierte Kontrollsignale injiziert, um das Denken aus einer Baum-Such-Perspektive zu steuern. RCF ermöglicht es Modellen, den Denkaufwand gemäß vorgegebener Kontrollbedingungen bei der Lösung komplexer Aufgaben anzupassen. Zusätzlich stellen wir den Control-R-4K-Datensatz vor, der herausfordernde Probleme mit detaillierten Denkprozessen und entsprechenden Kontrollfeldern enthält. Um die Denkkontrolle weiter zu verbessern, schlagen wir eine Conditional Distillation Finetuning (CDF)-Methode vor, die Modelle – insbesondere Control-R-32B – trainiert, um den Denkaufwand während der Laufzeit effektiv anzupassen. Experimentelle Ergebnisse auf Benchmarks wie AIME2024 und MATH500 zeigen, dass unser Ansatz auf dem 32B-Maßstab state-of-the-art Leistung erzielt und gleichzeitig einen kontrollierbaren langen Denkprozess (Long CoT, L-CoT) ermöglicht. Insgesamt führt diese Arbeit ein effektives Paradigma für kontrollierbares Skalieren von Denkprozessen zur Laufzeit ein.

Ein fehlendes Puzzleteil für Open-Source-Modelle des logischen Schließens: Ein Datensatz zur Milderung des Kaltstartproblems bei kurzschrittigen CoT-LLMs in RL
One Missing Piece for Open-Source Reasoning Models: A Dataset to Mitigate Cold-Starting Short CoT LLMs in RL

Jun 3

ByHyungjoo Chae, Dongjin Kang, Jihyuk Kim, Beong-woo Kwak, Sunghyun Park, Haeju Park, Jinyoung Yeo, Moontae Lee, Kyungjae Lee

Mit der Veröffentlichung von R1, einem öffentlich zugänglichen großen Reasoning-Modell (LRM), trainieren Forscher häufig neue LRMs, indem sie Sprachmodelle auf den langen Chain-of-Thought (CoT)-Schlussfolgerungen von R1 trainieren. Während frühere Arbeiten zeigen, dass die Fähigkeiten von LRMs durch direkte Destillation reproduziert werden können, bleibt die fortgesetzte Abhängigkeit von bestehenden Modellen (z. B. R1) eine kritische Einschränkung für den Fortschritt in diesem Bereich. Als ersten Schritt zur unabhängigen Entwicklung von LRMs untersucht dieses Papier die Möglichkeit, einen langen CoT-Datensatz mit LLMs zu konstruieren, die nicht für Inferenzzeit-Skalierung trainiert sind. Zu diesem Zweck präsentieren wir die Long CoT Collection, einen Datensatz von 100K CoT-Begründungen, die mit bestehenden kurzen CoT-LLMs annotiert wurden. Wir entwickeln eine Pipeline, die die neuartigen Reasoning-Strategien von o1 in kurze CoT-LLMs einbringt, wodurch diese länger denken können und eine Kontrolle über das Gedankenbudget eingeführt wird, um das Problem des Überdenkens besser zu bewältigen. Unsere umfangreichen Analysen bestätigen, dass unser Datensatz eine Qualität erreicht, die vergleichbar mit – oder leicht unter – der von R1 liegt. Darüber hinaus zeigen unsere Experimente, dass das Training auf unserem Datensatz nicht nur die allgemeinen Reasoning-Fähigkeiten stärkt, sondern auch eine solide Grundlage für Reinforcement Learning bietet – Modelle, die auf unseren Daten initialisiert werden, erzielen 2-3 Mal größere Gewinne mit RLVR.

Wie viel Backtracking ist ausreichend? Untersuchung des Zusammenspiels von SFT und RL bei der Verbesserung des logischen Denkens von LLMs
How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning

May 30

ByHongyi James Cai, Junlin Wang, Xiaoyin Chen, Bhuwan Dhingra

Jüngste Durchbrüche bei großen Sprachmodellen (LLMs) haben deren Fähigkeiten zur logischen Schlussfolgerung effektiv verbessert, insbesondere bei mathematischen und logischen Problemen mit überprüfbaren Antworten, durch Techniken wie überwachtes Feinabstimmen (SFT) und bestärkendes Lernen (RL). Frühere Forschungen zeigen, dass RL Suchstrategien effektiv verinnerlicht, was lange Ketten von Gedankengängen (CoT) ermöglicht, wobei das Rückverfolgen (Backtracking) natürlich als erlernte Fähigkeit auftritt. Die genauen Vorteile des Rückverfolgens, insbesondere wie signifikant es zur Verbesserung der Schlussfolgerungen beiträgt und das optimale Ausmaß seiner Nutzung, bleiben jedoch weitgehend unverstanden. In dieser Arbeit untersuchen wir systematisch die Dynamik zwischen SFT und RL bei acht Aufgaben zur logischen Schlussfolgerung: Countdown, Sudoku, Arc 1D, Geometrie, Farbwürfelrotation, Listenfunktionen, Zebrarätsel und Selbstreferenz. Unsere Ergebnisse zeigen, dass kurze CoT-Sequenzen, die in SFT als Aufwärmphase verwendet werden, einen moderaten Beitrag zum RL-Training leisten, verglichen mit einem Kaltstart-RL; dieser Beitrag nimmt jedoch ab, wenn die Aufgaben zunehmend schwieriger werden. Motiviert durch diese Beobachtung erstellen wir synthetische Datensätze, die systematisch in der Anzahl der Rückverfolgungsschritte variieren, und führen kontrollierte Experimente durch, um den Einfluss entweder der Korrektheit (Inhalt) oder der Struktur (d. h. Rückverfolgungshäufigkeit) zu isolieren. Wir finden heraus, dass (1) längere CoT mit Rückverfolgungen im Allgemeinen ein besseres und stabileres RL-Training induzieren, (2) anspruchsvollere Probleme mit größerem Suchraum tendenziell eine höhere Anzahl von Rückverfolgungen während der SFT-Phase benötigen. Zusätzlich zeigen wir durch Experimente mit destillierten Daten, dass das RL-Training weitgehend unbeeinflusst von der Korrektheit langer CoT-Sequenzen bleibt, was darauf hindeutet, dass RL strukturelle Muster über die inhaltliche Korrektheit priorisiert. Insgesamt bieten unsere Ergebnisse praktische Einblicke in die Gestaltung optimaler Trainingsstrategien, um die logische Schlussfolgerung in LLMs effektiv zu skalieren.

Deep Video Discovery: Agentische Suche mit Werkzeugnutzung für das Verständnis von Langform-Videos
Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding

May 23

ByXiaoyi Zhang, Zhaoyang Jia, Zongyu Guo, Jiahao Li, Bin Li, Houqiang Li, Yan Lu

Das Verständnis von Langform-Videos stellt aufgrund der umfangreichen zeitlich-räumlichen Komplexität und der Schwierigkeit der Fragebeantwortung in solch ausgedehnten Kontexten erhebliche Herausforderungen dar. Obwohl Large Language Models (LLMs) erhebliche Fortschritte in den Fähigkeiten zur Videoanalyse und der Handhabung langer Kontexte gezeigt haben, weisen sie weiterhin Einschränkungen bei der Verarbeitung von informationsdichten, stundenlangen Videos auf. Um diese Einschränkungen zu überwinden, schlagen wir den Deep Video Discovery-Agenten vor, der eine agentenbasierte Suchstrategie über segmentierte Videoclips nutzt. Im Gegensatz zu früheren Video-Agenten, die manuell einen starren Arbeitsablauf entwerfen, betont unser Ansatz die autonome Natur von Agenten. Indem wir eine Reihe von suchzentrierten Werkzeugen auf einer mehrgranularen Videodatenbank bereitstellen, nutzt unser DVD-Agent die fortgeschrittene Denkfähigkeit des LLM, um basierend auf seinem aktuellen Beobachtungszustand zu planen, strategisch Werkzeuge auszuwählen, geeignete Parameter für Aktionen zu formulieren und seine interne Argumentation iterativ anhand der gesammelten Informationen zu verfeinern. Wir führen eine umfassende Bewertung auf mehreren Benchmarks für das Verständnis von Langform-Videos durch, die den Vorteil des gesamten Systemdesigns demonstriert. Unser DVD-Agent erreicht SOTA-Leistungen und übertrifft frühere Arbeiten auf dem anspruchsvollen LVBench-Datensatz deutlich. Umfassende Ablationsstudien und detaillierte Werkzeuganalysen werden ebenfalls bereitgestellt, die Einblicke bieten, um intelligente Agenten weiter voranzutreiben, die speziell für Aufgaben zum Verständnis von Langform-Videos entwickelt wurden. Der Code wird später veröffentlicht.

MERIT: Multilinguale semantische Abfrage mit verschachtelten Mehrfachbedingungen
MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query

Jun 3

ByWei Chow, Yuan Gao, Linfeng Li, Xian Wang, Qi Xu, Hang Song, Lingdong Kong, Ran Zhou, Yi Zeng, Yidong Cai, Botian Jiang, Shilin Xu, Jiajun Zhang, Minghui Qiu, Xiangtai Li, Tianshu Yang, Siliang Tang, Juncheng Li

Semantische Retrieval ist entscheidend für moderne Anwendungen, bleibt jedoch in der aktuellen Forschung untererforscht. Bestehende Datensätze beschränken sich auf einzelne Sprachen, einzelne Bilder oder singuläre Retrieval-Bedingungen und nutzen oft nicht die volle Ausdruckskraft visueller Informationen aus, wie durch die aufrechterhaltene Leistung belegt wird, wenn Bilder durch Beschreibungen ersetzt werden. Praktische Retrieval-Szenarien beinhalten jedoch häufig verschachtelte Mehrfachbedingungen-Abfragen mit mehreren Bildern. Daher stellt dieses Papier MERIT vor, den ersten mehrsprachigen Datensatz für verschachteltes semantisches Retrieval unter Mehrfachbedingungen, der 320.000 Abfragen mit 135.000 Produkten in 5 Sprachen umfasst und 7 verschiedene Produktkategorien abdeckt. Umfangreiche Experimente mit MERIT identifizieren die Beschränkungen bestehender Modelle: Sie konzentrieren sich ausschließlich auf globale semantische Informationen, während sie spezifische Bedingungselemente in Abfragen vernachlässigen. Folglich schlagen wir Coral vor, ein neuartiges Feinabstimmungs-Framework, das vortrainierte MLLMs anpasst, indem es Einbettungsrekonstruktion integriert, um feinkörnige Bedingungselemente zu bewahren, und kontrastives Lernen, um umfassende globale Semantik zu extrahieren. Experimente zeigen, dass Coral eine Leistungssteigerung von 45,9 % gegenüber konventionellen Ansätzen auf MERIT erreicht, mit starken Generalisierungsfähigkeiten, die über 8 etablierte Retrieval-Benchmarks validiert wurden. Zusammengefasst legen unsere Beiträge – ein neuartiger Datensatz, die Identifikation kritischer Beschränkungen bestehender Ansätze und ein innovatives Feinabstimmungs-Framework – die Grundlage für zukünftige Forschung im Bereich des verschachtelten semantischen Retrievals unter Mehrfachbedingungen.

FuseLIP: Multimodale Einbettungen durch frühe Fusion diskreter Tokens
FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens

Jun 3

ByChristian Schlarmann, Francesco Croce, Nicolas Flammarion, Matthias Hein

Kontrastives Sprach-Bild-Vortraining richtet die Merkmale von Text-Bild-Paaren in einem gemeinsamen latenten Raum aus, wobei für jede Modalität separate Encoder verwendet werden. Während dieser Ansatz beeindruckende Leistungen in mehreren Zero-Shot-Aufgaben erzielt, kann er multimodale Eingaben nicht nativ verarbeiten, d.h. das Kodieren von Bild und Text in einen einzigen Merkmalsvektor. Als Abhilfe ist es gängige Praxis, zusätzliche Module zu verwenden, um die von den unimodalen Encodern extrahierten Merkmale zu fusionieren. In dieser Arbeit präsentieren wir FuseLIP, eine alternative Architektur für multimodale Einbettungen. Unter Ausnutzung der jüngsten Fortschritte bei diskreten Bild-Tokenizern schlagen wir vor, ein einziges Transformer-Modell zu verwenden, das auf einem erweiterten Vokabular von Text- und Bild-Token arbeitet. Dieser Ansatz der frühen Fusion ermöglicht es den verschiedenen Modalitäten, auf jeder Ebene der Kodierung zu interagieren und im Vergleich zur gängigen späten Fusion reichhaltigere Repräsentationen zu erhalten. Wir sammeln neue Datensätze für multimodales Vortraining und Evaluation, indem wir anspruchsvolle Aufgaben für multimodale Encoder-Modelle entwerfen. Wir zeigen, dass FuseLIP andere Ansätze in multimodalen Einbettungsaufgaben wie VQA und textgesteuerter Bildtransformations-Retrieval übertrifft, während es bei unimodalen Aufgaben vergleichbar mit den Baselines ist.

M^3FinMeeting: Ein mehrsprachiger, multisektoraler und multitaskfähiger Evaluierungsdatensatz für das Verständnis von Finanzmeetings
M^3FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset

Jun 3

ByJie Zhu, Junhui Li, Yalong Wen, Xiandong Li, Lifan Guo, Feng Chen

Jüngste Durchbrüche bei großen Sprachmodellen (LLMs) haben zur Entwicklung neuer Benchmarks für die Bewertung ihrer Leistung im Finanzbereich geführt. Allerdings stützen sich aktuelle Finanzbenchmarks oft auf Nachrichtenartikel, Gewinnberichte oder Ankündigungen, was es schwierig macht, die realen Dynamiken von Finanzmeetings zu erfassen. Um diese Lücke zu schließen, schlagen wir einen neuartigen Benchmark namens M^3FinMeeting vor, ein mehrsprachiger, multisektoraler und multitaskfähiger Datensatz, der für das Verständnis von Finanzmeetings entwickelt wurde. Erstens unterstützt M^3FinMeeting Englisch, Chinesisch und Japanisch, wodurch das Verständnis von Finanzdiskussionen in verschiedenen sprachlichen Kontexten verbessert wird. Zweitens umfasst es verschiedene Industriesektoren, die durch den Global Industry Classification Standard (GICS) definiert sind, und stellt sicher, dass der Benchmark eine breite Palette von Finanzaktivitäten abdeckt. Schließlich beinhaltet M^3FinMeeting drei Aufgaben: Zusammenfassung, Extraktion von Frage-Antwort-Paaren (QA) und Fragebeantwortung, was eine realistischere und umfassendere Bewertung des Verständnisses ermöglicht. Experimentelle Ergebnisse mit sieben populären LLMs zeigen, dass selbst die fortschrittlichsten Langkontextmodelle noch erheblichen Verbesserungsbedarf haben, was die Wirksamkeit von M^3FinMeeting als Benchmark zur Bewertung der Finanzmeeting-Verständnisfähigkeiten von LLMs unterstreicht.

Winkel lügen nicht: Effizientes Training in Reinforcement Learning durch die Signale des Modells selbst freischalten
Angles Don't Lie: Unlocking Training-Efficient RL Through the Model's Own Signals

Jun 2

ByQinsi Wang, Jinghan Ke, Hancheng Ye, Yueqian Lin, Yuzhe Fu, Jianyi Zhang, Kurt Keutzer, Chenfeng Xu, Yiran Chen

Aktuelle Paradigmen für Reinforcement Fine-Tuning (RFT) von Large Language Models (LLMs) leiden unter einer ineffizienten Stichprobenverarbeitung, da identische Anfragen durch einheitliche Datenstichproben redundant ausgesetzt werden. Während frühere Arbeiten Curriculum Learning über heuristische Schwierigkeitsmetriken untersucht haben, weisen diese Strategien Einschränkungen auf, indem sie die intrinsischen Lernsignale, die vom Modell selbst generiert werden, vernachlässigen, was zu suboptimalen Trainingsregimen führt. In diesem Artikel identifizieren wir ein modellinternes Signal, das als Winkelkonzentration bezeichnet wird und effektiv die Fähigkeit eines LLMs widerspiegelt, aus spezifischen Daten zu lernen. Wir demonstrieren theoretisch und empirisch eine Korrelation zwischen der Winkelverteilung der verborgenen Zustandsvektoren von Tokens und dem resultierenden Gradienten, was eine Lernpräferenz für Daten mit höherer Winkelkonzentration offenbart. Inspiriert von dieser Erkenntnis schlagen wir GAIN-RL vor, ein Gradientengetriebenes, Winkelinformiertes Navigiertes RL-Framework. Indem GAIN-RL das intrinsische Winkelkonzentrationssignal des Modells nutzt, wählt es in jeder Epoche dynamisch Trainingsdaten aus, um kontinuierlich wirkungsvolle Gradientenaktualisierungen zu gewährleisten und somit die Gesamttrainings effizienz erheblich zu steigern. Empirische Auswertungen zeigen, dass GAIN-RL (GRPO) eine über 2,5-fache Beschleunigung der Trainings effizienz über diverse mathematische und Programmieraufgaben sowie verschiedene Modellgrößen hinweg erreicht. Darüber hinaus ermöglicht die effiziente Stichprobenauswahl von GAIN-RL (GRPO) ein dateneffizientes Training, das mit der Hälfte der ursprünglichen Daten eine bessere Leistung erzielt als das herkömmliche GRPO mit vollständigen Trainingsdaten. Der Code ist unter https://github.com/wangqinsi1/GAINRL/tree/main verfügbar.

Hanfu-Bench: Ein multimodaler Benchmark für intertemporales Kulturverständnis und Transkreation
Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation

Jun 2

ByLi Zhou, Lutong Yu, Dongchu Xie, Shaohuan Cheng, Wenyan Li, Haizhou Li

Kultur ist ein reiches und dynamisches Feld, das sich sowohl geografisch als auch zeitlich entwickelt. Bisherige Studien zum kulturellen Verständnis mit Vision-Language-Modellen (VLMs) betonen jedoch vor allem die geografische Vielfalt und vernachlässigen oft die entscheidenden zeitlichen Dimensionen. Um diese Lücke zu schließen, stellen wir Hanfu-Bench vor, einen neuartigen, von Experten kuratierten multimodalen Datensatz. Hanfu, ein traditionelles Gewand, das sich über alte chinesische Dynastien erstreckt, dient als repräsentatives Kulturerbe, das die tiefgreifenden zeitlichen Aspekte der chinesischen Kultur widerspiegelt und gleichzeitig in der chinesischen Gegenwartsgesellschaft äußerst beliebt ist. Hanfu-Bench umfasst zwei Kernaufgaben: kulturelles visuelles Verständnis und kulturelle Bildtranskreation. Die erste Aufgabe untersucht die Erkennung zeitlich-kultureller Merkmale basierend auf Einzel- oder Mehrfachbild-Eingaben durch Multiple-Choice-Fragen zur visuellen Beantwortung, während die zweite Aufgabe darauf abzielt, traditionelle Kleidung durch die Übernahme kultureller Elemente und die Anpassung an moderne Kontexte in moderne Designs zu transformieren. Unsere Auswertung zeigt, dass geschlossene VLMs beim visuellen kulturellen Verständnis ähnlich abschneiden wie Laien, jedoch um 10\% hinter menschlichen Experten zurückbleiben, während offene VLMs noch weiter hinter Laien zurückliegen. Für die Transkreationsaufgabe zeigt eine vielschichtige menschliche Bewertung, dass das leistungsstärkste Modell nur eine Erfolgsquote von 42\% erreicht. Unser Benchmark bietet eine wesentliche Testumgebung, die erhebliche Herausforderungen in dieser neuen Richtung des zeitlichen kulturellen Verständnisses und der kreativen Anpassung aufzeigt.

ReFoCUS: Verstärkungsgeleitete Rahmenoptimierung für kontextuelles Verständnis
ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding

Jun 2

ByHosu Lee, Junho Kim, Hyunjun Kim, Yong Man Ro

Jüngste Fortschritte bei großen multimodalen Modellen (Large Multi-modal Models, LMMs) haben effektives visuell-sprachliches Schließen ermöglicht, doch die Fähigkeit, Videoinhalte zu verstehen, bleibt durch suboptimale Strategien zur Bildauswahl eingeschränkt. Bestehende Ansätze verlassen sich oft auf statische Heuristiken oder externe Retrieval-Module, um Bildinformationen in Video-LLMs einzuspeisen, was möglicherweise nicht die abfragerelevanten Informationen liefert. In dieser Arbeit stellen wir ReFoCUS (Reinforcement-guided Frame Optimization for Contextual UnderStanding) vor, ein neuartiges Framework zur Optimierung von Bildauswahlrichtlinien auf Bildebene, das das Optimierungsziel von textuellen Antworten auf die Auswahl visueller Eingaben verlagert. ReFoCUS erlernt eine Bildauswahlrichtlinie durch Reinforcement Learning, wobei Belohnungssignale verwendet werden, die von einem Referenz-LMM abgeleitet werden, um die intrinsischen Präferenzen des Modells für Bilder widerzuspiegeln, die zeitlich fundierte Antworten am besten unterstützen. Um den großen kombinatorischen Bildraum effizient zu erkunden, verwenden wir eine autoregressive, bedingte Auswahlarchitektur, die zeitliche Kohärenz sicherstellt und gleichzeitig die Komplexität reduziert. Unser Ansatz erfordert keine explizite Überwachung auf Bildebene und verbessert kontinuierlich die Schließleistung über mehrere Video-QA-Benchmarks hinweg, was die Vorteile der Ausrichtung der Bildauswahl auf die modellinterne Nützlichkeit unterstreicht.

Steuerbare menschzentrierte Keyframe-Interpolation mit generativem Prior
Controllable Human-centric Keyframe Interpolation with Generative Prior

Jun 3

ByZujin Guo, Size Wu, Zhongang Cai, Wei Li, Chen Change Loy

Bestehende Interpolationsmethoden verwenden vortrainierte Video-Diffusions-Priors, um Zwischenbilder zwischen spärlich abgetasteten Keyframes zu generieren. Ohne 3D-geometrische Anleitung haben diese Methoden Schwierigkeiten, plausible Ergebnisse für komplexe, artikulierte menschliche Bewegungen zu erzeugen, und bieten nur begrenzte Kontrolle über die synthetisierten Dynamiken. In diesem Artikel stellen wir den PoseFuse3D Keyframe Interpolator (PoseFuse3D-KI) vor, ein neuartiges Framework, das 3D-menschliche Führungssignale in den Diffusionsprozess für eine kontrollierbare, menschzentrierte Keyframe-Interpolation (CHKI) integriert. Um reichhaltige räumliche und strukturelle Hinweise für die Interpolation zu liefern, verfügt unser PoseFuse3D, ein 3D-informiertes Kontrollmodell, über einen neuartigen SMPL-X-Encoder, der 3D-Geometrie und -Form in den 2D-latenten Konditionierungsraum transformiert, sowie über ein Fusionsnetzwerk, das diese 3D-Hinweise mit 2D-Pose-Embeddings integriert. Zur Bewertung haben wir CHKI-Video, einen neuen Datensatz, der sowohl mit 2D-Posen als auch mit 3D-SMPL-X-Parametern annotiert ist, erstellt. Wir zeigen, dass PoseFuse3D-KI auf CHKI-Video durchweg state-of-the-art Baselines übertrifft und eine Verbesserung von 9 % in PSNR sowie eine Reduktion von 38 % in LPIPS erreicht. Umfassende Ablationen demonstrieren, dass unser PoseFuse3D-Modell die Interpolationsgenauigkeit verbessert.

Wissen vor dem Sprechen: LLM-Repräsentationen kodieren Informationen über den Erfolg von Gedankenketten vor der Vollendung
Knowing Before Saying: LLM Representations Encode Information About Chain-of-Thought Success Before Completion

May 30

ByAnum Afzal, Florian Matthes, Gal Chechik, Yftah Ziser

Wir untersuchen, ob der Erfolg eines Zero-Shot Chain-of-Thought (CoT)-Prozesses vor dessen Abschluss vorhergesagt werden kann. Wir entdecken, dass ein Klassifikator, der auf LLM-Repräsentationen basiert, bereits vor der Generierung eines einzigen Tokens gute Leistungen erbringt, was darauf hindeutet, dass entscheidende Informationen über den Denkprozess bereits in den Anfangsphasen der Repräsentationen vorhanden sind. Im Gegensatz dazu schneidet ein starker BERT-basierter Ansatz, der sich ausschließlich auf die generierten Tokens stützt, schlechter ab, wahrscheinlich weil er sich auf oberflächliche linguistische Hinweise und nicht auf tiefere Denkdynamiken verlässt. Überraschenderweise verbessert die Verwendung späterer Denkschritte die Klassifikation nicht immer. Wenn zusätzlicher Kontext nicht hilfreich ist, ähneln frühere Repräsentationen den späteren stärker, was darauf hindeutet, dass LLMs Schlüsselinformationen frühzeitig kodieren. Dies impliziert, dass der Denkprozess oft frühzeitig beendet werden kann, ohne dass Informationen verloren gehen. Um dies zu testen, führen wir Experimente zum frühzeitigen Stoppen durch, die zeigen, dass das Kürzen des CoT-Denkprozesses die Leistung im Vergleich zur vollständigen Vermeidung von CoT immer noch verbessert, obwohl eine Lücke im Vergleich zum vollständigen Denkprozess bleibt. Ansätze wie überwachtes Lernen oder bestärkendes Lernen, die darauf abzielen, CoT-Ketten zu verkürzen, könnten jedoch die Anleitung unseres Klassifikators nutzen, um zu identifizieren, wann ein frühzeitiges Stoppen effektiv ist. Unsere Erkenntnisse liefern Einblicke, die solche Methoden unterstützen könnten, um die Effizienz von CoT zu optimieren und gleichzeitig dessen Vorteile zu bewahren.

R^2ec: Auf dem Weg zu großen Empfehlungsmodellen mit logischem Denken
R^2ec: Towards Large Recommender Models with Reasoning

May 22

ByRunyang You, Yongqi Li, Xinyu Lin, Xin Zhang, Wenjie Wang, Wenjie Li, Liqiang Nie

Große Empfehlungsmodelle haben LLMs (Large Language Models) als leistungsstarke Empfehlungssysteme erweitert, indem sie Kodierung oder Item-Generierung nutzen, und jüngste Durchbrüche im Bereich des LLM-Reasonings motivieren synchron die Erforschung des Reasonings in der Empfehlung. Aktuelle Studien positionieren LLMs meist als externe Reasoning-Module, um zusätzliche Gedanken zur Verbesserung konventioneller Empfehlungspipelines zu liefern. Solche entkoppelten Designs sind jedoch durch hohe Ressourcenkosten und suboptimale gemeinsame Optimierung begrenzt. Um diese Probleme zu adressieren, schlagen wir \name vor, ein einheitliches großes Empfehlungsmodell mit intrinsischen Reasoning-Fähigkeiten. Zunächst rekonzeptualisieren wir die Modellarchitektur, um verschränktes Reasoning und Empfehlungen im autoregressiven Prozess zu ermöglichen. Anschließend schlagen wir RecPO vor, ein entsprechendes Reinforcement-Learning-Framework, das \name sowohl in seinen Reasoning- als auch Empfehlungsfähigkeiten gleichzeitig in einer einzigen Policy-Aktualisierung optimiert; RecPO führt ein fusioniertes Belohnungsschema ein, das ausschließlich Empfehlungslabels nutzt, um die Reasoning-Fähigkeit zu simulieren und so die Abhängigkeit von spezialisierten Reasoning-Annotationen zu eliminieren. Experimente auf drei Datensätzen mit verschiedenen Baselines bestätigen die Wirksamkeit von \name und zeigen relative Verbesserungen von 68,67 % in Hit@5 und 45,21 % in NDCG@20. Der Code ist verfügbar unter https://github.com/YRYangang/RRec.

ByteMorph: Benchmarking für instruktionsgesteuertes Bildbearbeiten mit nicht-starren Bewegungen
ByteMorph: Benchmarking Instruction-Guided Image Editing with Non-Rigid Motions

Jun 3

ByDi Chang, Mingdeng Cao, Yichun Shi, Bo Liu, Shengqu Cai, Shijie Zhou, Weilin Huang, Gordon Wetzstein, Mohammad Soleymani, Peng Wang

Das Bearbeiten von Bildern mit Anweisungen, um nicht starre Bewegungen, Kameraperspektivenwechsel, Objektverformungen, menschliche Gelenkbewegungen und komplexe Interaktionen widerzuspiegeln, stellt ein herausforderndes und bisher wenig erforschtes Problem in der Computer Vision dar. Bestehende Ansätze und Datensätze konzentrieren sich überwiegend auf statische Szenen oder starre Transformationen, was ihre Fähigkeit einschränkt, ausdrucksstarke Bearbeitungen mit dynamischen Bewegungen zu bewältigen. Um diese Lücke zu schließen, stellen wir ByteMorph vor, ein umfassendes Framework für anweisungsbasiertes Bildbearbeiten mit einem Schwerpunkt auf nicht starren Bewegungen. ByteMorph besteht aus einem groß angelegten Datensatz, ByteMorph-6M, und einem leistungsstarken Basismodell, das auf dem Diffusion Transformer (DiT) basiert und ByteMorpher genannt wird. ByteMorph-6M umfasst über 6 Millionen hochauflösende Bildbearbeitungspaare für das Training sowie einen sorgfältig kuratierten Evaluierungsbenchmark, ByteMorph-Bench. Beide erfassen eine Vielzahl von nicht starren Bewegungstypen in verschiedenen Umgebungen, menschlichen Figuren und Objektkategorien. Der Datensatz wurde mithilfe von bewegungsgesteuerter Datengenerierung, geschichteten Compositing-Techniken und automatischer Beschriftung erstellt, um Vielfalt, Realismus und semantische Kohärenz zu gewährleisten. Darüber hinaus führen wir eine umfassende Bewertung aktueller anweisungsbasierter Bildbearbeitungsmethoden aus akademischen und kommerziellen Bereichen durch.

Neubetrachtung von LRP: Positionsbezogene Attribution als das fehlende Element für die Erklärbarkeit von Transformatoren
Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability

Jun 2

ByYarden Bakish, Itamar Zimerman, Hila Chefer, Lior Wolf

Die Entwicklung effektiver Erklärbarkeitstools für Transformer ist ein entscheidendes Ziel in der Deep-Learning-Forschung. Einer der vielversprechendsten Ansätze in diesem Bereich ist die Layer-wise Relevance Propagation (LRP), die Relevanzwerte rückwärts durch das Netzwerk in den Eingaberaum propagiert, indem Aktivierungswerte basierend auf vordefinierten Regeln neu verteilt werden. Allerdings übersehen bestehende LRP-basierte Methoden zur Erklärbarkeit von Transformatoren eine kritische Komponente der Transformer-Architektur: die Positionskodierung (Positional Encoding, PE). Dies führt zu einer Verletzung der Erhaltungseigenschaft und zum Verlust einer wichtigen und einzigartigen Art von Relevanz, die auch mit strukturellen und positionsbezogenen Merkmalen verbunden ist. Um diese Einschränkung zu beheben, formulieren wir den Eingaberaum für die Erklärbarkeit von Transformatoren als eine Menge von Positions-Token-Paaren neu. Dies ermöglicht es uns, spezialisierte, theoretisch fundierte LRP-Regeln vorzuschlagen, die darauf ausgelegt sind, Attributionen über verschiedene Positionskodierungsmethoden hinweg zu propagieren, einschließlich Rotary, Learnable und Absolute PE. Umfangreiche Experimente mit sowohl feinabgestimmten Klassifikatoren als auch Zero-Shot-Foundation-Modellen wie LLaMA 3 zeigen, dass unsere Methode den State-of-the-Art in Erklärbarkeitsaufgaben sowohl in der Bildverarbeitung als auch im NLP-Bereich deutlich übertrifft. Unser Code ist öffentlich verfügbar.

Jenseits des In-Context-Lernens: Ausrichtung der langfristigen Generierung großer Sprachmodelle durch aufgabeninhärente Attributrichtlinien
Beyond In-Context Learning: Aligning Long-form Generation of Large Language Models via Task-Inherent Attribute Guidelines

Jun 2

ByDo Xuan Long, Duong Ngoc Yen, Do Xuan Trong, Luu Anh Tuan, Kenji Kawaguchi, Shafiq Joty, Min-Yen Kan, Nancy F. Chen

In-Context-Learning (ICL) ist eine wichtige, aber noch nicht vollständig verstandene Fähigkeit vortrainierter großer Sprachmodelle (LLMs). Es kann die Aufgabenleistung erheblich steigern, indem es einige Beispiele, sogenannte Demonstrationen, verwendet, ohne dass eine Feinabstimmung erforderlich ist. Obwohl ICL bei der Beantwortung von Fragen effektiv ist, schneidet es oft bei langen Generierungsaufgaben wie der Zusammenfassung schlechter ab. Unter angemessen realistischen Annahmen zeigen wir sowohl empirisch als auch theoretisch, dass ICL-Demonstrationen allein nicht ausreichen, um LLMs die Aufgaben- und Formatverteilungen für die Generierung beizubringen. Wir plädieren für eine explizite Exposition gegenüber den Aufgabenverteilungen und stellen die Hypothese auf, dass deren Definition durch Prompting die Modellleistung verbessert. Zu diesem Zweck stellen wir LongGuide vor, das effizient zwei parallele Leitfadenstränge erzeugt, die die Aufgaben- und Formateigenschaften erfassen: (i) Metrik-Leitfäden (MGs), die Modelle anweisen, selbstbewertete Metriken zu optimieren; und (ii) Ausgabebeschränkungs-Leitfäden (OCGs), die die Generierung sowohl auf Token- als auch auf Satzebene einschränken. LongGuide wählt automatisch die beste Kombination von Leitfäden aus und verbessert sowohl starke Open-Source- als auch Closed-Source-LLMs um über 5 % in Zero- und Few-Shot-Szenarien. Wir zeigen, dass LongGuide verallgemeinerbar ist, von schwachen Modellen erlernt werden kann, um starke zu verbessern, und sich synergetisch mit automatischen Prompt-Optimierern integrieren lässt.

papers.title

papers.description

Reflektieren, Wiederholen, Belohnen: Selbstverbessernde LLMs durch Reinforcement Learning
Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning

May 30

ByShelly Bensal, Umar Jamil, Christopher Bryant, Melisa Russak, Kiran Kamble, Dmytro Mozolevskyi, Muayad Ali, Waseem AlShikh

267

UniWorld: Hochauflösende semantische Encoder für einheitliches visuelles Verständnis und Generierung
UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

Jun 3

ByBin Lin, Zongjian Li, Xinhua Cheng, Yuwei Niu, Yang Ye, Xianyi He, Shenghai Yuan, Wangbo Yu, Shaodong Wang, Yunyang Ge, Yatian Pang, Li Yuan

VS-Bench: Bewertung von VLMs für strategisches Denken und Entscheidungsfindung in Multi-Agenten-Umgebungen
VS-Bench: Evaluating VLMs for Strategic Reasoning and Decision-Making in Multi-Agent Environments

Jun 3

ByZelai Xu, Zhexuan Xu, Xiangmin Yi, Huining Yuan, Xinlei Chen, Yi Wu, Chao Yu, Yu Wang

SynthRL: Skalierung visueller Schlussfolgerungen durch verifizierbare Datensynthese
SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis

Jun 2

ByZijian Wu, Jinjie Ni, Xiangyan Liu, Zichen Liu, Hang Yan, Michael Qizhe Shieh

GUI-Actor: Koordinatenfreie visuelle Verankerung für GUI-Agenten
GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents

Jun 3

CSVQA: Ein chinesischer multimodaler Benchmark zur Bewertung der STEM-Argumentationsfähigkeiten von VLMs
CSVQA: A Chinese Multimodal Benchmark for Evaluating STEM Reasoning Capabilities of VLMs

May 30

ByAi Jian, Weijie Qiu, Xiaokun Wang, Peiyu Wang, Yunzhuo Hao, Jiangbo Pei, Yichen Wei, Yi Peng, Xuchen Song

OmniSpatial: Auf dem Weg zu einem umfassenden Benchmark für räumliches Denken in visuell-sprachlichen Modellen
OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

Jun 3

ByMengdi Jia, Zekun Qi, Shaochen Zhang, Wenyao Zhang, Xinqiang Yu, Jiawei He, He Wang, Li Yi

OThink-R1: Intrinsischer Wechsel zwischen schnellem/langsamem Denkmodus zur Minderung von Überdenken
OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

Jun 3

ByShengjia Zhang, Junjie Wu, Jiawei Chen, Changwang Zhang, Xingyu Lou, Wangchunshu Zhou, Sheng Zhou, Can Wang, Jun Wang

FinMME: Benchmark-Datensatz für die Bewertung finanzieller Multi-Modaler Argumentation
FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation

May 30

ByJunyu Luo, Zhizhuo Kou, Liming Yang, Xiao Luo, Jinsheng Huang, Zhiping Xiao, Jingshu Peng, Chengzhong Liu, Jiaming Ji, Xuanzhe Liu, Sirui Han, Ming Zhang, Yike Guo

Visuelles verkörpertes Gehirn: Lassen Sie multimodale große Sprachmodelle sehen, denken und in Räumen steuern
Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces

May 30

DINGO: Eingeschränkte Inferenz für Diffusions-LLMs
DINGO: Constrained Inference for Diffusion LLMs

May 29

ByTarun Suresh, Debangshu Banerjee, Shubham Ugare, Sasa Misailovic, Gagandeep Singh

MotionSight: Verbesserung des feinkörnigen Bewegungsverständnisses in multimodalen LLMs
MotionSight: Boosting Fine-Grained Motion Understanding in Multimodal LLMs

Jun 2

ByYipeng Du, Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Xiang Li, Jian Yang, Zhenheng Yang, Ying Tai

Robot-R1: Verstärkendes Lernen zur verbesserten verkörperten Entscheidungsfindung in der Robotik
Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics

May 29

ByDongyoung Kim, Sumin Park, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo

Sparse-vDiT: Die Kraft der Sparse-Attention nutzen, um Video-Diffusion-Transformer zu beschleunigen
Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers

Jun 3

ByPengtao Chen, Xianfang Zeng, Maosen Zhao, Peng Ye, Mingzhu Shen, Wei Cheng, Gang Yu, Tao Chen

Co-Evolution von LLM-Codierer und Unit-Tester durch Reinforcement Learning
Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning

Jun 3

ByYinjie Wang, Ling Yang, Ye Tian, Ke Shen, Mengdi Wang

Negative-geführte Subjekttreue-Optimierung für null-Shot Subjektgetriebene Generierung
Negative-Guided Subject Fidelity Optimization for Zero-Shot Subject-Driven Generation

Jun 4

ByChaehun Shin, Jooyoung Choi, Johan Barthelemy, Jungbeom Lee, Sungroh Yoon

AnimeShooter: Ein Multi-Shot-Animationsdatensatz für referenzgesteuerte Videogenerierung
AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation

Jun 3

ByLu Qiu, Yizhuo Li, Yuying Ge, Yixiao Ge, Ying Shan, Xihui Liu

Native-Resolution-Bildsynthese
Native-Resolution Image Synthesis

Jun 3

ByZidong Wang, Lei Bai, Xiangyu Yue, Wanli Ouyang, Yiyuan Zhang

LumosFlow: Bewegungsgesteuerte Erzeugung langer Videos
LumosFlow: Motion-Guided Long Video Generation

Jun 3

ByJiahao Chen, Hangjie Yuan, Yichen Qian, Jingyun Liang, Jiazheng Xing, Pengwei Liu, Weihua Chen, Fan Wang, Bing Su

RelationAdapter: Lernen und Übertragen visueller Beziehungen mit Diffusions-Transformern
RelationAdapter: Learning and Transferring Visual Relation with Diffusion Transformers

Jun 3

ByYan Gong, Yiren Song, Yicheng Li, Chenglin Li, Yin Zhang

DCM: Dual-Expert-Konsistenzmodell für effiziente und hochwertige Videogenerierung
DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation

Jun 3

ByZhengyao Lv, Chenyang Si, Tianlin Pan, Zhaoxi Chen, Kwan-Yee K. Wong, Yu Qiao, Ziwei Liu

Datenblätter reichen nicht aus: DataRubrics für automatisierte Qualitätsmetriken und Rechenschaftspflicht
Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability

Jun 2

FlowMo: Varianzbasierte Flusssteuerung für kohärente Bewegung in der Videogenerierung
FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation

Jun 1

ByAriel Shaulov, Itay Hazan, Lior Wolf, Hila Chefer

Training von Sprachmodellen zur Erzeugung qualitativ hochwertigen Codes mit Programmanalyse-Feedback
Training Language Models to Generate Quality Code with Program Analysis Feedback

May 28

ByFeng Yao, Zilong Wang, Liyuan Liu, Junxia Cui, Li Zhong, Xiaohan Fu, Haohui Mai, Vish Krishnan, Jianfeng Gao, Jingbo Shang

Ctrl-Crash: Kontrollierbare Diffusion für realistische Autounfälle
Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes

May 30

ByAnthony Gosselin, Ge Ya Luo, Luis Lara, Florian Golemo, Derek Nowrouzezahrai, Liam Paull, Alexia Jolicoeur-Martineau, Christopher Pal

Selbstherausfordernde Sprachmodell-Agenten
Self-Challenging Language Model Agents

Jun 2

ByYifei Zhou, Sergey Levine, Jason Weston, Xian Li, Sainbayar Sukhbaatar

PCoreSet: Effektives aktives Lernen durch Wissensdistillation von Vision-Sprache-Modellen
PCoreSet: Effective Active Learning through Knowledge Distillation from Vision-Language Models

Jun 1

BySeongjae Kang, Dong Bok Lee, Hyungjoon Jang, Dongseop Kim, Sung Ju Hwang

SHARE: Ein hierarchischer Aktionskorrekturassistent für Text-zu-SQL basierend auf SLM
SHARE: An SLM-based Hierarchical Action CorREction Assistant for Text-to-SQL

May 31

ByGe Qu, Jinyang Li, Bowen Qin, Xiaolong Li, Nan Huo, Chenhao Ma, Reynold Cheng

Bewegungsbewusste Konzeptausrichtung für konsistente Videobearbeitung
Motion-Aware Concept Alignment for Consistent Video Editing

Jun 1

ByTong Zhang, Juan C Leon Alcazar, Bernard Ghanem

Beschleunigung von Diffusions-LLMs durch adaptives paralleles Decodieren
Accelerating Diffusion LLMs via Adaptive Parallel Decoding

May 31

ByDaniel Israel, Guy Van den Broeck, Aditya Grover

ORV: 4D belegungszentrierte Robotervideogenerierung
ORV: 4D Occupancy-centric Robot Video Generation

Jun 3

ByXiuyu Yang, Bohan Li, Shaocong Xu, Nan Wang, Chongjie Ye, Zhaoxi Chen, Minghan Qin, Yikang Ding, Xin Jin, Hang Zhao, Hao Zhao

TL;DR: Zu lang, Gewichtung neu anpassen für effiziente LLM-Rationalkompression
TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression

Jun 3

ByZhong-Zhi Li, Xiao Liang, Zihao Tang, Lei Ji, Peijie Wang, Haotian Xu, Xing W, Haizhen Huang, Weiwei Deng, Ying Nian Wu, Yeyun Gong, Zhijiang Guo, Xiao Liu, Fei Yin, Cheng-Lin Liu

Multimodaler DeepResearcher: Generierung von Text-Diagramm-verflochtenen Berichten Von Grund auf mit agentenbasiertem Framework
Multimodal DeepResearcher: Generating Text-Chart Interleaved Reports From Scratch with Agentic Framework

Jun 3

ByZhaorui Yang, Bo Pan, Han Wang, Yiyao Wang, Xingyu Liu, Minfeng Zhu, Bo Zhang, Wei Chen

QARI-OCR: Hochpräzise arabische Texterkennung durch Adaption multimodaler großer Sprachmodelle
QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation

Jun 2

ByAhmed Wasfy, Omer Nacar, Abdelakreem Elkhateb, Mahmoud Reda, Omar Elshehy, Adel Ammar, Wadii Boulila

Control-R: Auf dem Weg zu kontrollierbarer Skalierung zur Testzeit
Control-R: Towards controllable test-time scaling

May 30

ByDi Zhang, Weida Wang, Junxian Li, Xunzhi Wang, Jiatong Li, Jianbo Wu, Jingdi Lei, Haonan He, Peng Ye, Shufei Zhang, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou