ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

1

Transformer ohne Normalisierung
Transformers without Normalization

Mar 13
ByJiachen Zhu, Xinlei Chen, Kaiming He, Yann LeCun, Zhuang Liu
170
6

Normalisierungsschichten sind in modernen neuronalen Netzwerken allgegenwärtig und wurden lange Zeit als unverzichtbar angesehen. Diese Arbeit zeigt, dass Transformer ohne Normalisierung mit einer bemerkenswert einfachen Technik die gleiche oder sogar bessere Leistung erzielen können. Wir stellen Dynamic Tanh (DyT) vor, eine elementweise Operation DyT(x) = tanh(alpha x), als direkten Ersatz für Normalisierungsschichten in Transformern. DyT ist von der Beobachtung inspiriert, dass die Schichtnormalisierung in Transformern oft tanh-ähnliche, S-förmige Eingabe-Ausgabe-Abbildungen erzeugt. Durch die Integration von DyT können Transformer ohne Normalisierung die Leistung ihrer normalisierten Gegenstücke erreichen oder übertreffen, meist ohne Hyperparameter-Tuning. Wir validieren die Wirksamkeit von Transformern mit DyT in verschiedenen Anwendungsbereichen, von der Erkennung bis zur Generierung, von überwachtem bis zu selbstüberwachtem Lernen und von der Computer Vision bis zu Sprachmodellen. Diese Ergebnisse stellen das konventionelle Verständnis infrage, dass Normalisierungsschichten in modernen neuronalen Netzwerken unverzichtbar sind, und bieten neue Einblicke in ihre Rolle in tiefen Netzwerken.

2

Kartierung und Navigation durch Hugging Faces Modell-Atlas
Charting and Navigating Hugging Face's Model Atlas

Mar 13
ByEliahu Horwitz, Nitzan Kurer, Jonathan Kahana, Liel Amar, Yedid Hoshen
92
6

Da es mittlerweile Millionen öffentlich verfügbarer neuronaler Netze gibt, wird die Suche und Analyse großer Modell-Repositorys immer wichtiger. Die Navigation durch so viele Modelle erfordert einen Atlas, doch da die meisten Modelle nur unzureichend dokumentiert sind, ist die Erstellung eines solchen Atlas eine Herausforderung. Um das verborgene Potenzial von Modell-Repositorys zu erkunden, erstellen wir einen vorläufigen Atlas, der den dokumentierten Teil von Hugging Face repräsentiert. Dieser bietet beeindruckende Visualisierungen der Modelllandschaft und ihrer Entwicklung. Wir demonstrieren mehrere Anwendungen dieses Atlas, einschließlich der Vorhersage von Modellattributen (z. B. Genauigkeit) und der Analyse von Trends in Computervision-Modellen. Da der aktuelle Atlas jedoch unvollständig bleibt, schlagen wir eine Methode zur Kartierung undokumentierter Regionen vor. Insbesondere identifizieren wir hochvertrauenswürdige strukturelle Prioritäten basierend auf dominierenden Praktiken des Modelltrainings in der realen Welt. Durch die Nutzung dieser Prioritäten ermöglicht unser Ansatz eine präzise Kartierung bisher undokumentierter Bereiche des Atlas. Wir veröffentlichen unsere Datensätze, Code und den interaktiven Atlas öffentlich.

3

CoSTAast: Kostenempfindlicher Toolpath-Agent für mehrstufige Bildbearbeitung
CoSTAast: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing

Mar 13
ByAdvait Gupta, NandaKiran Velaga, Dang Nguyen, Tianyi Zhou
79
10

Text-to-Image-Modelle wie Stable Diffusion und DALLE-3 haben nach wie vor Schwierigkeiten mit der mehrstufigen Bildbearbeitung. Wir zerlegen eine solche Aufgabe in einen agentenbasierten Workflow (Pfad) der Werkzeugnutzung, der eine Abfolge von Teilaufgaben durch KI-Werkzeuge mit unterschiedlichen Kosten bewältigt. Konventionelle Suchalgorithmen erfordern eine aufwendige Exploration, um Werkzeugpfade zu finden. Während große Sprachmodelle (LLMs) über Vorwissen zur Planung von Teilaufgaben verfügen, fehlt ihnen oft eine genaue Einschätzung der Fähigkeiten und Kosten von Werkzeugen, um zu bestimmen, welche in jeder Teilaufgabe anzuwenden sind. Können wir die Stärken von LLMs und Graphensuche kombinieren, um kosteneffiziente Werkzeugpfade zu finden? Wir schlagen einen dreistufigen Ansatz „CoSTA*“ vor, der LLMs nutzt, um einen Teilaufgabenbaum zu erstellen, der dabei hilft, einen Graphen von KI-Werkzeugen für die gegebene Aufgabe zu beschneiden, und dann eine A*-Suche auf dem kleinen Teilgraphen durchführt, um einen Werkzeugpfad zu finden. Um die Gesamtkosten und Qualität besser auszubalancieren, kombiniert CoSTA* beide Metriken jedes Werkzeugs für jede Teilaufgabe, um die A*-Suche zu steuern. Die Ausgabe jeder Teilaufgabe wird dann durch ein Vision-Language-Modell (VLM) bewertet, wobei ein Fehler eine Aktualisierung der Kosten und Qualität des Werkzeugs für die Teilaufgabe auslöst. Somit kann die A*-Suche schnell von Fehlern zurückkehren, um andere Pfade zu erkunden. Darüber hinaus kann CoSTA* automatisch zwischen Modalitäten über Teilaufgaben hinweg wechseln, um eine bessere Kosten-Qualitäts-Abwägung zu erreichen. Wir entwickeln einen neuartigen Benchmark für anspruchsvolle mehrstufige Bildbearbeitung, auf dem CoSTA* sowohl in Bezug auf Kosten als auch Qualität die besten Bildbearbeitungsmodelle oder -agenten übertrifft und vielseitige Abwägungen basierend auf Benutzerpräferenzen ermöglicht.

4

Weltmodellierung schafft bessere Planung: Duale Präferenzoptimierung für verkörperte Aufgabenplanung
World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning

Mar 13
BySiyin Wang, Zhaoye Fei, Qinyuan Cheng, Shiduo Zhang, Panpan Cai, Jinlan Fu, Xipeng Qiu
55
7

Jüngste Fortschritte bei großen visuell-sprachlichen Modellen (LVLMs) haben vielversprechende Ansätze für die Planung von verkörperten Aufgaben gezeigt, doch sie kämpfen mit grundlegenden Herausforderungen wie Abhängigkeitsbeschränkungen und Effizienz. Bestehende Ansätze optimieren entweder ausschließlich die Aktionsauswahl oder nutzen Weltmodelle während der Inferenz, ohne die Vorteile des Lernens, die Welt zu modellieren, als Mittel zur Verbesserung der Planungsfähigkeiten zu berücksichtigen. Wir schlagen Dual Preference Optimization (D^2PO) vor, ein neues Lernframework, das die Zustandsprädiktion und die Aktionsauswahl gemeinsam durch Präferenzlernen optimiert und es LVLMs ermöglicht, die Dynamik der Umgebung für eine bessere Planung zu verstehen. Um automatisch Trajektorien und schrittweise Präferenzdaten ohne menschliche Annotation zu sammeln, führen wir einen Baum-Suchmechanismus für umfangreiche Exploration durch Versuch und Irrtum ein. Umfangreiche Experimente auf VoTa-Bench zeigen, dass unsere auf D^2PO basierende Methode bestehende Ansätze und GPT-4o bei der Anwendung auf Qwen2-VL (7B), LLaVA-1.6 (7B) und LLaMA-3.2 (11B) deutlich übertrifft und dabei überlegene Aufgaben-Erfolgsraten mit effizienteren Ausführungspfaden erreicht.

5

GoT: Entfesselung der Schlussfolgerungsfähigkeit multimodaler großer Sprachmodelle für visuelle Generierung und Bearbeitung
GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing

Mar 13
ByRongyao Fang, Chengqi Duan, Kun Wang, Linjiang Huang, Hao Li, Shilin Yan, Hao Tian, Xingyu Zeng, Rui Zhao, Jifeng Dai, Xihui Liu, Hongsheng Li
53
2

Aktuelle Methoden zur Bildgenerierung und -bearbeitung verarbeiten Textanweisungen in erster Linie als direkte Eingaben, ohne visuelle Komposition und explizite Operationen zu berücksichtigen. Wir präsentieren Generation Chain-of-Thought (GoT), ein neuartiges Paradigma, das die Generierung und Bearbeitung durch einen expliziten Sprachdenkprozess ermöglicht, bevor Bilder ausgegeben werden. Dieser Ansatz transformiert die konventionelle Text-zu-Bild-Generierung und -Bearbeitung in ein durch Denkprozesse geleitetes Framework, das semantische Beziehungen und räumliche Anordnungen analysiert. Wir definieren die Formulierung von GoT und erstellen groß angelegte GoT-Datensätze mit über 9 Millionen Proben, die detaillierte Denkketten zur Erfassung semantisch-räumlicher Beziehungen enthalten. Um die Vorteile von GoT zu nutzen, implementieren wir ein einheitliches Framework, das Qwen2.5-VL zur Generierung von Denkketten mit einem end-to-end Diffusionsmodell kombiniert, das durch unser neuartiges Semantic-Spatial Guidance Module erweitert wird. Experimente zeigen, dass unser GoT-Framework sowohl bei Generierungs- als auch bei Bearbeitungsaufgaben hervorragende Leistungen erzielt und signifikante Verbesserungen gegenüber den Baselines aufweist. Darüber hinaus ermöglicht unser Ansatz die interaktive visuelle Generierung, bei der Benutzer explizit Denkschritte anpassen können, um präzise Bildanpassungen vorzunehmen. GoT bahnt eine neue Richtung für den denkprozessgesteuerten visuellen Generierungs- und Bearbeitungsprozess ein und erzeugt Bilder, die besser mit der menschlichen Absicht übereinstimmen. Um zukünftige Forschung zu fördern, stellen wir unsere Datensätze, Code und vortrainierte Modelle öffentlich unter https://github.com/rongyaofang/GoT zur Verfügung.

6

SANA-Sprint: Ein-Schritt-Diffusion mit kontinuierlicher Zeitkonsistenz durch Destillation
SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation

Mar 12
ByJunsong Chen, Shuchen Xue, Yuyang Zhao, Jincheng Yu, Sayak Paul, Junyu Chen, Han Cai, Enze Xie, Song Han
42
4

Dieses Paper stellt SANA-Sprint vor, ein effizientes Diffusionsmodell für ultraschnelle Text-zu-Bild (T2I)-Generierung. SANA-Sprint basiert auf einem vortrainierten Basismodell und wird durch hybride Destillation erweitert, wodurch die Inferenzschritte drastisch von 20 auf 1-4 reduziert werden. Wir führen drei zentrale Innovationen ein: (1) Wir schlagen einen trainingsfreien Ansatz vor, der ein vortrainiertes Flow-Matching-Modell für die kontinuierliche Zeitkonsistenzdestillation (sCM) transformiert, wodurch kostspieliges Training von Grund auf vermieden und eine hohe Trainingseffizienz erreicht wird. Unsere hybride Destillationsstrategie kombiniert sCM mit latenter adversarieller Destillation (LADD): sCM gewährleistet die Ausrichtung am Lehrermodell, während LADD die Einzelschrittgenerationsqualität verbessert. (2) SANA-Sprint ist ein einheitliches, schrittadaptives Modell, das eine hochwertige Generierung in 1-4 Schritten erreicht, wodurch schrittspezifisches Training entfällt und die Effizienz gesteigert wird. (3) Wir integrieren ControlNet mit SANA-Sprint für die Echtzeit-Interaktionsbildgenerierung, was eine sofortige visuelle Rückmeldung für Benutzerinteraktionen ermöglicht. SANA-Sprint setzt eine neue Pareto-Grenze im Geschwindigkeits-Qualitäts-Kompromiss und erreicht mit 7,59 FID und 0,74 GenEval in nur einem Schritt state-of-the-art Leistung – übertrifft dabei FLUX-schnell (7,94 FID / 0,71 GenEval) und ist 10x schneller (0,1s vs. 1,1s auf H100). Es erreicht auch 0,1s (T2I) und 0,25s (ControlNet) Latenz für 1024 x 1024 Bilder auf H100 und 0,31s (T2I) auf einer RTX 4090, was seine außergewöhnliche Effizienz und sein Potenzial für KI-gestützte Verbraucheranwendungen (AIPC) unterstreicht. Code und vortrainierte Modelle werden Open-Source bereitgestellt.

7

VisualPRM: Ein effektives Prozess-Belohnungsmodell für multimodales Denken
VisualPRM: An Effective Process Reward Model for Multimodal Reasoning

Mar 13
ByWeiyun Wang, Zhangwei Gao, Lianjie Chen, Zhe Chen, Jinguo Zhu, Xiangyu Zhao, Yangzhou Liu, Yue Cao, Shenglong Ye, Xizhou Zhu, Lewei Lu, Haodong Duan, Yu Qiao, Jifeng Dai, Wenhai Wang
36
3

Wir stellen VisualPRM vor, ein fortschrittliches multimodales Process Reward Model (PRM) mit 8 Milliarden Parametern, das die Fähigkeiten bestehender Multimodaler Großer Sprachmodelle (MLLMs) in Bezug auf das logische Denken über verschiedene Modellgrößen und -familien hinweg durch Best-of-N (BoN)-Evaluierungsstrategien verbessert. Konkret steigert unser Modell die Leistung beim logischen Denken von drei Arten von MLLMs und vier verschiedenen Modellgrößen. Selbst bei der Anwendung auf das hochleistungsfähige InternVL2.5-78B erzielt es eine Verbesserung von 5,9 Punkten über sieben multimodale Denkbenchmarks hinweg. Experimentelle Ergebnisse zeigen, dass unser Modell im Vergleich zu Outcome Reward Models und Self-Consistency während der BoN-Evaluierung eine überlegene Leistung aufweist. Um das Training multimodaler PRMs zu erleichtern, haben wir einen multimodalen Prozessüberwachungsdatensatz, VisualPRM400K, mithilfe einer automatisierten Datenpipeline erstellt. Für die Evaluierung multimodaler PRMs schlagen wir VisualProcessBench vor, einen Benchmark mit menschlich annotierten schrittweisen Korrektheitslabels, um die Fähigkeiten von PRMs zur Erkennung fehlerhafter Schritte in multimodalen Denkaufgaben zu messen. Wir hoffen, dass unsere Arbeit zukünftige Forschungen inspirieren und zur Entwicklung von MLLMs beitragen kann. Unser Modell, die Daten und der Benchmark sind unter https://internvl.github.io/blog/2025-03-13-VisualPRM/ veröffentlicht.

8

Stiller Branding-Angriff: Triggerfreier Datenvergiftungsangriff auf Text-zu-Bild-Diffusionsmodelle
Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models

Mar 12
BySangwon Jang, June Suk Choi, Jaehyeong Jo, Kimin Lee, Sung Ju Hwang
35
2

Text-to-Image-Diffusionsmodelle haben bemerkenswerte Erfolge bei der Erzeugung hochwertiger Inhalte aus Textprompts erzielt. Ihre Abhängigkeit von öffentlich verfügbaren Daten und der zunehmende Trend des Datenaustauschs zur Feinabstimmung machen diese Modelle jedoch besonders anfällig für Data-Poisoning-Angriffe. In dieser Arbeit stellen wir den Silent Branding Attack vor, eine neuartige Methode des Data Poisoning, die Text-to-Image-Diffusionsmodelle manipuliert, um Bilder mit bestimmten Markenlogos oder Symbolen zu erzeugen, ohne dass Texttrigger erforderlich sind. Wir stellen fest, dass, wenn bestimmte visuelle Muster wiederholt in den Trainingsdaten vorkommen, das Modell lernt, diese natürlich in seinen Ausgaben zu reproduzieren, selbst ohne Erwähnung im Prompt. Dies nutzend, entwickeln wir einen automatisierten Data-Poisoning-Algorithmus, der Logos unauffällig in Originalbilder einfügt und sicherstellt, dass sie sich natürlich einfügen und unentdeckt bleiben. Modelle, die auf diesem vergifteten Datensatz trainiert werden, erzeugen Bilder, die Logos enthalten, ohne die Bildqualität oder die Textausrichtung zu beeinträchtigen. Wir validieren unseren Silent Branding Attack experimentell in zwei realistischen Szenarien auf groß angelegten, hochwertigen Bilddatensätzen und Stil-Personalisierungsdatensätzen und erzielen hohe Erfolgsraten, selbst ohne spezifischen Texttrigger. Menschliche Bewertungen und quantitative Metriken, einschließlich der Logoerkennung, zeigen, dass unsere Methode Logos unbemerkt einbetten kann.

9

4D LangSplat: 4D-Sprach-Gaussian-Splatting mittels multimodaler großer Sprachmodelle
4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models

Mar 13
ByWanhua Li, Renping Zhou, Jiawei Zhou, Yingwei Song, Johannes Herter, Minghan Qin, Gao Huang, Hanspeter Pfister
34
2

Das Erlernen von 4D-Sprachfeldern, um zeitabhängige, offene Sprachabfragen in dynamischen Szenen zu ermöglichen, ist für viele reale Anwendungen von entscheidender Bedeutung. Während LangSplat erfolgreich CLIP-Features in 3D-Gauß-Darstellungen verankert und dabei Präzision und Effizienz in statischen 3D-Szenen erreicht, fehlt ihm die Fähigkeit, dynamische 4D-Felder zu verarbeiten, da CLIP, das für statische Bild-Text-Aufgaben entwickelt wurde, keine zeitlichen Dynamiken in Videos erfassen kann. Reale Umgebungen sind von Natur aus dynamisch, wobei sich die Semantik von Objekten im Laufe der Zeit verändert. Der Aufbau eines präzisen 4D-Sprachfelds erfordert die Erfassung von pixelgenauen, objektbezogenen Video-Features, was aktuelle Vision-Modelle nur schwer leisten können. Um diese Herausforderungen zu bewältigen, schlagen wir 4D LangSplat vor, das 4D-Sprachfelder lernt, um zeitunabhängige oder zeitabhängige offene Vokabularabfragen in dynamischen Szenen effizient zu handhaben. 4D LangSplat umgeht das Erlernen des Sprachfelds aus Vision-Features und lernt stattdessen direkt aus Texten, die aus objektbezogenen Videobeschreibungen über Multimodale Große Sprachmodelle (MLLMs) generiert werden. Konkret schlagen wir eine multimodale objektbezogene Video-Prompting-Methode vor, die aus visuellen und textuellen Prompts besteht und MLLMs dazu anleitet, detaillierte, zeitlich konsistente und hochwertige Beschreibungen für Objekte in einem Video zu generieren. Diese Beschreibungen werden mithilfe eines Großen Sprachmodells in hochwertige Satz-Embeddings kodiert, die dann als pixelgenaue, objektspezifische Feature-Supervision dienen und offene Vokabular-Textabfragen durch gemeinsame Embedding-Räume ermöglichen. Da Objekte in 4D-Szenen fließende Übergänge zwischen Zuständen aufweisen, schlagen wir weiterhin ein statusverformbares Netzwerk vor, um diese kontinuierlichen Veränderungen über die Zeit effektiv zu modellieren. Unsere Ergebnisse über mehrere Benchmarks hinweg zeigen, dass 4D LangSplat präzise und effiziente Ergebnisse sowohl für zeitabhängige als auch für zeitunabhängige offene Vokabularabfragen erzielt.

10

CoRe^2: Sammeln, Reflektieren und Verfeinern, um besser und schneller zu generieren
CoRe^2: Collect, Reflect and Refine to Generate Better and Faster

Mar 12
ByShitong Shao, Zikai Zhou, Dian Xie, Yuetong Fang, Tian Ye, Lichen Bai, Zeke Xie
33
4

Die Entwicklung von Text-zu-Bild (T2I)-Generierungsmodellen, die sowohl schnell als auch qualitativ hochwertig sampeln können, stellt eine vielversprechende Forschungsrichtung dar. Bisherige Studien konzentrierten sich typischerweise entweder auf die Verbesserung der visuellen Qualität der synthetisierten Bilder auf Kosten der Sampling-Effizienz oder auf die drastische Beschleunigung des Samplings ohne Verbesserung der generativen Fähigkeiten des Basismodells. Darüber hinaus konnten nahezu alle Inferenzmethoden keine stabile Leistung gleichzeitig sowohl bei Diffusionsmodellen (DMs) als auch bei visuellen autoregressiven Modellen (ARMs) gewährleisten. In diesem Artikel stellen wir ein neuartiges Plug-and-Play-Inferenzparadigma vor, CoRe^2, das aus drei Teilprozessen besteht: Collect, Reflect und Refine. CoRe^2 sammelt zunächst Trajektorien der klassifikatorfreien Führung (CFG) und verwendet dann die gesammelten Daten, um ein schwaches Modell zu trainieren, das die leicht zu erlernenden Inhalte widerspiegelt und gleichzeitig die Anzahl der Funktionsauswertungen während der Inferenz halbiert. Anschließend nutzt CoRe^2 eine schwache-zu-starke Führung, um die bedingte Ausgabe zu verfeinern und dadurch die Fähigkeit des Modells zur Erzeugung von hochfrequenten und realistischen Inhalten zu verbessern, die für das Basismodell schwer zu erfassen sind. Nach unserem besten Wissen ist CoRe^2 das erste Modell, das sowohl Effizienz als auch Effektivität über eine breite Palette von DMs, einschließlich SDXL, SD3.5 und FLUX, sowie ARMs wie LlamaGen demonstriert. Es hat signifikante Leistungsverbesserungen auf HPD v2, Pick-of-Pic, Drawbench, GenEval und T2I-Compbench gezeigt. Darüber hinaus kann CoRe^2 nahtlos mit dem state-of-the-art Z-Sampling integriert werden und übertrifft dieses um 0,3 und 0,16 auf PickScore und AES, während es eine Zeitersparnis von 5,64 Sekunden mit SD3.5 erreicht. Der Code ist unter https://github.com/xie-lab-ml/CoRe/tree/main veröffentlicht.

11

Light-R1: Curriculum SFT, DPO und RL für langfristiges COT von Grund auf und darüber hinaus
Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond

Mar 13
ByLiang Wen, Yunke Cai, Fenrui Xiao, Xin He, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang
30
4

Dieses Papier präsentiert unsere Arbeit an der Light-R1-Serie, wobei Modelle, Daten und Code veröffentlicht werden. Zunächst konzentrieren wir uns auf das Training von langen COT-Modellen von Grund auf, insbesondere ausgehend von Modellen, die ursprünglich keine langen COT-Fähigkeiten besaßen. Mit einem Lehrplan-Trainingsrezept, das aus zweistufigem SFT und semi-on-policy DPO besteht, trainieren wir unser Modell Light-R1-32B aus Qwen2.5-32B-Instruct, was zu einer überlegenen mathematischen Leistung im Vergleich zu DeepSeek-R1-Distill-Qwen-32B führt. Obwohl Light-R1-32B ausschließlich auf mathematischen Daten trainiert wurde, zeigt es eine starke Generalisierung in anderen Domänen. In der anschließenden Phase dieser Arbeit heben wir den signifikanten Nutzen des für die zweite SFT-Stufe konstruierten 3k-Datensatzes zur Verbesserung anderer Modelle hervor. Durch das Feinabstimmen von DeepSeek-R1-Distilled-Modellen mit diesem Datensatz erhalten wir neue SOTA-Modelle in 7B und 14B, während das 32B-Modell, Light-R1-32B-DS, vergleichbar mit QwQ-32B und DeepSeek-R1 abschnitt. Darüber hinaus erweitern wir unsere Arbeit durch die Anwendung von Reinforcement Learning, speziell GRPO, auf lange COT-Modelle, um die Argumentationsleistung weiter zu verbessern. Wir trainieren erfolgreich unser finales Light-R1-14B-DS mit RL und erreichen SOTA-Leistung unter den 14B-Parameter-Modellen in der Mathematik. Mit AIME24- und 25-Werten von 74,0 bzw. 60,2 übertrifft Light-R1-14B-DS sogar viele 32B-Modelle und DeepSeek-R1-Distill-Llama-70B. Sein RL-Training zeigt auch das erwartete Verhalten, mit einer gleichzeitigen Zunahme der Antwortlänge und der Belohnungspunktzahl. Die Light-R1-Serie validiert das Training von langen COT-Modellen von Grund auf, zeigt die Kunst in SFT-Daten und veröffentlicht SOTA-Modelle aus RL.

12

OmniPaint: Beherrschung der objektorientierten Bearbeitung durch entkoppelte Einfüge-Entfernungs-Inpainting
OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting

Mar 11
ByYongsheng Yu, Ziyun Zeng, Haitian Zheng, Jiebo Luo
29
2

Diffusionsbasierte generative Modelle haben die objektorientierte Bildbearbeitung revolutioniert, doch ihr Einsatz bei der realistischen Objektentfernung und -einfügung wird weiterhin durch Herausforderungen wie das komplexe Zusammenspiel physikalischer Effekte und unzureichende gepaarte Trainingsdaten behindert. In dieser Arbeit stellen wir OmniPaint vor, ein einheitliches Framework, das die Objektentfernung und -einfügung als interdependente Prozesse neu konzipiert, anstatt sie als isolierte Aufgaben zu betrachten. Durch die Nutzung eines vortrainierten Diffusions-Priors sowie einer progressiven Trainingspipeline, die aus der Optimierung initialer gepaarter Proben und anschließender großflächiger ungepaarter Verfeinerung via CycleFlow besteht, erreicht OmniPaint eine präzise Vordergrundeliminierung und nahtlose Objekteinfügung, während die Szenengeometrie und intrinsischen Eigenschaften treu bewahrt werden. Darüber hinaus bietet unser neuartiges CFD-Metrik eine robuste, referenzfreie Bewertung der Kontextkonsistenz und Objekthalluzination und setzt damit einen neuen Maßstab für hochwertige Bildbearbeitung. Projektseite: https://yeates.github.io/OmniPaint-Page/

13

Neue Trends in der modernen maschinellen Übersetzung mit großen Reasoning-Modellen
New Trends for Modern Machine Translation with Large Reasoning Models

Mar 13
BySinuo Liu, Chenyang Lyu, Minghao Wu, Longyue Wang, Weihua Luo, Kaifu Zhang
25
2

Jüngste Fortschritte bei Large Reasoning Models (LRMs), insbesondere solchen, die Chain-of-Thought-Reasoning (CoT) nutzen, haben völlig neue Möglichkeiten für die maschinelle Übersetzung (MT) eröffnet. Dieses Positionspapier argumentiert, dass LRMs sowohl traditionelle neuronale MT als auch LLM-basierte MT-Paradigmen grundlegend verändert haben, indem sie Übersetzung als eine dynamische Denkaufgabe neu definieren, die kontextuelles, kulturelles und sprachliches Verständnis und Schlussfolgerungen erfordert. Wir identifizieren drei grundlegende Verschiebungen: 1) kontextuelle Kohärenz, bei der LRMs Mehrdeutigkeiten auflösen und Diskursstrukturen durch explizites Schlussfolgern über satzübergreifende und komplexe Kontexte oder sogar Kontextmangel bewahren; 2) kulturelle Intentionalität, die es Modellen ermöglicht, Ausgaben anzupassen, indem sie Sprecherabsicht, Publikumserwartungen und soziolinguistische Normen ableiten; 3) Selbstreflexion, bei der LRMs während der Inferenzzeit Selbstreflexion durchführen können, um potenzielle Fehler in der Übersetzung, insbesondere in extrem verrauschten Fällen, zu korrigieren, was eine bessere Robustheit im Vergleich zur einfachen X->Y-Übersetzung zeigt. Wir untersuchen verschiedene Übersetzungsszenarien, darunter stilistische Übersetzung, dokumentenbasierte Übersetzung und multimodale Übersetzung, indem wir empirische Beispiele vorstellen, die die Überlegenheit von LRMs in der Übersetzung demonstrieren. Wir identifizieren auch mehrere interessante Phänomene für LRMs in der MT, wie z.B. Auto-Pivot-Übersetzung, sowie kritische Herausforderungen wie Überlokalisierung in der Übersetzung und Inferenzeffizienz. Abschließend denken wir, dass LRMs Übersetzungssysteme nicht nur als Textkonverter, sondern als mehrsprachige kognitive Agenten neu definieren, die in der Lage sind, über die Bedeutung jenseits des Textes nachzudenken. Dieser Paradigmenwechsel erinnert uns daran, Probleme in der Übersetzung über traditionelle Übersetzungsszenarien hinaus in einem viel breiteren Kontext mit LRMs zu betrachten – was wir damit erreichen können.

14

VisualWebInstruct: Skalierung multimodaler Instruktionsdaten durch Websuche
VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search

Mar 13
ByYiming Jia, Jiachen Li, Xiang Yue, Bo Li, Ping Nie, Kai Zou, Wenhu Chen
24
2

Vision-Language-Modelle haben bei vielen wahrnehmungsorientierten Aufgaben erhebliche Fortschritte erzielt, doch ihre Fortschritte bei auf logisches Denken ausgerichteten Aufgaben scheinen aufgrund des Mangels an hochwertigen und vielfältigen Trainingsdaten begrenzt zu sein. In dieser Arbeit zielen wir darauf ab, das Problem der Knappheit von multimodalen Datensätzen mit Fokus auf logisches Denken zu beheben. Wir stellen VisualWebInstruct vor – einen neuartigen Ansatz, der Suchmaschinen nutzt, um einen vielfältigen und hochwertigen Datensatz zu erstellen, der mehrere Disziplinen wie Mathematik, Physik, Finanzen, Chemie usw. abdeckt. Ausgehend von sorgfältig ausgewählten 30.000 Ausgangsbildern verwenden wir die Google-Bildersuche, um Websites zu identifizieren, die ähnliche Bilder enthalten. Wir sammeln und verarbeiten die HTMLs von über 700.000 einzigartigen URL-Quellen. Durch eine Pipeline aus Inhaltsextraktion, Filterung und Synthese erstellen wir einen Datensatz von etwa 900.000 Frage-Antwort-Paaren, wobei 40 % visuelle Frage-Antwort-Paare und der Rest textbasierte Frage-Antwort-Paare sind. Modelle, die auf VisualWebInstruct feinabgestimmt wurden, zeigen signifikante Leistungssteigerungen: (1) Das Training ausgehend von Llava-OV-mid führt zu absoluten Gewinnen von 10-20 Prozentpunkten über verschiedene Benchmarks hinweg, (2) das Training ausgehend von MAmmoTH-VL zeigt einen absoluten Gewinn von 5 Prozent. Unser bestes Modell, MAmmoTH-VL2, zeigt Spitzenleistungen innerhalb der 10-Milliarden-Parameter-Klasse auf MMMU-Pro-std (40,7 %), MathVerse (42,6 %) und DynaMath (55,7 %). Diese bemerkenswerten Ergebnisse unterstreichen die Effektivität unseres Datensatzes bei der Verbesserung der logischen Fähigkeiten von VLMs für komplexe multimodale Aufgaben.

15

Verlagerung der Langkontext-LLM-Forschung vom Input zum Output
Shifting Long-Context LLMs Research from Input to Output

Mar 6
ByYuhao Wu, Yushi Bai, Zhiqing Hu, Shangqing Tu, Ming Shan Hee, Juanzi Li, Roy Ka-Wei Lee
22
2

Jüngste Fortschritte bei Large Language Models (LLMs) mit langem Kontext haben sich hauptsächlich auf die Verarbeitung umfangreicher Eingabekontexte konzentriert, was zu bedeutenden Fortschritten im Verständnis langer Kontexte geführt hat. Der ebenso kritische Aspekt der Erzeugung langer Ausgaben hat jedoch vergleichsweise weniger Aufmerksamkeit erhalten. Dieses Papier plädiert für einen Paradigmenwechsel in der NLP-Forschung hin zur Bewältigung der Herausforderungen der langen Ausgabegenerierung. Aufgaben wie das Schreiben von Romanen, langfristige Planung und komplexes logisches Denken erfordern, dass Modelle umfangreiche Kontexte verstehen und kohärenten, kontextuell reichhaltigen und logisch konsistenten Langtext erzeugen. Diese Anforderungen verdeutlichen eine kritische Lücke in den aktuellen Fähigkeiten von LLMs. Wir betonen die Bedeutung dieses wenig erforschten Bereichs und fordern gezielte Bemühungen zur Entwicklung grundlegender LLMs, die auf die Erzeugung hochwertiger, langer Ausgaben zugeschnitten sind, die ein immenses Potenzial für reale Anwendungen bergen.

16

Open-Sora 2.0: Training eines kommerziell einsetzbaren Videogenerierungsmodells für 200.000 US-Dollar
Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k

Mar 12
ByXiangyu Peng, Zangwei Zheng, Chenhui Shen, Tom Young, Xinying Guo, Binluo Wang, Hang Xu, Hongxin Liu, Mingyan Jiang, Wenjun Li, Yuhui Wang, Anbang Ye, Gang Ren, Qianran Ma, Wanying Liang, Xiang Lian, Xiwen Wu, Yuting Zhong, Zhuangyan Li, Chaoyu Gong, Guojun Lei, Leijun Cheng, Limin Zhang, Minghao Li, Ruijie Zhang, Silan Hu, Shijie Huang, Xiaokang Wang, Yuanheng Zhao, Yuqi Wang, Ziang Wei, Yang You
20
3

Videogenerationsmodelle haben im vergangenen Jahr bemerkenswerte Fortschritte erzielt. Die Qualität von KI-generierten Videos verbessert sich kontinuierlich, allerdings auf Kosten einer größeren Modellgröße, erhöhter Datenmenge und eines höheren Bedarfs an Trainingsrechenleistung. In diesem Bericht stellen wir Open-Sora 2.0 vor, ein kommerziell einsetzbares Videogenerationsmodell, das für nur 200.000 US-Dollar trainiert wurde. Mit diesem Modell zeigen wir, dass die Kosten für das Training eines erstklassigen Videogenerationsmodells stark kontrollierbar sind. Wir erläutern alle Techniken, die zu diesem Effizienzdurchbruch beigetragen haben, darunter Datenkuratierung, Modellarchitektur, Trainingsstrategie und Systemoptimierung. Laut menschlicher Bewertungsergebnisse und VBench-Scores ist Open-Sora 2.0 vergleichbar mit weltweit führenden Videogenerationsmodellen, einschließlich des Open-Source-Modells HunyuanVideo und des proprietären Modells Runway Gen-3 Alpha. Indem wir Open-Sora 2.0 vollständig Open-Source machen, möchten wir den Zugang zu fortschrittlicher Videogenerationstechnologie demokratisieren und so breitere Innovation und Kreativität in der Inhaltserstellung fördern. Alle Ressourcen sind öffentlich verfügbar unter: https://github.com/hpcaitech/Open-Sora.

17

DiT-Air: Eine Neubewertung der Effizienz von Diffusionsmodell-Architekturen im Text-zu-Bild-Generierungsprozess
DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation

Mar 13
ByChen Chen, Rui Qian, Wenze Hu, Tsu-Jui Fu, Lezhi Li, Bowen Zhang, Alex Schwing, Wei Liu, Yinfei Yang
19
2

In dieser Arbeit untersuchen wir empirisch Diffusion Transformers (DiTs) für die Text-zu-Bild-Generierung, mit einem Fokus auf architektonische Entscheidungen, Text-Konditionierungsstrategien und Trainingsprotokolle. Wir bewerten eine Reihe von DiT-basierten Architekturen – einschließlich PixArt-Stil- und MMDiT-Varianten – und vergleichen sie mit einer Standard-DiT-Variante, die direkt verkettete Text- und Rausch-Eingaben verarbeitet. Überraschenderweise zeigen unsere Ergebnisse, dass die Leistung der Standard-DiT mit denen der spezialisierten Modelle vergleichbar ist, während sie eine überlegene Parameter-Effizienz aufweist, insbesondere bei der Skalierung. Durch die Nutzung einer schichtenweisen Parameter-Sharing-Strategie erreichen wir eine weitere Reduzierung der Modellgröße um 66 % im Vergleich zu einer MMDiT-Architektur, bei minimalem Leistungsverlust. Basierend auf einer detaillierten Analyse kritischer Komponenten wie Text-Encoder und Variational Auto-Encoders (VAEs) führen wir DiT-Air und DiT-Air-Lite ein. Mit überwachtem und belohnungsbasiertem Fein-Tuning erreicht DiT-Air state-of-the-art Leistung auf GenEval und T2I CompBench, während DiT-Air-Lite trotz seiner kompakten Größe äußerst wettbewerbsfähig bleibt und die meisten bestehenden Modelle übertrifft.

18

GroundingSuite: Messung komplexer mehrgranularer Pixelverankerung
GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding

Mar 13
ByRui Hu, Lianghui Zhu, Yuxuan Zhang, Tianheng Cheng, Lei Liu, Heng Liu, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang
18
2

Pixel Grounding, das Aufgaben wie die Segmentierung von Referenzausdrücken (Referring Expression Segmentation, RES) umfasst, hat aufgrund seines immensen Potenzials, die Lücke zwischen visuellen und sprachlichen Modalitäten zu überbrücken, erhebliche Aufmerksamkeit erregt. Fortschritte in diesem Bereich werden jedoch derzeit durch die Einschränkungen bestehender Datensätze behindert, darunter begrenzte Objektkategorien, unzureichende textuelle Vielfalt und ein Mangel an hochwertigen Annotationen. Um diese Einschränkungen zu überwinden, stellen wir GroundingSuite vor, das Folgendes umfasst: (1) ein automatisiertes Datenannotationsframework, das mehrere Vision-Language-Modelle (VLM) nutzt; (2) einen groß angelegten Trainingsdatensatz mit 9,56 Millionen vielfältigen Referenzausdrücken und ihren entsprechenden Segmentierungen; und (3) einen sorgfältig kuratierten Evaluierungsbenchmark, bestehend aus 3.800 Bildern. Der GroundingSuite-Trainingsdatensatz ermöglicht erhebliche Leistungssteigerungen, sodass darauf trainierte Modelle state-of-the-art Ergebnisse erzielen. Konkret wird ein cIoU von 68,9 auf gRefCOCO und ein gIoU von 55,3 auf RefCOCOm erreicht. Darüber hinaus zeigt das GroundingSuite-Annotationsframework eine überlegene Effizienz im Vergleich zur derzeit führenden Methode zur Datenannotation, d. h. es ist 4,5-mal schneller als GLaMM.

19

R1-Onevision: Fortschritt in der generalisierten multimodalen Argumentation durch cross-modale Formalisierung
R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization

Mar 13
ByYi Yang, Xiaoxuan He, Hongkun Pan, Xiyan Jiang, Yan Deng, Xingtao Yang, Haoyu Lu, Dacheng Yin, Fengyun Rao, Minfeng Zhu, Bo Zhang, Wei Chen
17
3

Große Sprachmodelle haben bemerkenswerte Fähigkeiten bei der Bewältigung komplexer textbasierter Aufgaben gezeigt. Multimodales Denken, das die Integration visueller und textueller Informationen erfordert, bleibt jedoch eine erhebliche Herausforderung. Bestehende visuell-sprachliche Modelle haben oft Schwierigkeiten, visuelle Inhalte effektiv zu analysieren und zu interpretieren, was zu suboptimalen Leistungen bei komplexen Denkaufgaben führt. Darüber hinaus behindert das Fehlen umfassender Benchmarks die genaue Bewertung multimodaler Denkfähigkeiten. In diesem Artikel stellen wir R1-Onevision vor, ein multimodales Denkmodell, das die Lücke zwischen visueller Wahrnehmung und tiefgreifendem Denken schließen soll. Um dies zu erreichen, schlagen wir eine cross-modale Denkpipeline vor, die Bilder in formale textuelle Repräsentationen umwandelt und damit präzises sprachbasiertes Denken ermöglicht. Mit dieser Pipeline erstellen wir den R1-Onevision-Datensatz, der detaillierte, schrittweise multimodale Denkanmerkungen über verschiedene Domänen hinweg bietet. Wir entwickeln das R1-Onevision-Modell weiter durch überwachtes Fein-Tuning und Verstärkungslernen, um fortgeschrittene Denkfähigkeiten und robuste Generalisierungsfähigkeiten zu fördern. Um die multimodale Denkleistung über verschiedene Stufen hinweg umfassend zu bewerten, führen wir R1-Onevision-Bench ein, einen Benchmark, der an menschliche Bildungsstufen angepasst ist und Prüfungen von der Mittelschule über die Universität und darüber hinaus abdeckt. Experimentelle Ergebnisse zeigen, dass R1-Onevision Spitzenleistungen erzielt und Modelle wie GPT-4o und Qwen2.5-VL auf mehreren anspruchsvollen multimodalen Denkbenchmarks übertrifft.

20

Kommunikationseffizientes Sprachmodelltraining skaliert zuverlässig und robust: Skalierungsgesetze für DiLoCo
Communication-Efficient Language Model Training Scales Reliably and Robustly: Scaling Laws for DiLoCo

Mar 12
ByZachary Charles, Gabriel Teston, Lucio Dery, Keith Rush, Nova Fallen, Zachary Garrett, Arthur Szlam, Arthur Douillard
15
2

Während wir zu immer größeren Modellen des maschinellen Lernens skalieren, führen die inhärenten häufigen Synchronisationsanforderungen datenparalleler Ansätze zu erheblichen Verlangsamungen, was eine kritische Herausforderung für die weitere Skalierung darstellt. Neuere Arbeiten entwickeln einen Ansatz (DiLoCo), der die Synchronisationsanforderungen reduziert, ohne die Modellqualität zu beeinträchtigen. Diese Arbeiten analysieren jedoch nicht sorgfältig, wie sich das Verhalten von DiLoCo mit der Modellgröße ändert. In dieser Arbeit untersuchen wir das Skalierungsgesetzverhalten von DiLoCo beim Training von LLMs unter einem festen Rechenbudget. Wir konzentrieren uns darauf, wie algorithmische Faktoren, einschließlich der Anzahl der Modellreplikate, Hyperparameter und des Token-Budgets, das Training auf Weise beeinflussen, die durch Skalierungsgesetze genau vorhergesagt werden können. Wir stellen fest, dass DiLoCo sowohl vorhersehbar als auch robust mit der Modellgröße skaliert. Bei guter Abstimmung skaliert DiLoCo besser als datenparalleles Training mit der Modellgröße und kann datenparalleles Training sogar bei kleinen Modellgrößen übertreffen. Unsere Ergebnisse zeigen einen allgemeineren Nutzen von DiLoCo als bisher dokumentiert, einschließlich erhöhter optimaler Batch-Größen, verbesserter Downstream-Generalisierung mit der Skalierung und verbessertem Evaluationsverlust bei einem festen Token-Budget.

21

Destillieren von Diversität und Kontrolle in Diffusionsmodellen
Distilling Diversity and Control in Diffusion Models

Mar 13
ByRohit Gandikota, David Bau
14
2

Destillierte Diffusionsmodelle leiden unter einer entscheidenden Einschränkung: eine reduzierte Probenvielfalt im Vergleich zu ihren Basismodellen. In dieser Arbeit zeigen wir, dass trotz dieses Vielfaltsverlusts destillierte Modelle die grundlegenden Konzeptrepräsentationen der Basismodelle beibehalten. Wir demonstrieren Control Distillation – bei dem Kontrollmechanismen wie Concept Sliders und LoRAs, die auf Basismodellen trainiert wurden, nahtlos auf destillierte Modelle übertragen werden können und umgekehrt, wodurch die Kontrolle effektiv ohne erneutes Training destilliert wird. Diese Bewahrung der repräsentativen Struktur veranlasste uns, die Mechanismen des Vielfaltskollapses während der Destillation zu untersuchen. Um zu verstehen, wie die Destillation die Vielfalt beeinflusst, führen wir Diffusion Target (DT) Visualization ein, ein Analyse- und Debugging-Tool, das zeigt, wie Modelle endgültige Ausgaben in Zwischenschritten vorhersagen. Durch DT-Visualisierung identifizieren wir Generierungsartefakte, Inkonsistenzen und zeigen, dass die anfänglichen Diffusionszeitpunkte die Ausgabevielfalt unverhältnismäßig stark bestimmen, während spätere Schritte hauptsächlich Details verfeinern. Basierend auf diesen Erkenntnissen führen wir Diversity Distillation ein – einen hybriden Inferenzansatz, der das Basismodell strategisch nur für den ersten kritischen Zeitpunkt einsetzt, bevor es zum effizienten destillierten Modell wechselt. Unsere Experimente zeigen, dass diese einfache Modifikation nicht nur die Vielfaltfähigkeiten von Basis- zu destillierten Modellen wiederherstellt, sondern diese überraschenderweise übertrifft, während sie nahezu die Recheneffizienz der destillierten Inferenz beibehält, alles ohne zusätzliches Training oder Modifikationen. Unser Code und unsere Daten sind verfügbar unter https://distillation.baulab.info.

22

Langzeitkontextoptimierung für die Videogenerierung
Long Context Tuning for Video Generation

Mar 13
ByYuwei Guo, Ceyuan Yang, Ziyan Yang, Zhibei Ma, Zhijie Lin, Zhenheng Yang, Dahua Lin, Lu Jiang
14
2

Jüngste Fortschritte in der Videogenerierung ermöglichen die Erstellung realistischer, minutenlanger Einzelaufnahmen mit skalierbaren Diffusions-Transformatoren. Allerdings erfordern narrative Videos in der realen Welt mehrschüssige Szenen mit visueller und dynamischer Konsistenz über die Aufnahmen hinweg. In dieser Arbeit stellen wir Long Context Tuning (LCT) vor, ein Trainingsparadigma, das das Kontextfenster vortrainierter Einzelaufnahme-Videodiffusionsmodelle erweitert, um Szenenkonsistenz direkt aus den Daten zu lernen. Unser Ansatz erweitert vollständige Aufmerksamkeitsmechanismen von einzelnen Aufnahmen auf alle Aufnahmen innerhalb einer Szene, integriert verschachtelte 3D-Positions-Einbettungen und eine asynchrone Rauschstrategie, wodurch sowohl gemeinsame als auch autoregressive Aufnahmegenerierung ohne zusätzliche Parameter ermöglicht wird. Modelle mit bidirektionaler Aufmerksamkeit nach LCT können weiter mit kontextkausaler Aufmerksamkeit feinabgestimmt werden, was eine effiziente autoregressive Generierung mit KV-Cache ermöglicht. Experimente zeigen, dass Einzelaufnahme-Modelle nach LCT kohärente mehrschüssige Szenen erzeugen können und aufkommende Fähigkeiten wie kompositionelle Generierung und interaktive Aufnahmenerweiterung aufweisen, was den Weg für praktischere visuelle Inhaltserstellung ebnet. Weitere Details finden Sie unter https://guoyww.github.io/projects/long-context-video/.

23

Sehe ich für dich wie eine `Katze.n.01` aus? Ein Benchmark für die taxonomische Bildgenerierung
Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark

Mar 13
ByViktor Moskvoretskii, Alina Lobanova, Ekaterina Neminova, Chris Biemann, Alexander Panchenko, Irina Nikishina
12
2

Diese Arbeit untersucht die Machbarkeit der Verwendung von Text-zu-Bild-Modellen in einem Zero-Shot-Setup zur Generierung von Bildern für Taxonomie-Konzepte. Während textbasierte Methoden zur Anreicherung von Taxonomien gut etabliert sind, bleibt das Potenzial der visuellen Dimension unerforscht. Um dies zu adressieren, schlagen wir einen umfassenden Benchmark für die Taxonomie-Bildgenerierung vor, der die Fähigkeiten von Modellen bewertet, Taxonomie-Konzepte zu verstehen und relevante, hochwertige Bilder zu generieren. Der Benchmark umfasst Common-Sense- und zufällig ausgewählte WordNet-Konzepte sowie die von LLM generierten Vorhersagen. Die 12 Modelle werden anhand von 9 neuartigen, taxonomiebezogenen Text-zu-Bild-Metriken und menschlichem Feedback bewertet. Darüber hinaus führen wir erstmals eine paarweise Bewertung mit GPT-4-Feedback für die Bildgenerierung ein. Die experimentellen Ergebnisse zeigen, dass die Rangfolge der Modelle sich signifikant von Standard-T2I-Aufgaben unterscheidet. Playground-v2 und FLUX schneiden durchweg über alle Metriken und Teilmengen hinweg besser ab, während der retrieverbasierte Ansatz schlecht abschneidet. Diese Erkenntnisse unterstreichen das Potenzial zur Automatisierung der Kuratierung strukturierter Datenressourcen.

24

CINEMA: Kohärente Multi-Subjekt-Videogenerierung durch MLLM-basierte Steuerung
CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance

Mar 13
ByYufan Deng, Xun Guo, Yizhi Wang, Jacob Zhiyuan Fang, Angtian Wang, Shenghai Yuan, Yiding Yang, Bo Liu, Haibin Huang, Chongyang Ma
12
4

Die Videogenerierung hat mit dem Aufkommen tiefer generativer Modelle, insbesondere von Diffusionsmodellen, bemerkenswerte Fortschritte erzielt. Während bestehende Methoden in der Erzeugung hochwertiger Videos aus Textanweisungen oder Einzelbildern hervorragend sind, bleibt die personalisierte Multi-Subjekt-Videogenerierung eine weitgehend unerforschte Herausforderung. Diese Aufgabe umfasst die Synthese von Videos, die mehrere unterschiedliche Subjekte integrieren, die jeweils durch separate Referenzbilder definiert sind, wobei zeitliche und räumliche Konsistenz gewährleistet wird. Aktuelle Ansätze stützen sich hauptsächlich darauf, Subjektbilder auf Schlüsselwörter in Textanweisungen abzubilden, was Mehrdeutigkeiten einführt und ihre Fähigkeit zur effektiven Modellierung von Subjektbeziehungen einschränkt. In diesem Artikel stellen wir CINEMA vor, ein neuartiges Framework für die kohärente Multi-Subjekt-Videogenerierung, das auf Multimodalen Großen Sprachmodellen (MLLM) basiert. Unser Ansatz eliminiert die Notwendigkeit expliziter Korrespondenzen zwischen Subjektbildern und Textentitäten, reduziert Mehrdeutigkeiten und verringert den Annotationsaufwand. Indem wir MLLM nutzen, um Subjektbeziehungen zu interpretieren, ermöglicht unsere Methode Skalierbarkeit und die Verwendung großer und vielfältiger Datensätze für das Training. Darüber hinaus kann unser Framework auf eine variable Anzahl von Subjekten konditioniert werden, was eine größere Flexibilität bei der Erstellung personalisierter Inhalte bietet. Durch umfangreiche Evaluierungen zeigen wir, dass unser Ansatz die Subjektkonsistenz und die Gesamtkohärenz von Videos signifikant verbessert und den Weg für fortgeschrittene Anwendungen im Storytelling, interaktiven Medien und der personalisierten Videogenerierung ebnet.

25

Über die Grenzen von Vision-Sprache-Modellen beim Verständnis von Bildtransformationen
On the Limitations of Vision-Language Models in Understanding Image Transforms

Mar 12
ByAhmad Mustafa Anis, Hasnain Ali, Saquib Sarfraz
10
2

Vision Language Models (VLMs) haben ein erhebliches Potenzial in verschiedenen nachgelagerten Aufgaben gezeigt, darunter Bild-/Videogenerierung, Visuelles Frage-Antworten, Multimodale Chatbots und Videoverständnis. Diese Modelle haben jedoch oft Schwierigkeiten mit grundlegenden Bildtransformationen. Diese Arbeit untersucht das Bildverständnis von VLMs, insbesondere CLIP von OpenAI und SigLIP von Google. Unsere Ergebnisse zeigen, dass diese Modelle kein Verständnis für multiple Bildtransformationen aufweisen. Um diese Studie zu ermöglichen, haben wir eine erweiterte Version des Flickr8k-Datensatzes erstellt, bei der jedes Bild mit einer detaillierten Beschreibung der angewandten Transformation gepaart ist. Wir untersuchen weiterhin, wie sich diese Schwäche auf nachgelagerte Aufgaben auswirkt, insbesondere bei der Bildbearbeitung, und bewerten die Leistung von state-of-the-art Image2Image-Modellen bei einfachen Transformationen.

26

Autoregressive Bildgenerierung mit randomisierter paralleler Dekodierung
Autoregressive Image Generation with Randomized Parallel Decoding

Mar 13
ByHaopeng Li, Jinyue Yang, Guoqi Li, Huan Wang
9
2

Wir stellen ARPG vor, ein neuartiges visuelles autoregressives Modell, das eine randomisierte parallele Generierung ermöglicht und damit die inhärenten Einschränkungen konventioneller Rasterordnungsansätze adressiert, die die Inferenzeffizienz und Zero-Shot-Generalisierung aufgrund ihrer sequenziellen, vordefinierten Token-Generierungsreihenfolge behindern. Unsere zentrale Erkenntnis ist, dass eine effektive Modellierung in zufälliger Reihenfolge eine explizite Anleitung zur Bestimmung der Position des nächsten vorhergesagten Tokens erfordert. Zu diesem Zweck schlagen wir ein neuartiges geführtes Decoding-Framework vor, das die Positionsführung von der Inhaltsdarstellung entkoppelt und sie separat als Abfragen und Schlüssel-Wert-Paare kodiert. Durch die direkte Integration dieser Anleitung in den kausalen Aufmerksamkeitsmechanismus ermöglicht unser Ansatz ein vollständig zufälliges Training und eine zufällige Generierung, wodurch die Notwendigkeit einer bidirektionalen Aufmerksamkeit entfällt. Folglich generalisiert ARPG problemlos auf Zero-Shot-Aufgaben wie Bildinpainting, Outpainting und Auflösungserweiterung. Darüber hinaus unterstützt es die parallele Inferenz durch die gleichzeitige Verarbeitung mehrerer Abfragen unter Verwendung eines gemeinsamen KV-Caches. Auf dem ImageNet-1K 256-Benchmark erreicht unser Ansatz einen FID von 1,94 mit nur 64 Sampling-Schritten und erzielt dabei eine mehr als 20-fache Steigerung des Durchsatzes bei gleichzeitiger Reduzierung des Speicherverbrauchs um über 75 % im Vergleich zu repräsentativen aktuellen autoregressiven Modellen ähnlicher Größe.

27

ConsisLoRA: Verbesserung der Inhalts- und Stilkonsistenz für LoRA-basierten Stiltransfer
ConsisLoRA: Enhancing Content and Style Consistency for LoRA-based Style Transfer

Mar 13
ByBolin Chen, Baoquan Zhao, Haoran Xie, Yi Cai, Qing Li, Xudong Mao
8
2

Stiltransfer beinhaltet die Übertragung des Stils eines Referenzbildes auf den Inhalt eines Zielbildes. Jüngste Fortschritte in LoRA-basierten (Low-Rank Adaptation) Methoden haben vielversprechende Ergebnisse bei der effektiven Erfassung des Stils eines einzelnen Bildes gezeigt. Diese Ansätze stehen jedoch weiterhin vor erheblichen Herausforderungen wie Inhaltsinkonsistenz, Stilfehlausrichtung und Inhaltsdurchsickern. In diesem Papier analysieren wir umfassend die Grenzen der standardmäßigen Diffusionsparametrisierung, die darauf abzielt, Rauschen vorherzusagen, im Kontext des Stiltransfers. Um diese Probleme zu lösen, führen wir ConsisLoRA ein, eine LoRA-basierte Methode, die sowohl die Inhalts- als auch die Stilkonsistenz verbessert, indem die LoRA-Gewichte optimiert werden, um das Originalbild anstelle von Rauschen vorherzusagen. Wir schlagen außerdem eine zweistufige Trainingsstrategie vor, die das Lernen von Inhalt und Stil aus dem Referenzbild entkoppelt. Um sowohl die globale Struktur als auch die lokalen Details des Inhaltsbildes effektiv zu erfassen, führen wir eine schrittweise Verlustübergangsstrategie ein. Zusätzlich präsentieren wir eine Inferenzführungsmethode, die eine kontinuierliche Steuerung der Inhalts- und Stilstärken während der Inferenz ermöglicht. Durch sowohl qualitative als auch quantitative Bewertungen zeigt unsere Methode signifikante Verbesserungen in der Inhalts- und Stilkonsistenz bei gleichzeitiger effektiver Reduzierung von Inhaltsdurchsickern.

28

Zusammensetzen: Teilbasierte Konzeptentwicklung mit IP-Priors
Piece it Together: Part-Based Concepting with IP-Priors

Mar 13
ByElad Richardson, Kfir Goldberg, Yuval Alaluf, Daniel Cohen-Or
8
2

Fortgeschrittene generative Modelle sind hervorragend in der Synthese von Bildern, verlassen sich jedoch oft auf textbasierte Konditionierung. Visuelle Designer arbeiten jedoch häufig jenseits der Sprache und lassen sich direkt von bestehenden visuellen Elementen inspirieren. In vielen Fällen repräsentieren diese Elemente nur Fragmente eines potenziellen Konzepts – wie ein einzigartig strukturierter Flügel oder eine spezifische Frisur – und dienen als Inspiration für den Künstler, um zu erkunden, wie sie kreativ zu einem kohärenten Ganzen zusammengeführt werden können. Um diesem Bedarf gerecht zu werden, stellen wir ein generatives Framework vor, das eine partielle Menge von benutzerbereitgestellten visuellen Komponenten nahtlos in eine kohärente Komposition integriert und gleichzeitig die fehlenden Teile abtastet, die benötigt werden, um ein plausibles und vollständiges Konzept zu generieren. Unser Ansatz baut auf einem starken und bisher wenig erforschten Repräsentationsraum auf, der aus IP-Adapter+ extrahiert wird, auf dem wir IP-Prior trainieren, ein leichtgewichtiges Flow-Matching-Modell, das kohärente Kompositionen basierend auf domänenspezifischen Priors synthetisiert und dadurch vielfältige und kontextbewusste Generationen ermöglicht. Zusätzlich präsentieren wir eine LoRA-basierte Feinabstimmungsstrategie, die die Prompt-Treue in IP-Adapter+ für eine bestimmte Aufgabe signifikant verbessert und damit den üblichen Kompromiss zwischen Rekonstruktionsqualität und Prompt-Treue adressiert.

29

Quantisierung für OpenAI's Whisper-Modelle: Eine vergleichende Analyse
Quantization for OpenAI's Whisper Models: A Comparative Analysis

Mar 12
ByAllison Andreyev
7
2

Automatisierte Spracherkennungsmodelle (ASR) haben an Bedeutung gewonnen für Anwendungen wie Untertitelung, Sprachübersetzung und Live-Transkription. Diese Arbeit untersucht Whisper und zwei Modellvarianten: eine für Live-Sprachstreaming optimierte und eine für Offline-Transkription. Bemerkenswerterweise wurde festgestellt, dass diese Modelle halluzinierte Inhalte erzeugen, was die Zuverlässigkeit der Transkription verringert. Darüber hinaus weisen größere Modellvarianten eine erhöhte Latenz auf und stellen Herausforderungen für die Bereitstellung auf ressourcenbeschränkten Geräten dar. Diese Studie analysiert die Gemeinsamkeiten und Unterschiede zwischen drei Whisper-Modellen und untersucht qualitativ deren spezifische Fähigkeiten. Anschließend quantifiziert diese Studie die Auswirkungen der Modellquantisierung auf die Latenz und bewertet deren Eignung für den Einsatz auf Edge-Geräten. Unter Verwendung des Open-Source-Datensatzes LibriSpeech evaluiert diese Arbeit die Wortfehlerrate (WER) sowie die Latenzanalyse von whispercpp mit drei Quantisierungsmethoden (INT4, INT5, INT8). Die Ergebnisse zeigen, dass die Quantisierung die Latenz um 19\% und die Modellgröße um 45\% reduziert, während die Transkriptionsgenauigkeit erhalten bleibt. Diese Erkenntnisse bieten Einblicke in die optimalen Anwendungsfälle verschiedener Whisper-Modelle und die Möglichkeiten der Bereitstellung auf Edge-Geräten. Der gesamte Code, die Datensätze und Implementierungsdetails sind in einem öffentlichen GitHub-Repository verfügbar: https://github.com/allisonandreyev/WhisperQuantization.git.

30

Entdeckung einflussreicher Neuronpfade in Vision Transformers
Discovering Influential Neuron Path in Vision Transformers

Mar 12
ByYifan Wang, Yifei Liu, Yingdong Shi, Changming Li, Anqi Pang, Sibei Yang, Jingyi Yu, Kan Ren
7
2

Vision Transformer-Modelle zeigen immense Leistungsfähigkeit, bleiben jedoch für das menschliche Verständnis undurchsichtig, was Herausforderungen und Risiken für praktische Anwendungen mit sich bringt. Während frühere Forschungsarbeiten versucht haben, diese Modelle durch Eingabeattribution und Neuronrollenanalyse zu entschlüsseln, gab es eine bemerkenswerte Lücke in der Berücksichtigung von Ebeneninformationen und dem ganzheitlichen Pfad des Informationsflusses über die Ebenen hinweg. In diesem Artikel untersuchen wir die Bedeutung einflussreicher Neuronpfade innerhalb von Vision Transformern, wobei ein Neuronpfad eine Sequenz von Neuronen vom Modelleingang zum -ausgang darstellt, die den Modellschluss am stärksten beeinflusst. Wir schlagen zunächst ein gemeinsames Einflussmaß vor, um den Beitrag einer Gruppe von Neuronen zum Modellergebnis zu bewerten. Darüber hinaus bieten wir einen schichtenprogressiven Ansatz zur Lokalisierung von Neuronen an, der effizient das einflussreichste Neuron in jeder Ebene auswählt, um den entscheidenden Neuronpfad vom Eingang zum Ausgang innerhalb des Zielmodells zu entdecken. Unsere Experimente demonstrieren die Überlegenheit unserer Methode bei der Identifizierung des einflussreichsten Neuronpfads, entlang dem der Informationsfluss verläuft, gegenüber bestehenden Baseline-Lösungen. Zusätzlich zeigen die Neuronpfade, dass Vision Transformer spezifische innere Arbeitsmechanismen für die Verarbeitung visueller Informationen innerhalb derselben Bildkategorie aufweisen. Wir analysieren weiterhin die Schlüsseleffekte dieser Neuronen auf die Bildklassifikationsaufgabe und zeigen, dass die gefundenen Neuronpfade bereits die Modellfähigkeit für nachgelagerte Aufgaben bewahren, was auch Licht auf reale Anwendungen wie Modellbeschneidung werfen könnte. Die Projektwebsite inklusive Implementierungscode ist unter https://foundation-model-research.github.io/NeuronPath/ verfügbar.

31

UniGoal: Auf dem Weg zur universellen Nullschuss-Zielnavigation
UniGoal: Towards Universal Zero-shot Goal-oriented Navigation

Mar 13
ByHang Yin, Xiuwei Xu, Lingqing Zhao, Ziwei Wang, Jie Zhou, Jiwen Lu
6
2

In diesem Artikel schlagen wir einen allgemeinen Rahmen für universelle Zero-Shot-Zielnavigation vor. Bestehende Zero-Shot-Methoden bauen Inferenzframeworks auf großen Sprachmodellen (LLM) für spezifische Aufgaben auf, die sich stark in der Gesamtpipeline unterscheiden und nicht über verschiedene Zieltypen hinweg verallgemeinern können. Um das Ziel der universellen Zero-Shot-Navigation zu erreichen, schlagen wir eine einheitliche Graph-Darstellung vor, um verschiedene Ziele zu vereinheitlichen, einschließlich Objektkategorie, Instanzbild und Textbeschreibung. Wir wandeln auch die Beobachtung des Agenten in einen online gepflegten Szenengraphen um. Mit dieser konsistenten Szenen- und Zielrepräsentation bewahren wir die meisten strukturellen Informationen im Vergleich zu reinem Text und können LLM für explizite graphenbasierte Schlussfolgerungen nutzen. Konkret führen wir zu jedem Zeitpunkt eine Graph-Zuordnung zwischen dem Szenengraphen und dem Zielgraphen durch und schlagen verschiedene Strategien vor, um langfristige Erkundungsziele basierend auf unterschiedlichen Zuordnungszuständen zu generieren. Der Agent sucht zunächst iterativ nach einem Teilgraphen des Ziels, wenn keine Übereinstimmung vorliegt. Bei teilweiser Übereinstimmung nutzt der Agent dann Koordinatenprojektion und Ankerpaarausrichtung, um die Zielposition abzuleiten. Schließlich werden Szenengraphenkorrektur und Zielverifikation für eine perfekte Übereinstimmung angewendet. Wir führen auch einen Blacklist-Mechanismus ein, um einen robusten Wechsel zwischen den Phasen zu ermöglichen. Umfangreiche Experimente auf mehreren Benchmarks zeigen, dass unser UniGoal mit einem einzigen Modell state-of-the-art Zero-Shot-Leistungen bei drei untersuchten Navigationsaufgaben erzielt und sogar aufgabenspezifische Zero-Shot-Methoden und überwachte universelle Methoden übertrifft.

32

MinorBench: Ein manuell erstellter Benchmark für inhaltsbasierte Risiken für Kinder
MinorBench: A hand-built benchmark for content-based risks for children

Mar 13
ByShaun Khoo, Gabriel Chua, Rachel Shong
5
3

Große Sprachmodelle (LLMs) dringen zunehmend in das Leben von Kindern ein – sei es durch die Nutzung seitens der Eltern, in Schulen oder über Peer-Netzwerke – doch die aktuelle Forschung zu KI-Ethik und Sicherheit berücksichtigt die inhaltsbezogenen Risiken für Minderjährige nicht ausreichend. In diesem Artikel beleuchten wir diese Lücken anhand einer Fallstudie eines LLM-basierten Chatbots, der in einer Mittelschule eingesetzt wurde, und zeigen auf, wie Schüler das System genutzt und teilweise missbraucht haben. Aufbauend auf diesen Erkenntnissen schlagen wir eine neue Taxonomie inhaltsbezogener Risiken für Minderjährige vor und stellen MinorBench vor, einen Open-Source-Benchmark, der entwickelt wurde, um LLMs hinsichtlich ihrer Fähigkeit zu bewerten, unsichere oder unangemessene Anfragen von Kindern abzulehnen. Wir evaluieren sechs bekannte LLMs unter verschiedenen System-Prompts und zeigen erhebliche Unterschiede in ihrer Einhaltung von Kindersicherheitsstandards auf. Unsere Ergebnisse liefern praktische Ansätze für robustere, kindgerechte Sicherheitsmechanismen und unterstreichen die Dringlichkeit, KI-Systeme so anzupassen, dass junge Nutzer geschützt werden.

33

"Stille ist nicht wirklich stille": Eine Untersuchung von Toxizität in Diskussionen über Fehlerberichte
"Silent Is Not Actually Silent": An Investigation of Toxicity on Bug Report Discussion

Mar 13
ByMia Mohammad Imran, Jaydeb Sarker
4
2

Toxizität in Diskussionen über Bug-Reports stellt erhebliche Herausforderungen für die kollaborative Dynamik der Open-Source-Softwareentwicklung dar. Bug-Reports sind entscheidend für die Identifizierung und Behebung von Fehlern, doch ihre inhärent problemorientierte Natur und emotional aufgeladene Kontexte machen sie anfällig für toxische Interaktionen. Diese Studie untersucht Toxizität in GitHub-Bug-Reports durch eine qualitative Analyse von 203 Bug-Threads, darunter 81 toxische. Unsere Ergebnisse zeigen, dass Toxizität häufig aus Fehlwahrnehmungen der Fehlerschwere und -priorität, ungelösten Frustrationen mit Tools und Lücken in der professionellen Kommunikation entsteht. Diese toxischen Interaktionen unterbrechen nicht nur produktive Diskussionen, sondern verringern auch die Wahrscheinlichkeit von umsetzbaren Ergebnissen, wie der Verknüpfung von Issues mit Pull-Requests. Unsere vorläufigen Erkenntnisse bieten umsetzbare Empfehlungen zur Verbesserung der Bug-Behebung durch die Reduzierung von Toxizität.

34

TruthPrInt: Minderung von LVLM-Objekt-Halluzinationen durch latente wahrheitsbasierte Vor-Intervention
TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention

Mar 13
ByJinhao Duan, Fei Kong, Hao Cheng, James Diffenderfer, Bhavya Kailkhura, Lichao Sun, Xiaofeng Zhu, Xiaoshuang Shi, Kaidi Xu
4
2

Objekt-Halluzination (OH) wird als eine der größten Herausforderungen in Bezug auf die Vertrauenswürdigkeit von großen visuell-sprachlichen Modellen (Large Vision-Language Models, LVLMs) anerkannt. Jüngste Fortschritte bei großen Sprachmodellen (Large Language Models, LLMs) deuten darauf hin, dass interne Zustände, wie beispielsweise versteckte Zustände, die „Gesamtwahrhaftigkeit“ generierter Antworten kodieren. Es bleibt jedoch weitgehend unerforscht, wie interne Zustände in LVLMs funktionieren und ob sie als „pro-Token“-Halluzinationsindikatoren dienen könnten, was für die Minderung von OH entscheidend wäre. In diesem Papier führen wir zunächst eine eingehende Untersuchung der internen Zustände von LVLMs in Bezug auf OH-Probleme durch und entdecken, dass (1) interne Zustände von LVLMs hochspezifische pro-Token-Indikatoren für Halluzinationsverhalten sind. Darüber hinaus (2) kodieren verschiedene LVLMs universelle Muster von Halluzinationen in gemeinsamen latenten Unterräumen, was darauf hindeutet, dass es „generische wahrhaftige Richtungen“ gibt, die von verschiedenen LVLMs geteilt werden. Basierend auf diesen Erkenntnissen schlagen wir Truthful-Guided Pre-Intervention (TruthPrInt) vor, das zunächst die wahrhaftige Richtung der LVLM-Decodierung lernt und dann eine wahrhaftigkeitsgeleitete Intervention zur Inferenzzeit während der LVLM-Decodierung anwendet. Weiterhin schlagen wir ComnHallu vor, um sowohl die übergreifende LVLM- als auch die übergreifende Daten-Halluzinationserkennungstransferierbarkeit zu verbessern, indem Halluzinations-latente Unterräume konstruiert und ausgerichtet werden. Wir evaluieren TruthPrInt in umfangreichen experimentellen Settings, einschließlich In-Domain- und Out-of-Domain-Szenarien, über beliebte LVLMs und OH-Benchmarks. Die experimentellen Ergebnisse zeigen, dass TruthPrInt state-of-the-art-Methoden deutlich übertrifft. Der Code wird unter https://github.com/jinhaoduan/TruthPrInt verfügbar sein.

35

Eine frustrierend einfache, aber äußerst effektive Angriffsgrundlage: Über 90% Erfolgsrate gegen die starken Black-Box-Modelle von GPT-4.5/4o/o1.
A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1

Mar 13
ByZhaoyi Li, Xiaohan Zhao, Dong-Dong Wu, Jiacheng Cui, Zhiqiang Shen
4
2

Trotz vielversprechender Leistungen bei Open-Source-Modellen für große visuell-sprachliche Modelle (LVLMs) scheitern transferbasierte gezielte Angriffe häufig bei kommerziellen Black-Box-LVLMs. Die Analyse gescheiterter adversarieller Perturbationen zeigt, dass die erlernten Perturbationen typischerweise aus einer gleichmäßigen Verteilung stammen und klare semantische Details vermissen, was zu unerwünschten Reaktionen führt. Dieses kritische Fehlen semantischer Informationen führt dazu, dass kommerzielle LVLMs die Perturbation entweder vollständig ignorieren oder die eingebettete Semantik falsch interpretieren, wodurch der Angriff scheitert. Um diese Probleme zu überwinden, stellen wir fest, dass die Identifizierung von Kernsemantikobjekten ein zentrales Ziel für Modelle ist, die mit verschiedenen Datensätzen und Methoden trainiert wurden. Diese Erkenntnis motiviert unseren Ansatz, der die semantische Klarheit verbessert, indem explizite semantische Details in lokalen Regionen kodiert werden, wodurch Interoperabilität sichergestellt und feinere Merkmale erfasst werden, und indem Modifikationen auf semantisch reiche Bereiche konzentriert werden, anstatt sie gleichmäßig anzuwenden. Um dies zu erreichen, schlagen wir eine einfache, aber äußerst effektive Lösung vor: In jedem Optimierungsschritt wird das adversarielle Bild zufällig mit einem kontrollierten Seitenverhältnis und Maßstab beschnitten, skaliert und dann im Einbettungsraum mit dem Zielbild ausgerichtet. Experimentelle Ergebnisse bestätigen unsere Hypothese. Unsere adversariellen Beispiele, die mit lokal aggregierten Perturbationen erstellt wurden, die sich auf entscheidende Regionen konzentrieren, zeigen eine überraschend gute Übertragbarkeit auf kommerzielle LVLMs, einschließlich GPT-4.5, GPT-4o, Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet und sogar Denkmodelle wie o1, Claude-3.7-thinking und Gemini-2.0-flash-thinking. Unser Ansatz erreicht Erfolgsraten von über 90 % bei GPT-4.5, 4o und o1 und übertrifft damit alle bisherigen state-of-the-art Angriffsmethoden deutlich. Unsere optimierten adversariellen Beispiele unter verschiedenen Konfigurationen und Trainingscode sind verfügbar unter https://github.com/VILA-Lab/M-Attack.

36

PerCoV2: Verbesserte Ultra-Niedrigbitraten-Perzeptuelle Bildkompression mit Implizitem Hierarchischem Maskiertem Bildmodellierung
PerCoV2: Improved Ultra-Low Bit-Rate Perceptual Image Compression with Implicit Hierarchical Masked Image Modeling

Mar 12
ByNikolai Körber, Eduard Kromer, Andreas Siebert, Sascha Hauke, Daniel Mueller-Gritschneder, Björn Schuller
3
2

Wir stellen PerCoV2 vor, ein neuartiges und offenes System zur ultra-niedrigbitratigen Wahrnehmungsbildkompression, das für Anwendungen mit begrenzter Bandbreite und Speicherkapazität entwickelt wurde. Aufbauend auf früheren Arbeiten von Careil et al. erweitert PerCoV2 die ursprüngliche Formulierung auf das Stable Diffusion 3-Ökosystem und verbessert die Effizienz der Entropiekodierung durch explizite Modellierung der diskreten Hyper-Latent-Bildverteilung. Zu diesem Zweck führen wir einen umfassenden Vergleich aktueller autoregressiver Methoden (VAR und MaskGIT) für die Entropiemodellierung durch und bewerten unseren Ansatz auf dem groß angelegten MSCOCO-30k-Benchmark. Im Vergleich zu früheren Arbeiten erreicht PerCoV2 (i) eine höhere Bildtreue bei noch niedrigeren Bitraten, während es eine wettbewerbsfähige wahrnehmungsbezogene Qualität beibehält, (ii) verfügt über einen hybriden Generierungsmodus für weitere Bitrateneinsparungen und (iii) basiert ausschließlich auf öffentlich zugänglichen Komponenten. Code und trainierte Modelle werden unter https://github.com/Nikolai10/PerCoV2 veröffentlicht.

37

Der Fluch der Bedingungen: Analyse und Verbesserung des Optimalen Transports für bedingte flussbasierte Generierung
The Curse of Conditions: Analyzing and Improving Optimal Transport for Conditional Flow-Based Generation

Mar 13
ByHo Kei Cheng, Alexander Schwing
3
2

Minibatch Optimal Transport-Kopplung begradigt Pfade im unkonditionellen Flow-Matching. Dies führt zu einem rechnerisch weniger aufwändigen Inferenzprozess, da weniger Integrationsschritte und weniger komplexe numerische Löser eingesetzt werden können, wenn zur Testzeit eine gewöhnliche Differentialgleichung numerisch gelöst wird. Im konditionellen Setting hingegen reicht Minibatch Optimal Transport nicht aus. Dies liegt daran, dass die standardmäßige Optimal-Transport-Abbildung die Bedingungen ignoriert, was zu einer konditionell verzerrten Prior-Verteilung während des Trainings führt. Zur Testzeit haben wir jedoch keinen Zugriff auf diese verzerrte Prior-Verteilung, sondern stichproben aus der vollständigen, unverzerrten Prior-Verteilung. Diese Diskrepanz zwischen Training und Test führt zu einer suboptimalen Leistung. Um diese Lücke zu schließen, schlagen wir Conditional Optimal Transport (C²OT) vor, das einen konditionellen Gewichtungsterm in die Kostenmatrix einfügt, wenn die Optimal-Transport-Zuordnung berechnet wird. Experimente zeigen, dass diese einfache Anpassung sowohl mit diskreten als auch kontinuierlichen Bedingungen in 8gaussians-to-moons, CIFAR-10, ImageNet-32x32 und ImageNet-256x256 funktioniert. Unsere Methode schneidet insgesamt besser ab als die bestehenden Baselines über verschiedene Funktionsauswertungsbudgets hinweg. Der Code ist verfügbar unter https://hkchengrex.github.io/C2OT.

38

PoseLess: Tiefenfreie Vision-zu-Gelenk-Steuerung durch direkte Bildabbildung mit VLM
PoseLess: Depth-Free Vision-to-Joint Control via Direct Image Mapping with VLM

Mar 10
ByAlan Dao, Dinh Bach Vu, Tuan Le Duc Anh, Bui Quang Huy
3
2

Dieses Papier stellt PoseLess vor, ein neuartiges Framework zur Steuerung von Roboterhänden, das die Notwendigkeit expliziter Pose-Schätzung eliminiert, indem es 2D-Bilder direkt auf Gelenkwinkel abbildet, indem projizierte Repräsentationen verwendet werden. Unser Ansatz nutzt synthetische Trainingsdaten, die durch randomisierte Gelenkkonfigurationen generiert werden, was eine Null-Shot-Generalisierung auf reale Szenarien und einen Transfer über Morphologien hinweg von Roboter- zu menschlichen Händen ermöglicht. Durch die Projektion visueller Eingaben und den Einsatz eines transformer-basierten Decoders erreicht PoseLess eine robuste, latenzarme Steuerung und adressiert dabei Herausforderungen wie Tiefenambiguität und Datenknappheit. Experimentelle Ergebnisse zeigen eine wettbewerbsfähige Leistung bei der Genauigkeit der Gelenkwinkelvorhersage, ohne auf menschlich annotierte Datensätze angewiesen zu sein.

39

Untersuchung von Classifier(-Free) Guidance aus einer klassifikatorzentrierten Perspektive
Studying Classifier(-Free) Guidance From a Classifier-Centric Perspective

Mar 13
ByXiaoming Zhao, Alexander G. Schwing
2
2

Classifier-free Guidance hat sich zu einem Standardwerkzeug für die bedingte Generierung mit Denoising-Diffusionsmodellen entwickelt. Dennoch fehlt ein umfassendes Verständnis von Classifier-free Guidance. In dieser Arbeit führen wir eine empirische Studie durch, um eine neue Perspektive auf Classifier-free Guidance zu bieten. Konkret gehen wir nicht nur auf Classifier-free Guidance ein, sondern kehren zu den Wurzeln zurück, d.h. zur Classifier Guidance, identifizieren die zentrale Annahme für die Herleitung und führen eine systematische Studie durch, um die Rolle des Classifiers zu verstehen. Wir stellen fest, dass sowohl Classifier Guidance als auch Classifier-free Guidance die bedingte Generierung erreichen, indem sie die Denoising-Diffusionspfade von Entscheidungsgrenzen wegdrücken, d.h. von Bereichen, in denen bedingte Informationen typischerweise verflochten und schwer zu erlernen sind. Basierend auf diesem classifier-zentrierten Verständnis schlagen wir einen generischen Nachbearbeitungsschritt vor, der auf Flow-Matching aufbaut, um die Lücke zwischen der gelernten Verteilung eines vortrainierten Denoising-Diffusionsmodells und der realen Datenverteilung zu verringern, insbesondere in der Nähe der Entscheidungsgrenzen. Experimente auf verschiedenen Datensätzen bestätigen die Wirksamkeit des vorgeschlagenen Ansatzes.

Mar 13
Mar 14
Mar 17