papers.title

papers.description

ShowUI: Ein Vision-Sprache-Aktion-Modell für GUI-Visuelle Agenten
ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Nov 26

ByKevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou

Der Aufbau von Graphical User Interface (GUI)-Assistenten birgt ein großes Potenzial zur Steigerung der Produktivität menschlicher Arbeitsabläufe. Während die meisten Agenten sprachbasiert sind und auf Closed-Source-APIs mit textreichen Metainformationen (z. B. HTML oder Zugänglichkeitsbaum) angewiesen sind, zeigen sie Einschränkungen bei der Wahrnehmung von Benutzeroberflächen wie Menschen, was die Notwendigkeit von GUI-Visuellen Agenten unterstreicht. In dieser Arbeit entwickeln wir ein Vision-Sprache-Aktionsmodell in der digitalen Welt, namens ShowUI, das folgende Innovationen aufweist: (i) UI-geführte visuelle Token-Auswahl zur Reduzierung von Rechenkosten durch Formulierung von Bildschirmfotos als UI-verbundener Graph, adaptives Identifizieren ihrer redundanten Beziehung und als Kriterium für die Token-Auswahl während der Selbst-Aufmerksamkeitsblöcke dient; (ii) Verflochtener Vision-Sprache-Aktions-Stream, der unterschiedliche Anforderungen innerhalb von GUI-Aufgaben flexibel vereint, eine effektive Verwaltung von visuell-aktionsgeschichtlichen Navigations- oder Paarungs-Mehrwege-Abfrage-Aktionssequenzen pro Bildschirmfoto ermöglicht, um die Trainingseffizienz zu steigern; (iii) Kleinmaßstäbliche hochwertige GUI-Anweisungsfolge-Datensätze durch sorgfältige Datenaufbereitung und Einsatz einer Neubeprobungsstrategie zur Bewältigung signifikanter Datentyp-Ungleichgewichte. Mit den oben genannten Komponenten erreicht ShowUI, ein leichtgewichtiges 2B-Modell unter Verwendung von 256K Daten, eine starke Genauigkeit von 75,1% bei der Nullschuss-Bildschirmfotoverankerung. Die UI-geführte Token-Auswahl reduziert während des Trainings weitere 33% redundanter visueller Tokens und beschleunigt die Leistung um das 1,4-fache. Navigations-Experimente über die Web Mind2Web, mobile AITW und Online MiniWob-Umgebungen unterstreichen weiter die Effektivität und das Potenzial unseres Modells bei der Weiterentwicklung von GUI-Visuellen Agenten. Die Modelle sind unter https://github.com/showlab/ShowUI verfügbar.

Pfade auf dem Bildmanifold: Bildbearbeitung durch Videogenerierung
Pathways on the Image Manifold: Image Editing via Video Generation

Nov 25

ByNoam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel

In jüngster Zeit haben Fortschritte in der Bildbearbeitung, angetrieben von Bildverdünnungsmodellen, bemerkenswerte Fortschritte gezeigt. Es bestehen jedoch weiterhin bedeutende Herausforderungen, da diese Modelle oft Schwierigkeiten haben, komplexe Bearbeitungsanweisungen genau zu befolgen und häufig die Treue beeinträchtigen, indem sie Schlüsselelemente des Originalbildes verändern. Gleichzeitig hat die Videogenerierung bemerkenswerte Fortschritte gemacht, mit Modellen, die effektiv als konsistente und kontinuierliche Weltsimulatoren fungieren. In diesem Paper schlagen wir vor, diese beiden Bereiche zu verschmelzen, indem wir Bild-zu-Video-Modelle für die Bildbearbeitung nutzen. Wir formulieren die Bildbearbeitung als einen zeitlichen Prozess um, indem wir vortrainierte Videomodelle verwenden, um sanfte Übergänge vom Originalbild zur gewünschten Bearbeitung zu erstellen. Dieser Ansatz durchläuft die Bild-Mannigfaltigkeit kontinuierlich und gewährleistet konsistente Bearbeitungen, während die Schlüsselelemente des Originalbildes erhalten bleiben. Unser Ansatz erzielt Spitzenresultate bei textbasierter Bildbearbeitung und zeigt signifikante Verbesserungen sowohl bei der Bearbeitungsgenauigkeit als auch bei der Bildbewahrung.

MME-Umfrage: Eine umfassende Umfrage zur Bewertung von multimodalen LLMs
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

Nov 22

ByChaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He

Als eine herausragende Richtung der Künstlichen Allgemeinen Intelligenz (AGI) haben Multimodale Große Sprachmodelle (MLLMs) sowohl in der Industrie als auch in der akademischen Welt zunehmend an Aufmerksamkeit gewonnen. Aufbauend auf vorab trainierten LLMs entwickelt diese Modellfamilie weiterführende multimodale Wahrnehmungs- und Schlussfolgerungsfähigkeiten, die beeindruckend sind, wie beispielsweise das Schreiben von Code basierend auf einem Flussdiagramm oder das Erstellen von Geschichten anhand eines Bildes. Im Entwicklungsprozess ist die Evaluation entscheidend, da sie intuitive Rückmeldungen und Anleitungen zur Verbesserung der Modelle liefert. Im Gegensatz zum traditionellen Trainings-Evaluierungs-Test-Paradigma, das nur eine einzelne Aufgabe wie die Bildklassifizierung bevorzugt, hat die Vielseitigkeit von MLLMs die Entstehung verschiedener neuer Benchmarks und Evaluierungsmethoden vorangetrieben. In diesem Papier zielen wir darauf ab, eine umfassende Übersicht über die Evaluation von MLLMs zu präsentieren, wobei vier Schlüsselaspekte diskutiert werden: 1) die zusammengefassten Benchmark-Typen, unterteilt nach den Evaluierungsfähigkeiten, einschließlich grundlegender Fähigkeiten, Modell-Selbstanalyse und erweiterten Anwendungen; 2) der typische Prozess der Benchmark-Konstruktion, bestehend aus Datensammlung, Annotation und Vorsichtsmaßnahmen; 3) die systematische Evaluierungsmethode, bestehend aus Bewertung, Metrik und Toolkit; 4) der Ausblick auf den nächsten Benchmark. Diese Arbeit zielt darauf ab, Forschern ein leicht verständliches Konzept zu bieten, wie MLLMs effektiv je nach Bedarf evaluiert werden können, und bessere Evaluierungsmethoden zu inspirieren, um so den Fortschritt der MLLM-Forschung voranzutreiben.

Neubewertung der Token-Reduktion in MLLMs: Auf dem Weg zu einem vereinheitlichten Paradigma für beschleunigtes Training.
Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

Nov 26

ByYuhang Han, Xuyang Liu, Pengxiang Ding, Donglin Wang, Honggang Chen, Qingsen Yan, Siteng Huang

Um die Inferenz von schweren Multimodal Large Language Models (MLLMs) zu beschleunigen, überdenkt diese Studie die aktuelle Landschaft der forschungsfreien Token-Reduktionsforschung. Es ist bedauerlich festzustellen, dass die entscheidenden Komponenten bestehender Methoden eng miteinander verflochten sind, wobei ihre Verbindungen und Auswirkungen für Vergleiche, Übertragungen und Erweiterungen unklar bleiben. Daher schlagen wir ein vereinheitlichtes Paradigma ''filtern-korrelieren-komprimieren'' vor, das die Token-Reduktion in drei unterschiedliche Stufen innerhalb eines Pipelines zerlegt, wobei konsistente Designziele und Elemente beibehalten werden, während einzigartige Implementierungen ermöglicht werden. Zusätzlich entschlüsseln wir die populären Arbeiten und integrieren sie in unser Paradigma, um dessen Universalität zu demonstrieren. Abschließend bieten wir eine Reihe von Methoden, die auf dem Paradigma basieren und einen Ausgleich zwischen Geschwindigkeit und Genauigkeit in verschiedenen Phasen der Inferenz schaffen. Experimentelle Ergebnisse über 10 Benchmarks zeigen, dass unsere Methoden eine Reduktion der FLOPs um bis zu 82,4% bei minimalen Auswirkungen auf die Leistung erzielen können, wobei gleichzeitig die forschungsfreien Methoden auf dem neuesten Stand übertroffen werden. Unsere Projektseite befindet sich unter https://ficoco-accelerate.github.io/.

SketchAgent: Sprachgesteuerte sequenzielle Skizzenerzeugung
SketchAgent: Language-Driven Sequential Sketch Generation

Nov 26

ByYael Vinker, Tamar Rott Shaham, Kristine Zheng, Alex Zhao, Judith E Fan, Antonio Torralba

Skizzieren dient als vielseitiges Werkzeug zur Externalisierung von Ideen, das eine schnelle Exploration und visuelle Kommunikation ermöglicht, die verschiedene Disziplinen umfasst. Während künstliche Systeme bedeutende Fortschritte bei der Inhalts-Erstellung und der Mensch-Computer-Interaktion vorangetrieben haben, bleibt die Erfassung der dynamischen und abstrakten Natur des menschlichen Skizzierens eine Herausforderung. In dieser Arbeit stellen wir SketchAgent vor, eine sprachgesteuerte, sequenzielle Skizzenerzeugungsmethode, die es Benutzern ermöglicht, Skizzen durch dynamische, konversationelle Interaktionen zu erstellen, zu modifizieren und zu verfeinern. Unser Ansatz erfordert kein Training oder Feinabstimmung. Stattdessen nutzen wir die sequenzielle Natur und das umfangreiche Vorwissen von handelsüblichen multimodalen großen Sprachmodellen (LLMs). Wir präsentieren eine intuitive Skizziersprache, die dem Modell durch Beispiele im Kontext beigebracht wird, um es zu ermöglichen, mittels aktionsbasierten Zeichenbefehlen zu "zeichnen". Diese werden in Vektorgrafiken umgewandelt und dann gerendert, um eine Skizze auf einer Pixel-Leinwand zu erstellen, die später für weitere Aufgaben abgerufen werden kann. Indem unser Agent Strich für Strich zeichnet, erfasst er die sich entwickelnden, dynamischen Qualitäten, die dem Skizzieren innewohnen. Wir zeigen, dass SketchAgent Skizzen aus verschiedenen Anregungen generieren kann, sich in dialoggesteuertes Zeichnen einbinden kann und sinnvoll mit menschlichen Benutzern zusammenarbeiten kann.

SAR3D: Autoregressive 3D-Objektgenerierung und -verständnis mittels Multiskalen-3D-VQVAE
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE

Nov 25

ByYongwei Chen, Yushi Lan, Shangchen Zhou, Tengfei Wang, XIngang Pan

Autoregressive Modelle haben bemerkenswerten Erfolg in verschiedenen Bereichen gezeigt, von großen Sprachmodellen (LLMs) über große multimodale Modelle (LMMs) bis hin zur Generierung von 2D-Inhalten und damit näher an der künstlichen allgemeinen Intelligenz (AGI). Trotz dieser Fortschritte bleibt die Anwendung von autoregressiven Ansätzen auf die Generierung und das Verständnis von 3D-Objekten weitgehend unerforscht. Dieses Papier stellt Scale AutoRegressive 3D (SAR3D) vor, ein neuartiges Framework, das einen mehrskaligen 3D vektor-quantisierten Variationalen Autoencoder (VQVAE) nutzt, um 3D-Objekte zur effizienten autoregressiven Generierung und detaillierten Verständnis zu tokenisieren. Indem SAR3D die Vorhersage der nächsten Skala in einer mehrskaligen latenten Repräsentation anstelle des nächsten einzelnen Tokens trifft, reduziert es die Generierungszeit signifikant und erreicht eine schnelle 3D-Objektgenerierung in nur 0,82 Sekunden auf einer A6000 GPU. Darüber hinaus, da die Tokens mit hierarchischen 3D-spezifischen Informationen angereichert sind, feinabstimmen wir ein vorab trainiertes LLM darauf, was eine multimodale Erfassung von 3D-Inhalten ermöglicht. Unsere Experimente zeigen, dass SAR3D aktuelle 3D-Generierungsmethoden sowohl in Geschwindigkeit als auch in Qualität übertrifft und LLMs umfassend befähigt, 3D-Modelle zu interpretieren und zu beschreiben.

Niedrig-Bit-Quantisierung bevorzugt untertrainierte LLMs: Skalierungsgesetze für quantisierte LLMs mit 100T Trainings-Token.
Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

Nov 26

ByXu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu

Wir enthüllen, dass die Quantisierung mit niedrigen Bits untertrainierten großen Sprachmodellen (LLMs) zugutekommt, indem wir beobachten, dass Modelle mit größeren Größen oder weniger Trainings-Token weniger Quantisierungs-induzierte Degradierung (QiD) erfahren, wenn eine Quantisierung mit niedrigen Bits angewendet wird, während kleinere Modelle mit umfangreichen Trainings-Token eine signifikante QiD erleiden. Um tiefere Einblicke in diesen Trend zu gewinnen, untersuchen wir über 1500 quantisierte LLM-Checkpoint-Modelle verschiedener Größen und auf unterschiedlichen Trainingsstufen (untertrainiert oder vollständig trainiert) in einer kontrollierten Umgebung und leiten Skalengesetze ab, um das Verhältnis zwischen QiD und Faktoren wie der Anzahl der Trainings-Token, der Modellgröße und der Bit-Breite zu verstehen. Mit den abgeleiteten Skalengesetzen schlagen wir eine neue Perspektive vor, dass wir QiD verwenden können, um das Trainingsniveau eines LLM zu messen und die Anzahl der Trainings-Token zu bestimmen, die für das vollständige Training von LLMs verschiedener Größen erforderlich sind. Darüber hinaus verwenden wir die Skalengesetze, um die Quantisierungsleistung von LLMs unterschiedlicher Größen vorherzusagen, die mit 100 Billionen Token trainiert wurden. Unsere Prognose zeigt, dass die Quantisierungsleistung mit niedrigen Bits zukünftiger Modelle, die voraussichtlich mit über 100 Billionen Token trainiert werden, möglicherweise NICHT wünschenswert ist. Dies stellt eine potenzielle Herausforderung für die Quantisierung mit niedrigen Bits in der Zukunft dar und unterstreicht die Notwendigkeit, das Trainingsniveau eines Modells bei der Bewertung von Forschung zur Quantisierung mit niedrigen Bits zu berücksichtigen. Um zukünftige Forschung zu diesem Problem zu erleichtern, veröffentlichen wir alle über 1500 quantisierten Checkpoints, die in dieser Arbeit verwendet wurden, unter https://huggingface.co/Xu-Ouyang.

VLRewardBench: Ein anspruchsvoller Benchmark für vision-sprachliche generative Belohnungsmodelle
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

Nov 26

ByLei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu

Vision-Language Generative Reward Models (VL-GenRMs) spielen eine entscheidende Rolle bei der Ausrichtung und Bewertung multimodaler KI-Systeme, doch ihre eigene Bewertung bleibt weitgehend unerforscht. Aktuelle Bewertungsmethoden stützen sich hauptsächlich auf KI-annotierte Präferenzetiketten aus traditionellen VL-Aufgaben, die möglicherweise Voreingenommenheiten einführen und oft nicht in der Lage sind, modernste Modelle effektiv herauszufordern. Um diesen Einschränkungen zu begegnen, stellen wir VL-RewardBench vor, einen umfassenden Benchmark, der allgemeine multimodale Abfragen, die Erkennung visueller Halluzinationen und komplexe Denkaufgaben umfasst. Durch unsere KI-unterstützte Annotationspipeline, die Stichprobenauswahl mit menschlicher Verifizierung kombiniert, kuratieren wir 1.250 hochwertige Beispiele, die speziell entwickelt wurden, um die Modellgrenzen zu untersuchen. Eine umfassende Bewertung über 16 führende große Vision-Language-Modelle zeigt die Wirksamkeit von VL-RewardBench als anspruchsvolles Testfeld, auf dem selbst GPT-4o nur eine Genauigkeit von 65,4 % erreicht, und modernste Open-Source-Modelle wie Qwen2-VL-72B Schwierigkeiten haben, Zufallsgenerierungen zu übertreffen. Wichtig ist, dass die Leistung auf VL-RewardBench stark mit der MMMU-Pro-Genauigkeit korreliert (Pearson's r > 0,9), wenn Best-of-N-Sampling mit VL-GenRMs verwendet wird. Analyseexperimente decken drei wichtige Erkenntnisse zur Verbesserung von VL-GenRMs auf: (i) Modelle scheitern hauptsächlich an grundlegenden visuellen Wahrnehmungsaufgaben anstelle von Denkaufgaben; (ii) die Vorteile des Skalierens zur Inferenzzeit variieren dramatisch je nach Modellkapazität; und (iii) das Training von VL-GenRMs, um das Beurteilen zu erlernen, steigert die Beurteilungsfähigkeit erheblich (+14,7 % Genauigkeit für ein 7B VL-GenRM). Wir sind der Überzeugung, dass VL-RewardBench zusammen mit den experimentellen Erkenntnissen eine wertvolle Ressource für die Weiterentwicklung von VL-GenRMs darstellen wird.

SALOVA: Segment-erweiterter langer Videoassistent für gezielte Abfrage und Routing in der Analyse von Langvideos
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

Nov 25

ByJunho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro

Trotz Fortschritten bei großen multimodalen Modellen bleibt die Anwendung auf lange und ungeschnittene Videoinhalte aufgrund von Beschränkungen in Bezug auf Kontextlänge und erheblichen Speicherüberlastungen eine Herausforderung. Diese Einschränkungen führen häufig zu erheblichem Informationsverlust und reduzierter Relevanz in den Modellantworten. Mit dem exponentiellen Wachstum von Videodaten auf Webplattformen ist das Verständnis von Langformvideos entscheidend für die Weiterentwicklung der generalisierten Intelligenz. In diesem Artikel stellen wir SALOVA vor: Segment-augmentierter langer Videoassistent, ein neuartiges Video-LLM-Framework, das entwickelt wurde, um das Verständnis von umfangreichen Videoinhalten durch gezielte Abrufprozesse zu verbessern. Wir gehen auf zwei Hauptprobleme ein, um dies zu erreichen: (i) Wir präsentieren den SceneWalk-Datensatz, eine hochwertige Sammlung von 87,8K langen Videos, die jeweils dicht auf Segmentebene beschriftet sind, um es Modellen zu ermöglichen, Szenenkontinuität zu erfassen und einen reichen beschreibenden Kontext aufrechtzuerhalten. (ii) Wir entwickeln robuste architektonische Designs, die einen dynamischen Routing-Mechanismus und einen raumzeitlichen Projektor integrieren, um relevante Videosegmente effizient abzurufen und zu verarbeiten, basierend auf Benutzeranfragen. Unser Framework mildert die Einschränkungen aktueller Video-LLMs, indem es eine präzise Identifizierung und Abruf relevanter Videosegmente als Antwort auf Anfragen ermöglicht und somit die kontextuelle Relevanz der generierten Antworten verbessert. Durch umfangreiche Experimente zeigt SALOVA eine verbesserte Fähigkeit zur Verarbeitung komplexer Langformvideos und zeigt eine signifikante Fähigkeit, die kontextuelle Integrität über erweiterte Sequenzen aufrechtzuerhalten.

Lernen von 3D-Repräsentationen aus prozeduralen 3D-Programmen
Learning 3D Representations from Procedural 3D Programs

Nov 25

ByXuweiyi Chen, Zezhou Cheng

Das selbstüberwachte Lernen hat sich als vielversprechender Ansatz zur Erlangung übertragbarer 3D-Repräsentationen aus unbeschrifteten 3D-Punktwolken herauskristallisiert. Im Gegensatz zu 2D-Bildern, die weit verbreitet sind, erfordert der Erwerb von 3D-Ressourcen spezialisierte Fachkenntnisse oder professionelle 3D-Scangeräte, was die Skalierung erschwert und urheberrechtliche Bedenken aufwirft. Um diesen Herausforderungen zu begegnen, schlagen wir vor, 3D-Repräsentationen aus prozeduralen 3D-Programmen zu erlernen, die automatisch 3D-Formen mithilfe einfacher Primitiven und Erweiterungen generieren. Bemerkenswerterweise zeigen die aus diesem synthetisierten Datensatz erlernten 3D-Repräsentationen, obwohl sie keinen semantischen Inhalt aufweisen, eine Leistung auf Augenhöhe mit modernsten Repräsentationen, die aus semantisch erkennbaren 3D-Modellen (z. B. Flugzeugen) für verschiedene nachgelagerte 3D-Aufgaben wie Formklassifizierung, Teilesegmentierung und maskierte Punktwolkenvervollständigung erlernt wurden. Unsere Analyse legt weiterhin nahe, dass aktuelle selbstüberwachte Lernmethoden hauptsächlich geometrische Strukturen anstelle von hochrangigen Semantiken erfassen.

FEINEUNTERSCHRIFT: Kompositionelle Bildunterschriften mit Fokus auf beliebige Granularitäten an jedem Ort
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

Nov 23

ByHang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo

Das Aufkommen großer Vision-Language-Modelle (VLMs) hat die multimodalen Aufgaben erheblich vorangetrieben, was eine anspruchsvollere und genauere Schlussfolgerung über verschiedene Anwendungen ermöglicht, einschließlich Bild- und Videobeschreibungen, visuelle Fragebeantwortung und Cross-Modal Retrieval. Trotz ihrer überlegenen Fähigkeiten haben VLMs Schwierigkeiten mit der Wahrnehmung feingranularer regionaler Bildkompositionsdaten. Insbesondere fällt es ihnen schwer, die Segmentierungsmasken genau mit den entsprechenden Semantiken abzustimmen und die kompositorischen Aspekte der referenzierten Regionen präzise zu beschreiben. Die Kompositionalität - die Fähigkeit, neue Kombinationen bekannter visueller und textueller Komponenten zu verstehen und zu generieren - ist jedoch entscheidend, um kohärentes Schlussfolgern und Verstehen über Modalitäten hinweg durch VLMs zu erleichtern. Um dieses Problem anzugehen, schlagen wir FINECAPTION vor, ein neuartiges VLM, das beliebige Masken als referenzielle Eingaben erkennen kann und hochauflösende Bilder für die kompositorische Bildbeschreibung auf verschiedenen Granularitätsebenen verarbeiten kann. Zur Unterstützung dieses Vorhabens führen wir COMPOSITIONCAP ein, einen neuen Datensatz für die kompositorische Bildbeschreibung von multi-granularen Regionen, der die Aufgabe der kompositorischen attributbewussten regionalen Bildbeschreibung einführt. Empirische Ergebnisse zeigen die Wirksamkeit unseres vorgeschlagenen Modells im Vergleich zu anderen modernsten VLMs. Darüber hinaus analysieren wir die Fähigkeiten aktueller VLMs bei der Erkennung verschiedener visueller Hinweise für die kompositorische regionale Bildbeschreibung und heben Bereiche hervor, in denen das Design und Training von VLMs verbessert werden können.

EfficientViM: Effiziente Vision Mamba mit Hidden State Mixer basierend auf dem Dualismus des Zustandsraums
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

Nov 22

BySanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim

Für den Einsatz von neuronalen Netzwerken in ressourcenbeschränkten Umgebungen haben frühere Arbeiten leichte Architekturen mit Faltungs- und Aufmerksamkeitsmechanismen entwickelt, um lokale und globale Abhängigkeiten zu erfassen. In letzter Zeit hat sich das Zustandsraummodell als effektive globale Token-Interaktion mit günstigen linearen Rechenkosten in der Anzahl der Token herausgestellt. Dennoch wurden effiziente Vision-Backbones, die mit SSM erstellt wurden, weniger erforscht. In diesem Artikel stellen wir Efficient Vision Mamba (EfficientViM) vor, eine neuartige Architektur, die auf dem Hidden-State-Mixer-basierten Zustandsraum-Dualität (HSM-SSD) aufbaut, um globale Abhängigkeiten effizient mit weiter reduzierten Rechenkosten zu erfassen. In der HSM-SSD-Schicht gestalten wir die vorherige SSD-Schicht neu, um den Kanalmischbetrieb innerhalb der Hidden States zu ermöglichen. Darüber hinaus schlagen wir eine mehrstufige Verschmelzung der Hidden States vor, um die Repräsentationskraft der Hidden States weiter zu verstärken, und bieten das Design zur Linderung des Engpasses durch die speichergebundenen Operationen. Als Ergebnis erzielt die EfficientViM-Familie einen neuen Stand der Technik im Speed-Accuracy-Trade-off auf ImageNet-1k und bietet eine Leistungssteigerung von bis zu 0,7% gegenüber dem zweitbesten Modell SHViT bei schnellerer Geschwindigkeit. Darüber hinaus beobachten wir signifikante Verbesserungen in Durchsatz und Genauigkeit im Vergleich zu früheren Arbeiten beim Skalieren von Bildern oder beim Einsatz von Distillationstraining. Der Code ist verfügbar unter https://github.com/mlvlab/EfficientViM.

AnchorCrafter: Animiere CyberAnchors zum Verkauf Ihrer Produkte über die Generierung von Videos mit menschlichem Objektinteraktion.
AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation

Nov 26

ByZiyi Xu, Ziyao Huang, Juan Cao, Yong Zhang, Xiaodong Cun, Qing Shuai, Yuchen Wang, Linchao Bao, Jintao Li, Fan Tang

Die automatische Generierung von Anchor-Style Produktwerbevideos bietet vielversprechende Möglichkeiten im Online-Handel, der Werbung und der Kundenbindung. Dennoch bleibt dies eine anspruchsvolle Aufgabe trotz signifikanter Fortschritte in der posegeführten Generierung von menschlichen Videos. Bei der Bewältigung dieser Herausforderung identifizieren wir die Integration von menschlich-objektbezogenen Interaktionen (HOI) in die posegeführte Generierung von menschlichen Videos als zentrales Problem. Zu diesem Zweck stellen wir AnchorCrafter vor, ein neuartiges, diffusionsbasiertes System, das darauf ausgelegt ist, 2D-Videos mit einem Zielmenschen und einem individuellen Objekt zu generieren, um eine hohe visuelle Treue und steuerbare Interaktionen zu erreichen. Insbesondere schlagen wir zwei Schlüsselinnovationen vor: die HOI-Erscheinungswahrnehmung, die die Objekterscheinungserkennung aus beliebigen Multi-View-Perspektiven verbessert und Objekt- und menschliche Erscheinungen voneinander trennt, sowie die HOI-Bewegungsinjektion, die komplexe menschlich-objektbezogene Interaktionen ermöglicht, indem Herausforderungen bei der Objekttrajektorienkonditionierung und der Interokklusionsverwaltung überwunden werden. Darüber hinaus führen wir den HOI-Regionen-Neugewichtungsverlust ein, ein Schulungsziel, das das Erlernen von Objektdetails verbessert. Umfangreiche Experimente zeigen, dass unser vorgeschlagenes System bestehende Methoden in der Bewahrung der Objekterscheinung und Formbewusstsein übertrifft, während gleichzeitig die Konsistenz in der menschlichen Erscheinung und Bewegung beibehalten wird. Projektpage: https://cangcz.github.io/Anchor-Crafter/

MolReFlect: Auf dem Weg zu kontextbezogenen Feinkorn-Alignments zwischen Molekülen und Texten
MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

Nov 22

ByJiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li

Die Entdeckung von Molekülen ist ein entscheidendes Forschungsfeld, das alles beeinflusst, von den Medikamenten, die wir einnehmen, bis zu den Materialien, die wir verwenden. In letzter Zeit wurden große Sprachmodelle (Large Language Models, LLMs) weit verbreitet bei der molekularen Analyse und Generierung eingesetzt, doch die Zuordnungen zwischen Molekülen und ihren entsprechenden Bildunterschriften bleiben eine bedeutende Herausforderung. Frühere Bemühungen behandeln das Molekül oft als allgemeinen SMILES-String oder molekularen Graphen und vernachlässigen dabei die feinkörnigen Zuordnungen zwischen den molekularen Teilstrukturen und den beschreibenden Textphrasen, die für genaue und erklärliche Vorhersagen entscheidend sind. In diesem Fall stellen wir MolReFlect vor, ein neuartiges Lehrer-Schüler-Framework, das darauf abzielt, die Molekül-Bildunterschriften-Zuordnungen kontextuell auf feinkörnige Weise durchzuführen. Unser Ansatz nutzt zunächst ein größeres Lehrer-LLM, um die detaillierten Zuordnungen zu kennzeichnen, indem kritische Phrasen direkt aus Molekül-Bildunterschriften oder SMILES-Strings extrahiert und den entsprechenden Teilstrukturen oder Merkmalen zugeordnet werden. Zur Verfeinerung dieser Zuordnungen schlagen wir In-Context Selective Reflection vor, das vorherige Extraktionsergebnisse als Kontextbeispiele für das Lehrer-LLM abruft, um zu reflektieren, und lässt ein kleineres Schüler-LLM aus der in-Kontext-Reflexion und den vorherigen Extraktionsergebnissen auswählen. Schließlich verbessern wir den Lernprozess des Schüler-LLM durch Chain-of-Thought In-Context Molecule Tuning, indem wir die feinkörnigen Zuordnungen und die Denkprozesse im Chain-of-Thought-Format integrieren. Unsere experimentellen Ergebnisse zeigen, dass MolReFlect es LLMs wie Mistral-7B ermöglicht, die bisherigen Baselines signifikant zu übertreffen und eine Spitzenleistung auf dem ChEBI-20-Datensatz zu erzielen. Dieser Fortschritt verbessert nicht nur die generativen Fähigkeiten von LLMs bei der Molekül-Bildunterschriften-Übersetzungsaufgabe, sondern trägt auch zu einem erklärbaren Rahmen bei.

Steuerbare menschliche Bildgenerierung mit personalisierten Mehrbekleidungen.
Controllable Human Image Generation with Personalized Multi-Garments

Nov 25

ByYisol Choi, Sangkyung Kwak, Sihyun Yu, Hyungwon Choi, Jinwoo Shin

Wir präsentieren BootComp, ein neuartiges Framework, das auf Text-zu-Bild-Diffusionsmodellen für die kontrollierte Generierung von menschlichen Bildern mit mehreren Referenzkleidungsstücken basiert. Hier liegt der Hauptengpass in der Datenerfassung für das Training: Das Sammeln eines groß angelegten Datensatzes hochwertiger Referenzkleidungsbilder pro menschlichem Subjekt ist äußerst herausfordernd, d. h. idealerweise müsste man jedes einzelne Kleidungsstück fotografisch erfassen, das von jedem Menschen getragen wird. Um dies zu bewältigen, schlagen wir eine Daten-Generierungspipeline vor, um einen großen synthetischen Datensatz zu erstellen, der aus Paaren von Menschen und mehreren Kleidungsstücken besteht, indem ein Modell eingeführt wird, um beliebige Referenzkleidungsbilder aus jedem menschlichen Bild zu extrahieren. Um die Datenqualität sicherzustellen, schlagen wir auch eine Filterstrategie vor, um unerwünschte generierte Daten zu entfernen, basierend auf der Messung der wahrgenommenen Ähnlichkeiten zwischen der im menschlichen Bild präsentierten Kleidung und der extrahierten Kleidung. Schließlich trainieren wir unter Verwendung des erstellten synthetischen Datensatzes ein Diffusionsmodell mit zwei parallelen Rauschunterdrückungspfaden, die mehrere Kleidungsbilder als Bedingungen verwenden, um menschliche Bilder zu generieren, während ihre feingliedrigen Details erhalten bleiben. Wir zeigen außerdem die breite Anwendbarkeit unseres Frameworks, indem wir es an verschiedene Arten der referenzbasierten Generierung im Modebereich anpassen, einschließlich virtuellem Anprobieren und kontrollierter Generierung menschlicher Bilder unter anderen Bedingungen wie Pose, Gesicht usw.

Visueller Zähl-Turing-Test (VCT^2): Entdecken der Herausforderungen für die KI-generierte Bilderkennung und Einführung des Visuellen KI-Index (V_AI)
Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI)

Nov 24

ByNasrin Imanpour, Shashwat Bajpai, Subhankar Ghosh, Sainath Reddy Sankepally, Abhilekh Borah, Hasnat Md Abdullah, Nishoak Kosaraju, Shreyas Dixit, Ashhar Aziz, Shwetangshu Biswas, Vinija Jain, Aman Chadha, Amit Sheth, Amitava Das

Die Verbreitung von KI-Techniken zur Bildgenerierung, kombiniert mit ihrer zunehmenden Zugänglichkeit, hat erhebliche Bedenken hinsichtlich des potenziellen Missbrauchs dieser Bilder zur Verbreitung von Fehlinformationen aufgeworfen. Zu den jüngsten Methoden zur Erkennung von KI-generierten Bildern (AGID) gehören CNNDetection, NPR, DM-Bilderkennung, Fake-Bilderkennung, DIRE, LASTED, GAN-Bilderkennung, AIDE, SSP, DRCT, RINE, OCC-CLIP, De-Fake und Deep Fake Detection. Wir sind jedoch der Meinung, dass die aktuellen AGID-Techniken nicht ausreichen, um zeitgenössische KI-generierte Bilder effektiv zu erkennen, und plädieren für eine umfassende Neubewertung dieser Methoden. Wir stellen den Visual Counter Turing Test (VCT^2) vor, einen Benchmark, der ~130K Bilder umfasst, die von zeitgenössischen Text-zu-Bild-Modellen generiert wurden (Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E 3 und Midjourney 6). VCT^2 umfasst zwei Sätze von Anfragen, die von Tweets des Twitter-Kontos der New York Times und Bildunterschriften des MS COCO-Datensatzes stammen. Wir evaluieren auch die Leistung der oben genannten AGID-Techniken am VCT^2-Benchmark und heben ihre Unwirksamkeit bei der Erkennung von KI-generierten Bildern hervor. Da bildgenerierende KI-Modelle weiterhin fortschreiten, wird die Notwendigkeit eines quantifizierbaren Rahmens zur Bewertung dieser Modelle zunehmend kritisch. Um diesem Bedarf gerecht zu werden, schlagen wir den Visual AI Index (V_AI) vor, der generierte Bilder aus verschiedenen visuellen Perspektiven bewertet, einschließlich Texturkomplexität und Objektkohärenz, und damit einen neuen Maßstab für die Bewertung von bildgenerierenden KI-Modellen setzt. Um die Forschung in diesem Bereich zu fördern, stellen wir unsere COCO_AI- und Twitter_AI-Datensätze öffentlich über https://huggingface.co/datasets/anonymous1233/COCO_AI und https://huggingface.co/datasets/anonymous1233/twitter_AI zur Verfügung.

papers.title

papers.description

ShowUI: Ein Vision-Sprache-Aktion-Modell für GUI-Visuelle Agenten
ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Nov 26

ByKevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou

Pfade auf dem Bildmanifold: Bildbearbeitung durch Videogenerierung
Pathways on the Image Manifold: Image Editing via Video Generation

Nov 25

ByNoam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel

MME-Umfrage: Eine umfassende Umfrage zur Bewertung von multimodalen LLMs
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

Nov 22

ByChaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He

Neubewertung der Token-Reduktion in MLLMs: Auf dem Weg zu einem vereinheitlichten Paradigma für beschleunigtes Training.
Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

Nov 26

ByYuhang Han, Xuyang Liu, Pengxiang Ding, Donglin Wang, Honggang Chen, Qingsen Yan, Siteng Huang

SketchAgent: Sprachgesteuerte sequenzielle Skizzenerzeugung
SketchAgent: Language-Driven Sequential Sketch Generation

Nov 26

ByYael Vinker, Tamar Rott Shaham, Kristine Zheng, Alex Zhao, Judith E Fan, Antonio Torralba

SAR3D: Autoregressive 3D-Objektgenerierung und -verständnis mittels Multiskalen-3D-VQVAE
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE

Nov 25

ByYongwei Chen, Yushi Lan, Shangchen Zhou, Tengfei Wang, XIngang Pan

Niedrig-Bit-Quantisierung bevorzugt untertrainierte LLMs: Skalierungsgesetze für quantisierte LLMs mit 100T Trainings-Token.
Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

Nov 26

ByXu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu

VLRewardBench: Ein anspruchsvoller Benchmark für vision-sprachliche generative Belohnungsmodelle
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

Nov 26

ByLei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu

SALOVA: Segment-erweiterter langer Videoassistent für gezielte Abfrage und Routing in der Analyse von Langvideos
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

Nov 25

ByJunho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro

Lernen von 3D-Repräsentationen aus prozeduralen 3D-Programmen
Learning 3D Representations from Procedural 3D Programs

Nov 25

ByXuweiyi Chen, Zezhou Cheng

FEINEUNTERSCHRIFT: Kompositionelle Bildunterschriften mit Fokus auf beliebige Granularitäten an jedem Ort
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

Nov 23

ByHang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo

EfficientViM: Effiziente Vision Mamba mit Hidden State Mixer basierend auf dem Dualismus des Zustandsraums
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

Nov 22

BySanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim

AnchorCrafter: Animiere CyberAnchors zum Verkauf Ihrer Produkte über die Generierung von Videos mit menschlichem Objektinteraktion.
AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation

Nov 26

ByZiyi Xu, Ziyao Huang, Juan Cao, Yong Zhang, Xiaodong Cun, Qing Shuai, Yuchen Wang, Linchao Bao, Jintao Li, Fan Tang

MolReFlect: Auf dem Weg zu kontextbezogenen Feinkorn-Alignments zwischen Molekülen und Texten
MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

Nov 22

ByJiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li

Steuerbare menschliche Bildgenerierung mit personalisierten Mehrbekleidungen.
Controllable Human Image Generation with Personalized Multi-Garments

Nov 25

ByYisol Choi, Sangkyung Kwak, Sihyun Yu, Hyungwon Choi, Jinwoo Shin

Visueller Zähl-Turing-Test (VCT^2): Entdecken der Herausforderungen für die KI-generierte Bilderkennung und Einführung des Visuellen KI-Index (V_AI)
Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI)

Nov 24