papers.title

papers.description

ReCamMaster: Kameragesteuertes generatives Rendering aus einem einzelnen Video
ReCamMaster: Camera-Controlled Generative Rendering from A Single Video

Mar 14

ByJianhong Bai, Menghan Xia, Xiao Fu, Xintao Wang, Lianrui Mu, Jinwen Cao, Zuozhu Liu, Haoji Hu, Xiang Bai, Pengfei Wan, Di Zhang

146

Die Kamerasteuerung wurde in text- oder bildbedingten Videogenerierungsaufgaben aktiv erforscht. Die Veränderung von Kameratrajektorien eines gegebenen Videos bleibt jedoch weitgehend unerforscht, obwohl sie im Bereich der Videoproduktion von großer Bedeutung ist. Dies ist aufgrund der zusätzlichen Anforderungen, die Erscheinung über mehrere Frames hinweg beizubehalten und die dynamische Synchronisation aufrechtzuerhalten, nicht trivial. Um dies zu bewältigen, präsentieren wir ReCamMaster, ein kameragesteuertes generatives Video-Rendering-Framework, das die dynamische Szene eines Eingabevideos in neuen Kameratrajektorien reproduziert. Die zentrale Innovation besteht darin, die generativen Fähigkeiten vortrainierter Text-zu-Video-Modelle durch einen einfachen, aber leistungsstarken Video-Konditionierungsmechanismus zu nutzen – eine Fähigkeit, die in der aktuellen Forschung oft übersehen wird. Um den Mangel an qualitativ hochwertigen Trainingsdaten zu überwinden, erstellen wir mit Unreal Engine 5 einen umfassenden, multi-kamera-synchronisierten Videodatensatz, der sorgfältig kuratiert ist, um realen Filmcharakteristiken zu entsprechen und vielfältige Szenen und Kamerabewegungen abzudecken. Dies hilft dem Modell, sich auf Videos in der freien Wildbahn zu verallgemeinern. Schließlich verbessern wir die Robustheit gegenüber diversen Eingaben durch eine sorgfältig gestaltete Trainingsstrategie. Umfangreiche Experimente zeigen, dass unsere Methode bestehende state-of-the-art Ansätze und starke Baselines deutlich übertrifft. Unsere Methode findet auch vielversprechende Anwendungen in der Videostabilisierung, Super-Resolution und Outpainting. Projektseite: https://jianhongbai.github.io/ReCamMaster/

SmolDocling: Ein ultra-kompaktes Vision-Sprache-Modell für die End-to-End-Multi-Modale Dokumentkonvertierung
SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion

Mar 14

ByAhmed Nassar, Andres Marafioti, Matteo Omenetti, Maksym Lysak, Nikolaos Livathinos, Christoph Auer, Lucas Morin, Rafael Teixeira de Lima, Yusik Kim, A. Said Gurbuz, Michele Dolfi, Miquel Farré, Peter W. J. Staar

138

Wir stellen SmolDocling vor, ein ultra-kompaktes Vision-Sprache-Modell, das auf die End-to-End-Dokumentkonvertierung abzielt. Unser Modell verarbeitet umfassend ganze Seiten, indem es DocTags erzeugt, ein neues universelles Markup-Format, das alle Seitenelemente in ihrem vollständigen Kontext mit Standort erfasst. Im Gegensatz zu bestehenden Ansätzen, die auf großen Basismodellen basieren, oder Ensemble-Lösungen, die auf handgefertigten Pipelines aus mehreren spezialisierten Modellen beruhen, bietet SmolDocling eine End-to-End-Konvertierung, um den Inhalt, die Struktur und die räumliche Lage von Dokumentelementen in einem Vision-Sprache-Modell mit 256M Parametern präzise zu erfassen. SmolDocling zeigt eine robuste Leistung bei der korrekten Reproduktion von Dokumentmerkmalen wie Code-Listen, Tabellen, Gleichungen, Diagrammen, Aufzählungen und mehr über eine Vielzahl von Dokumenttypen hinweg, einschließlich Geschäftsdokumenten, akademischen Arbeiten, technischen Berichten, Patenten und Formularen – und geht damit deutlich über den üblicherweise beobachteten Fokus auf wissenschaftliche Arbeiten hinaus. Zusätzlich tragen wir neuartige, öffentlich zugängliche Datensätze für die Erkennung von Diagrammen, Tabellen, Gleichungen und Code bei. Experimentelle Ergebnisse zeigen, dass SmolDocling mit anderen Vision-Sprache-Modellen konkurriert, die bis zu 27-mal größer sind, während der Rechenbedarf erheblich reduziert wird. Das Modell ist derzeit verfügbar, die Datensätze werden bald öffentlich zugänglich sein.

PLADIS: Grenzen der Aufmerksamkeit in Diffusionsmodellen zur Inferenzzeit durch Nutzung von Sparsität erweitern
PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity

Mar 10

ByKwanyoung Kim, Byeongsu Sim

Diffusionsmodelle haben beeindruckende Ergebnisse bei der Erzeugung hochwertiger bedingter Stichproben mithilfe von Leitverfahren wie Classifier-Free Guidance (CFG) gezeigt. Bestehende Methoden erfordern jedoch oft zusätzliches Training oder Bewertungen neuronaler Funktionen (NFEs), was sie mit leitungsdestillierten Modellen inkompatibel macht. Zudem stützen sie sich auf heuristische Ansätze, die die Identifizierung von Zielschichten erfordern. In dieser Arbeit schlagen wir eine neuartige und effiziente Methode vor, genannt PLADIS, die vortrainierte Modelle (U-Net/Transformer) durch die Nutzung von spärlicher Aufmerksamkeit verbessert. Konkret extrapolieren wir die Korrelationen zwischen Abfragen und Schlüsseln mithilfe von Softmax und dessen spärlichem Gegenstück in der Cross-Attention-Schicht während der Inferenz, ohne zusätzliches Training oder NFEs zu benötigen. Durch die Nutzung der Rauschrobustheit der spärlichen Aufmerksamkeit entfaltet unser PLADIS das latente Potenzial von Text-zu-Bild-Diffusionsmodellen und ermöglicht es ihnen, in Bereichen zu glänzen, in denen sie zuvor mit neuartiger Effektivität Schwierigkeiten hatten. Es integriert sich nahtlos in Leitverfahren, einschließlich leitungsdestillierter Modelle. Umfangreiche Experimente zeigen bemerkenswerte Verbesserungen in der Textausrichtung und menschlichen Präferenz und bieten eine hocheffiziente und universell anwendbare Lösung.

API-Agenten vs. GUI-Agenten: Divergenz und Konvergenz
API Agents vs. GUI Agents: Divergence and Convergence

Mar 14

ByChaoyun Zhang, Shilin He, Liqun Li, Si Qin, Yu Kang, Qingwei Lin, Dongmei Zhang

Große Sprachmodelle (LLMs) haben sich über die einfache Texterzeugung hinaus weiterentwickelt und ermöglichen nun Software-Agenten, die natürliche Sprachbefehle direkt in konkrete Aktionen umsetzen. Während API-basierte LLM-Agenten zunächst aufgrund ihrer robusten Automatisierungsfähigkeiten und nahtlosen Integration mit programmatischen Endpunkten an Bedeutung gewannen, haben jüngste Fortschritte in der multimodalen LLM-Forschung GUI-basierte LLM-Agenten ermöglicht, die auf menschenähnliche Weise mit grafischen Benutzeroberflächen interagieren. Obwohl diese beiden Paradigmen das gemeinsame Ziel verfolgen, LLM-gestützte Aufgabenautomatisierung zu ermöglichen, unterscheiden sie sich erheblich in Bezug auf architektonische Komplexität, Entwicklungsabläufe und Benutzerinteraktionsmodelle. Dieses Papier präsentiert die erste umfassende Vergleichsstudie zwischen API-basierten und GUI-basierten LLM-Agenten, in der systematisch ihre Unterschiede und potenzielle Konvergenz analysiert werden. Wir untersuchen zentrale Dimensionen und beleuchten Szenarien, in denen hybride Ansätze ihre komplementären Stärken nutzen können. Durch die Vorschläge klarer Entscheidungskriterien und die Veranschaulichung praktischer Anwendungsfälle möchten wir Praktiker und Forscher dabei unterstützen, zwischen diesen Paradigmen zu wählen, sie zu kombinieren oder den Übergang zwischen ihnen zu vollziehen. Letztlich deuten wir an, dass fortlaufende Innovationen in der LLM-basierten Automatisierung die Grenzen zwischen API- und GUI-gesteuerten Agenten verwischen werden, was den Weg für flexiblere, anpassungsfähigere Lösungen in einer Vielzahl von realen Anwendungen ebnet.

VGGT: Visuell geometrie-basierter Transformer
VGGT: Visual Geometry Grounded Transformer

Mar 14

ByJianyuan Wang, Minghao Chen, Nikita Karaev, Andrea Vedaldi, Christian Rupprecht, David Novotny

Wir stellen VGGT vor, ein vorwärtsgerichtetes neuronales Netzwerk, das direkt alle wesentlichen 3D-Attribute einer Szene, einschließlich Kameraparameter, Punktkarten, Tiefenkarten und 3D-Punktspuren, aus einer, wenigen oder hunderten ihrer Ansichten ableitet. Dieser Ansatz ist ein Fortschritt in der 3D-Computervision, wo Modelle typischerweise auf einzelne Aufgaben beschränkt und spezialisiert waren. Es ist zudem einfach und effizient, rekonstruiert Bilder in weniger als einer Sekunde und übertrifft dennoch Alternativen, die eine Nachbearbeitung mit visuellen Geometrieoptimierungstechniken erfordern. Das Netzwerk erzielt state-of-the-art Ergebnisse in mehreren 3D-Aufgaben, einschließlich Kameraparameterschätzung, Multi-View-Tiefenschätzung, dichter Punktwolkenrekonstruktion und 3D-Punktverfolgung. Wir zeigen auch, dass die Verwendung von vortrainiertem VGGT als Feature-Backbone nachgelagerte Aufgaben wie nicht-rigide Punktverfolgung und vorwärtsgerichtete Synthese neuer Ansichten erheblich verbessert. Code und Modelle sind öffentlich unter https://github.com/facebookresearch/vggt verfügbar.

Adversariale Datenerfassung: Menschlich-kollaborative Störungen für effizientes und robustes robotisches Imitationslernen
Adversarial Data Collection: Human-Collaborative Perturbations for Efficient and Robust Robotic Imitation Learning

Mar 14

BySiyuan Huang, Yue Liao, Siyuan Feng, Shu Jiang, Si Liu, Hongsheng Li, Maoqing Yao, Guanghui Ren

Das Streben nach Dateneffizienz, bei dem Qualität Quantität überwiegt, hat sich als Eckpfeiler in der robotischen Manipulation etabliert, insbesondere angesichts der hohen Kosten, die mit der Datenerfassung in der realen Welt verbunden sind. Wir schlagen vor, dass die Maximierung der Informationsdichte einzelner Demonstrationen die Abhängigkeit von groß angelegten Datensätzen drastisch verringern und gleichzeitig die Aufgabenleistung verbessern kann. Zu diesem Zweck führen wir Adversarial Data Collection (ADC) ein, ein Human-in-the-Loop (HiL)-Framework, das die robotische Datenerfassung durch Echtzeit-Interaktionen zwischen Mensch und Umgebung neu definiert. Im Gegensatz zu konventionellen Pipelines, die statische Demonstrationen passiv aufzeichnen, setzt ADC ein kollaboratives Störungsparadigma ein: Während einer einzelnen Episode verändert ein adversarischer Operator dynamisch Objektzustände, Umweltbedingungen und sprachliche Befehle, während der Tele-Operator seine Aktionen anpasst, um diese sich entwickelnden Herausforderungen zu bewältigen. Dieser Prozess komprimiert vielfältige Fehler-Wiederherstellungs-Verhaltensweisen, zusammengesetzte Aufgabenvariationen und Umweltstörungen in minimalen Demonstrationen. Unsere Experimente zeigen, dass mit ADC trainierte Modelle eine überlegene kompositionelle Generalisierung auf unbekannte Aufgabenanweisungen, eine verbesserte Robustheit gegenüber wahrnehmungsbezogenen Störungen und emergente Fehler-Wiederherstellungsfähigkeiten erreichen. Bemerkenswerterweise übertreffen Modelle, die mit nur 20 % des durch ADC gesammelten Demonstrationsvolumens trainiert wurden, traditionelle Ansätze, die vollständige Datensätze verwenden, deutlich. Diese Fortschritte überbrücken die Lücke zwischen datenzentrierten Lernparadigmen und praktischem robotischem Einsatz und zeigen, dass strategische Datenerfassung, nicht nur nachträgliche Verarbeitung, entscheidend für skalierbares, reales Roboterlernen ist. Zusätzlich erstellen wir einen groß angelegten ADC-Robotics-Datensatz, der reale Manipulationsaufgaben mit adversarischen Störungen umfasst. Dieser Benchmark wird Open-Source sein, um Fortschritte im robotischen Imitationslernen zu fördern.

Technologien zu Effektivität und Effizienz: Eine Übersicht über State-Space-Modelle
Technologies on Effectiveness and Efficiency: A Survey of State Spaces Models

Mar 14

ByXingtai Lv, Youbang Sun, Kaiyan Zhang, Shang Qu, Xuekai Zhu, Yuchen Fan, Yi Wu, Ermo Hua, Xinwei Long, Ning Ding, Bowen Zhou

State-Space-Modelle (SSMs) haben sich als vielversprechende Alternative zu den weit verbreiteten Transformer-basierten Modellen etabliert und gewinnen zunehmend an Aufmerksamkeit. Im Vergleich zu Transformern zeichnen sich SSMs durch ihre Stärke bei Aufgaben mit sequenziellen Daten oder längeren Kontexten aus, wobei sie vergleichbare Leistungen bei deutlich höherer Effizienz erzielen. In dieser Übersichtsarbeit bieten wir eine kohärente und systematische Darstellung von SSMs, einschließlich ihrer theoretischen Motivationen, mathematischen Formulierungen, des Vergleichs mit bestehenden Modellklassen sowie verschiedener Anwendungen. Wir unterteilen die SSM-Reihe in drei Hauptabschnitte und geben eine detaillierte Einführung in das ursprüngliche SSM, das strukturierte SSM, repräsentiert durch S4, sowie das selektive SSM, verkörpert durch Mamba. Wir legen besonderen Wert auf die technischen Aspekte und heben die verschiedenen Schlüsseltechniken hervor, die zur Steigerung der Effektivität und Effizienz von SSMs eingeführt wurden. Wir hoffen, dass dieses Manuskript als Einführung für Forscher dient, um die theoretischen Grundlagen von SSMs zu erkunden.

Vamba: Verständnis von stundenlangen Videos mit hybriden Mamba-Transformern
Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers

Mar 14

ByWeiming Ren, Wentao Ma, Huan Yang, Cong Wei, Ge Zhang, Wenhu Chen

State-of-the-Art-Transformer-basierte große multimodale Modelle (LMMs) haben Schwierigkeiten, stundenlange Videoeingaben zu verarbeiten, da die quadratische Komplexität der kausalen Selbstaufmerksamkeitsoperationen zu hohen Rechenkosten während des Trainings und der Inferenz führt. Bestehende tokenkomprimierungsbasierte Methoden reduzieren die Anzahl der Videotokens, führen jedoch oft zu Informationsverlust und bleiben für extrem lange Sequenzen ineffizient. In diesem Artikel untersuchen wir einen orthogonalen Ansatz, um ein hybrides Mamba-Transformer-Modell (VAMBA) zu entwickeln, das Mamba-2-Blöcke zur Kodierung von Videotokens mit linearer Komplexität einsetzt. Ohne jegliche Tokenreduktion kann VAMBA mehr als 1024 Frames (640x360) auf einer einzelnen GPU kodieren, während Transformer-basierte Modelle nur 256 Frames verarbeiten können. Bei langen Videoeingaben erreicht VAMBA eine Reduzierung des GPU-Speicherverbrauchs um mindestens 50 % während des Trainings und der Inferenz und verdoppelt nahezu die Geschwindigkeit pro Trainingsschritt im Vergleich zu Transformer-basierten LMMs. Unsere experimentellen Ergebnisse zeigen, dass VAMBA die Genauigkeit auf dem anspruchsvollen Benchmark LVBench für das Verständnis stundenlanger Videos um 4,3 % gegenüber früheren effizienten Video-LMMs verbessert und eine starke Leistung bei einer breiten Palette von Aufgaben zum Verständnis langer und kurzer Videos beibehält.

FlowTok: Nahtloses Fließen zwischen Text- und Bild-Tokens
FlowTok: Flowing Seamlessly Across Text and Image Tokens

Mar 13

ByJu He, Qihang Yu, Qihao Liu, Liang-Chieh Chen

Die Überbrückung verschiedener Modalitäten steht im Mittelpunkt der Cross-Modality-Generierung. Während konventionelle Ansätze die Textmodalität als ein Konditionierungssignal behandeln, das den Denoising-Prozess von Gaußschem Rauschen zur Zielbildmodalität schrittweise steuert, erforschen wir ein viel einfacheres Paradigma – die direkte Entwicklung zwischen Text- und Bildmodalitäten durch Flow Matching. Dies erfordert die Projektion beider Modalitäten in einen gemeinsamen latenten Raum, was aufgrund ihrer inhärent unterschiedlichen Darstellungen eine erhebliche Herausforderung darstellt: Text ist hochgradig semantisch und als 1D-Token kodiert, während Bilder räumlich redundant sind und als 2D-latente Einbettungen dargestellt werden. Um dies zu bewältigen, führen wir FlowTok ein, ein minimales Framework, das nahtlos zwischen Text und Bildern fließt, indem es Bilder in eine kompakte 1D-Token-Darstellung kodiert. Im Vergleich zu früheren Methoden reduziert dieses Design die Größe des latenten Raums um das 3,3-fache bei einer Bildauflösung von 256, wodurch der Bedarf an komplexen Konditionierungsmechanismen oder Rauschplanung entfällt. Darüber hinaus erweitert sich FlowTok natürlich auf die Bild-zu-Text-Generierung unter derselben Formulierung. Mit seiner schlanken Architektur, die auf kompakten 1D-Token basiert, ist FlowTok hochgradig speichereffizient, erfordert deutlich weniger Trainingsressourcen und erreicht viel schnellere Sampling-Geschwindigkeiten – alles bei einer Leistung, die mit state-of-the-art Modellen vergleichbar ist. Der Code wird unter https://github.com/bytedance/1d-tokenizer verfügbar sein.

Erforschung der Schwachstellen von Federated Learning: Eine tiefgehende Analyse von Gradienteninversionsangriffen
Exploring the Vulnerabilities of Federated Learning: A Deep Dive into Gradient Inversion Attacks

Mar 13

ByPengxin Guo, Runxi Wang, Shuang Zeng, Jinjing Zhu, Haoning Jiang, Yanran Wang, Yuyin Zhou, Feifei Wang, Hui Xiong, Liangqiong Qu

Federated Learning (FL) hat sich als vielversprechendes Paradigma für die gemeinsame Modellschulung unter Wahrung der Privatsphäre ohne die Weitergabe von Rohdaten etabliert. Jüngste Studien haben jedoch gezeigt, dass private Informationen dennoch durch die gemeinsame Nutzung von Gradienteninformationen preisgegeben und durch Gradient Inversion Attacks (GIA) angegriffen werden können. Obwohl viele GIA-Methoden vorgeschlagen wurden, fehlt es noch an einer detaillierten Analyse, Bewertung und Zusammenfassung dieser Methoden. Zwar fassen verschiedene Übersichtsarbeiten bestehende Angriffe auf die Privatsphäre in FL zusammen, doch nur wenige Studien haben umfangreiche Experimente durchgeführt, um die Wirksamkeit von GIA und die damit verbundenen einschränkenden Faktoren in diesem Kontext aufzudecken. Um diese Lücke zu schließen, unternehmen wir zunächst eine systematische Überprüfung von GIA und kategorisieren bestehende Methoden in drei Typen: optimierungsbasierte GIA (OP-GIA), generierungsbasierte GIA (GEN-GIA) und analytikbasierte GIA (ANA-GIA). Anschließend analysieren und bewerten wir die drei Typen von GIA in FL umfassend und geben Einblicke in die Faktoren, die ihre Leistung, Praktikabilität und potenzielle Bedrohungen beeinflussen. Unsere Ergebnisse zeigen, dass OP-GIA trotz seiner unbefriedigenden Leistung die praktikabelste Angriffseinstellung ist, während GEN-GIA viele Abhängigkeiten aufweist und ANA-GIA leicht erkennbar ist, was beide unpraktikabel macht. Schließlich bieten wir Benutzern eine dreistufige Verteidigungspipeline an, wenn sie FL-Frameworks und -Protokolle für einen besseren Schutz der Privatsphäre entwerfen, und teilen einige zukünftige Forschungsrichtungen aus der Perspektive von Angreifern und Verteidigern, die unserer Meinung nach verfolgt werden sollten. Wir hoffen, dass unsere Studie Forschern helfen kann, robustere FL-Frameworks zu entwickeln, um sich gegen diese Angriffe zu verteidigen.

TxAgent: Ein KI-Agent für therapeutisches Denken über ein Universum von Werkzeugen hinweg
TxAgent: An AI Agent for Therapeutic Reasoning Across a Universe of Tools

Mar 14

ByShanghua Gao, Richard Zhu, Zhenglun Kong, Ayush Noori, Xiaorui Su, Curtis Ginder, Theodoros Tsiligkaridis, Marinka Zitnik

Präzisionstherapien erfordern multimodale adaptive Modelle, die personalisierte Behandlungsempfehlungen generieren. Wir stellen TxAgent vor, einen KI-Agenten, der mehrstufiges Denken und Echtzeit-Recherche biomedizinischen Wissens über eine Toolbox von 211 Werkzeugen nutzt, um Arzneimittelwechselwirkungen, Kontraindikationen und patientenspezifische Behandlungsstrategien zu analysieren. TxAgent bewertet, wie Medikamente auf molekularer, pharmakokinetischer und klinischer Ebene interagieren, identifiziert Kontraindikationen basierend auf Patientenkomorbiditäten und gleichzeitigen Medikationen und passt Behandlungsstrategien an individuelle Patientenmerkmale an. Es ruft und synthetisiert Evidenz aus mehreren biomedizinischen Quellen, bewertet Wechselwirkungen zwischen Medikamenten und Patientenkonstellationen und verfeinert Behandlungsempfehlungen durch iteratives Denken. Es wählt Werkzeuge basierend auf Aufgabenziele aus und führt strukturierte Funktionsaufrufe durch, um therapeutische Aufgaben zu lösen, die klinisches Denken und quellenübergreifende Validierung erfordern. Die ToolUniverse konsolidiert 211 Werkzeuge aus vertrauenswürdigen Quellen, einschließlich aller seit 1939 von der US FDA zugelassenen Medikamente und validierter klinischer Erkenntnisse von Open Targets. TxAgent übertrifft führende LLMs, Werkzeugnutzungsmodelle und Denkagenten in fünf neuen Benchmarks: DrugPC, BrandPC, GenericPC, TreatmentPC und DescriptionPC, die 3.168 Arzneimittel-Denkaufgaben und 456 personalisierte Behandlungsszenarien abdecken. Es erreicht eine Genauigkeit von 92,1 % bei offenen Arzneimittel-Denkaufgaben, übertrifft GPT-4o und schneidet besser ab als DeepSeek-R1 (671B) bei strukturiertem mehrstufigem Denken. TxAgent generalisiert über Varianten von Arzneimittelnamen und Beschreibungen hinweg. Durch die Integration von mehrstufiger Inferenz, Echtzeit-Wissensverankerung und werkzeuggestützter Entscheidungsfindung stellt TxAgent sicher, dass Behandlungsempfehlungen mit etablierten klinischen Leitlinien und realweltlicher Evidenz übereinstimmen, das Risiko von Nebenwirkungen verringern und die therapeutische Entscheidungsfindung verbessern.

Kolmogorov-Arnold-Aufmerksamkeit: Ist lernbare Aufmerksamkeit besser für Vision-Transformer?
Kolmogorov-Arnold Attention: Is Learnable Attention Better For Vision Transformers?

Mar 13

BySubhajit Maity, Killian Hitsman, Xin Li, Aritra Dutta

Kolmogorov-Arnold-Netze (KANs) sind eine bemerkenswerte Innovation, die aus lernbaren Aktivierungsfunktionen besteht und das Potenzial hat, komplexere Beziehungen aus Daten zu erfassen. Obwohl KANs nützlich sind, um symbolische Darstellungen zu finden und das kontinuierliche Lernen eindimensionaler Funktionen zu ermöglichen, bleibt ihre Wirksamkeit bei verschiedenen Aufgaben des maschinellen Lernens (ML), wie beispielsweise in der Bildverarbeitung, fraglich. Derzeit werden KANs eingesetzt, indem sie Multilayer-Perzeptronen (MLPs) in tiefen Netzwerkarchitekturen ersetzen, einschließlich fortschrittlicher Architekturen wie Vision Transformers (ViTs). In diesem Papier sind wir die ersten, die ein allgemeines lernbares Kolmogorov-Arnold-Attention (KArAt) für Standard-ViTs entwerfen, das auf jeder Wahl von Basisfunktionen operieren kann. Die hohen Rechen- und Speicherkosten beim Training haben uns jedoch dazu veranlasst, eine modularere Version vorzuschlagen, und wir haben eine spezielle lernbare Attention entwickelt, die Fourier-KArAt genannt wird. Fourier-KArAt und seine Varianten übertreffen entweder ihre ViT-Pendants oder zeigen vergleichbare Leistung auf den Datensätzen CIFAR-10, CIFAR-100 und ImageNet-1K. Wir analysieren die Leistung und Generalisierungsfähigkeit dieser Architekturen, indem wir ihre Verlustlandschaften, Gewichtsverteilungen, Optimiererpfade, Attention-Visualisierungen und spektrale Verhaltensweisen untersuchen und sie mit Standard-ViTs vergleichen. Das Ziel dieses Papiers ist es nicht, parameter- und recheneffiziente Attention zu entwickeln, sondern die Gemeinschaft dazu anzuregen, KANs in Verbindung mit fortschrittlicheren Architekturen zu erforschen, die ein sorgfältiges Verständnis lernbarer Aktivierungsfunktionen erfordern. Unser Open-Source-Code und Implementierungsdetails sind verfügbar unter: https://subhajitmaity.me/KArAt

Groß angelegtes Vor-Training für die erdgebundene Videobeschreibungserzeugung
Large-scale Pre-training for Grounded Video Caption Generation

Mar 13

ByEvangelos Kazakos, Cordelia Schmid, Josef Sivic

Wir schlagen einen neuartigen Ansatz für die Beschriftung und Objektverankerung in Videos vor, bei dem die Objekte in der Beschriftung durch zeitlich dichte Begrenzungsrahmen im Video verankert werden. Wir führen die folgenden Beiträge ein. Erstens präsentieren wir eine groß angelegte automatische Annotationsmethode, die Beschriftungen mit Begrenzungsrahmen über einzelne Frames hinweg in zeitlich dichte und konsistente Begrenzungsrahmen-Annotationen aggregiert. Wir wenden diesen Ansatz auf das HowTo100M-Datensatz an, um einen groß angelegten Vorverarbeitungsdatensatz namens HowToGround1M zu erstellen. Wir stellen außerdem ein Modell zur verankerten Videobeschriftungserzeugung vor, genannt GROVE, und trainieren das Modell auf HowToGround1M vor. Zweitens führen wir einen neuen Datensatz namens iGround ein, der 3500 Videos mit manuell annotierten Beschriftungen und dichten räumlich-zeitlich verankerten Begrenzungsrahmen enthält. Dies ermöglicht es uns, Fortschritte bei dieser anspruchsvollen Aufgabe zu messen sowie unser Modell auf diesen kleinformatigen, aber hochwertigen Daten feinzutunen. Drittens zeigen wir, dass unser Ansatz im Vergleich zu mehreren Baselines auf dem vorgeschlagenen iGround-Datensatz sowie auf den Datensätzen VidSTG und ActivityNet-Entities state-of-the-art Ergebnisse erzielt. Wir führen umfangreiche Ablationen durch, die die Bedeutung des Vortrainings mit unserem automatisch annotierten HowToGround1M-Datensatz gefolgt von einem Feintuning auf dem manuell annotierten iGround-Datensatz demonstrieren und validieren die wesentlichen technischen Beiträge unseres Modells.

ETCH: Verallgemeinerung der Körperanpassung auf bekleidete Menschen durch äquivariante Enge
ETCH: Generalizing Body Fitting to Clothed Humans via Equivariant Tightness

Mar 13

ByBoqian Li, Haiwen Feng, Zeyu Cai, Michael J. Black, Yuliang Xiu

Die Anpassung eines Körpers an eine 3D-Punktwolke eines bekleideten Menschen ist eine häufige, aber anspruchsvolle Aufgabe. Traditionelle optimierungsbasierte Ansätze verwenden mehrstufige Pipelines, die empfindlich auf die Pose-Initialisierung reagieren, während neuere lernbasierte Methoden oft Schwierigkeiten mit der Generalisierung über verschiedene Posen und Kleidungstypen haben. Wir schlagen Equivariant Tightness Fitting for Clothed Humans, oder ETCH, vor, eine neuartige Pipeline, die die Abbildung von Kleidung auf die Körperoberfläche durch lokal approximierte SE(3)-Äquivarianz schätzt und die Enge als Verschiebungsvektoren von der Kleidungsoberfläche zum darunterliegenden Körper kodiert. Basierend auf dieser Abbildung regressieren pose-invariante Körpermerkmale spärliche Körpermarker, wodurch die Anpassung eines bekleideten Menschen in eine Aufgabe der Anpassung innerer Körpermarker vereinfacht wird. Umfangreiche Experimente auf CAPE und 4D-Dress zeigen, dass ETCH sowohl enge-unabhängige als auch enge-bewusste Methoden in Bezug auf die Genauigkeit der Körperanpassung bei lockerer Kleidung (16,7 % ~ 69,5 %) und Formgenauigkeit (durchschnittlich 49,9 %) deutlich übertrifft. Unser äquivariantes Enge-Design kann sogar Richtungsfehler in One-Shot- (oder Out-of-Distribution-)Szenarien um (67,2 % ~ 89,8 %) reduzieren. Qualitative Ergebnisse demonstrieren eine starke Generalisierung von ETCH, unabhängig von herausfordernden Posen, unbekannten Formen, lockerer Kleidung und nicht-starren Dynamiken. Wir werden den Code und die Modelle bald zu Forschungszwecken unter https://boqian-li.github.io/ETCH/ veröffentlichen.

Lernen von Few-Step-Diffusionsmodellen durch Trajektorienverteilungsabgleich
Learning Few-Step Diffusion Models by Trajectory Distribution Matching

Mar 9

ByYihong Luo, Tianyang Hu, Jiacheng Sun, Yujun Cai, Jing Tang

Die Beschleunigung der Abtastung von Diffusionsmodellen ist entscheidend für den effizienten Einsatz von AIGC. Während Diffusionsdistillationsmethoden – basierend auf Verteilungsabgleich und Trajektorienabgleich – die Abtastung auf so wenig wie einen Schritt reduzieren, erreichen sie bei komplexen Aufgaben wie der Text-zu-Bild-Generierung ihre Grenzen. Die Generierung in wenigen Schritten bietet eine bessere Balance zwischen Geschwindigkeit und Qualität, doch bestehende Ansätze stehen vor einem anhaltenden Kompromiss: Der Verteilungsabgleich mangelt es an Flexibilität für die Mehrschritt-Abtastung, während der Trajektorienabgleich oft suboptimale Bildqualität liefert. Um diese Lücke zu schließen, schlagen wir vor, Diffusionsmodelle mit wenigen Schritten durch Trajektorien-Verteilungsabgleich (TDM) zu lernen, ein vereinheitlichtes Distillationsparadigma, das die Stärken von Verteilungs- und Trajektorienabgleich kombiniert. Unsere Methode führt ein datenfreies Score-Distillationsziel ein, das die Trajektorie des Schülers auf Verteilungsebene mit der des Lehrers abstimmt. Darüber hinaus entwickeln wir ein abtastschrittbewusstes Ziel, das Lernziele über verschiedene Schritte entkoppelt und eine anpassbarere Abtastung ermöglicht. Dieser Ansatz unterstützt sowohl deterministische Abtastung für überlegene Bildqualität als auch flexible Mehrschritt-Anpassung und erreicht dabei Spitzenleistungen mit bemerkenswerter Effizienz. Unser Modell, TDM, übertrifft bestehende Methoden auf verschiedenen Backbones wie SDXL und PixArt-alpha und liefert überlegene Qualität bei deutlich reduzierten Trainingskosten. Insbesondere destilliert unsere Methode PixArt-alpha in einen 4-Schritt-Generator, der seinen Lehrer bei der realen Benutzerpräferenz in 1024-Auflösung übertrifft. Dies wird mit 500 Iterationen und 2 A800-Stunden erreicht – lediglich 0,01 % der Trainingskosten des Lehrers. Zusätzlich kann unser vorgeschlagenes TDM erweitert werden, um die Text-zu-Video-Diffusion zu beschleunigen. Bemerkenswerterweise kann TDM sein Lehrermodell (CogVideoX-2B) übertreffen, indem es nur 4 NFE auf VBench verwendet und die Gesamtpunktzahl von 80,91 auf 81,65 verbessert. Projektseite: https://tdm-t2x.github.io/

Nachbarschaftsautoregressive Modellierung für effiziente visuelle Generierung
Neighboring Autoregressive Modeling for Efficient Visual Generation

Mar 12

ByYefei He, Yuanyu He, Shaoxuan He, Feng Chen, Hong Zhou, Kaipeng Zhang, Bohan Zhuang

Visuelle autoregressive Modelle folgen typischerweise einem Rasterordnungs-Paradigma der „nächsten Token-Vorhersage“, das die räumliche und zeitliche Lokalität, die visuellen Inhalten innewohnt, außer Acht lässt. Insbesondere weisen visuelle Token deutlich stärkere Korrelationen mit ihren räumlich oder zeitlich benachbarten Token auf als mit solchen, die weiter entfernt sind. In diesem Artikel schlagen wir Neighboring Autoregressive Modeling (NAR) vor, ein neuartiges Paradigma, das die autoregressive visuelle Generierung als einen progressiven Outpainting-Prozess formuliert, der einem „nächste-Nachbar-Vorhersage“-Mechanismus von nah nach fern folgt. Ausgehend von einem initialen Token werden die verbleibenden Token in aufsteigender Reihenfolge ihres Manhattan-Abstands vom initialen Token im räumlich-zeitlichen Raum decodiert, wodurch die Grenze des decodierten Bereichs schrittweise erweitert wird. Um die parallele Vorhersage mehrerer benachbarter Token im räumlich-zeitlichen Raum zu ermöglichen, führen wir eine Reihe von dimensionsorientierten Decodierköpfen ein, von denen jeder das nächste Token entlang einer zueinander orthogonalen Dimension vorhersagt. Während der Inferenz werden alle benachbarten Token der decodierten Token parallel verarbeitet, wodurch die Modellvorwärtsschritte für die Generierung erheblich reduziert werden. Experimente auf ImageNet256×256 und UCF101 zeigen, dass NAR einen 2,4-fachen bzw. 8,6-fachen höheren Durchsatz erreicht und gleichzeitig überlegene FID/FVD-Werte sowohl für Bild- als auch für Videogenerierungsaufgaben im Vergleich zum PAR-4X-Ansatz erzielt. Bei der Bewertung auf dem Text-zu-Bild-Generierungs-Benchmark GenEval übertrifft NAR mit 0,8B Parametern Chameleon-7B, während es lediglich 0,4 der Trainingsdaten verwendet. Der Code ist verfügbar unter https://github.com/ThisisBillhe/NAR.

Von TOWER zu SPIRE: Hinzufügen der Sprachmodalität zu einem rein textbasierten LLM
From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM

Mar 13

ByKshitij Ambilduke, Ben Peters, Sonal Sannigrahi, Anil Keshwani, Tsz Kin Lam, Bruno Martins, Marcely Zanon Boito, André F. T. Martins

Große Sprachmodelle (LLMs) haben bemerkenswerte Leistungen und Generalisierungsfähigkeiten über mehrere Sprachen und Aufgaben hinweg gezeigt, was sie zu sehr attraktiven Zielen für die Integration von Multimodalität (z. B. Bilder oder Sprache) macht. In dieser Arbeit erweitern wir ein bestehendes LLM auf die Sprachmodalität durch Sprachdiskretisierung und fortgesetztes Pre-Training. Insbesondere interessieren wir uns für mehrsprachige LLMs wie TOWER, da ihre Pre-Training-Einstellung es uns ermöglicht, diskretisierte Spracheingaben als zusätzliche Übersetzungssprache zu behandeln. Das daraus resultierende Open-Source-Modell, SPIRE, ist in der Lage, englische Spracheingaben zu transkribieren und zu übersetzen, während es die ursprüngliche Leistung von TOWER bei übersetzungsbezogenen Aufgaben beibehält. Dies zeigt, dass die Integration von diskretisierten Spracheingaben als zusätzliche Sprache während der LLM-Anpassung machbar ist. Wir stellen unseren Code und unsere Modelle der Gemeinschaft zur Verfügung.

ARMOR v0.1: Stärkung des autoregressiven multimodalen Verständnismodells durch verschachtelte multimodale Generierung mittels asymmetrischer Synergie
ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy

Mar 9

ByJianwen Sun, Yukang Feng, Chuanhao Li, Fanrui Zhang, Zizhen Li, Jiaxin Ai, Sizhuo Zhou, Yu Dai, Shenglin Zhang, Kaipeng Zhang

Einheitliche Modelle (UniMs) für multimodales Verständnis und Generierung haben in letzter Zeit im Bereich der Vision und Sprache viel Aufmerksamkeit erhalten. Bisherige UniMs sind darauf ausgelegt, sowohl multimodales Verständnis als auch Generierungsfähigkeiten gleichzeitig zu erlernen, was erhebliche Rechenressourcen erfordert und oft Schwierigkeiten bei der Generierung von verschachteltem Text und Bild hat. Wir stellen ARMOR vor, ein ressourceneffizientes und rein autoregressives Framework, das sowohl Verständnis als auch Generierung durch das Feinabstimmen bestehender multimodaler großer Sprachmodelle (MLLMs) erreicht. Konkret erweitert ARMOR bestehende MLLMs aus drei Perspektiven: (1) Für die Modellarchitektur wird eine asymmetrische Encoder-Decoder-Architektur mit einem Vorwärtsumschaltmechanismus eingeführt, um den Einbettungsraum zu vereinheitlichen, der textuelle und visuelle Modalitäten integriert, um die natürliche Generierung von verschachteltem Text und Bild mit minimalem Rechenaufwand zu ermöglichen. (2) Für die Trainingsdaten wird ein sorgfältig kuratiertes, hochwertiges verschachteltes Datenset gesammelt, um MLLMs fein abzustimmen. (3) Für den Trainingsalgorithmus schlagen wir einen „Was oder wie zu generieren“-Algorithmus vor, um bestehende MLLMs mit multimodalen Generierungsfähigkeiten auszustatten, während ihre multimodalen Verständnisfähigkeiten durch drei progressive Trainingsphasen basierend auf dem gesammelten Datenset erhalten bleiben. Experimentelle Ergebnisse zeigen, dass ARMOR bestehende MLLMs zu UniMs mit vielversprechenden Bildgenerierungsfähigkeiten aufwertet, wobei begrenzte Trainingsressourcen verwendet werden. Unser Code wird bald unter https://armor.github.io veröffentlicht.

MaRI: Material-Retrieval-Integration über Domänen hinweg
MaRI: Material Retrieval Integration across Domains

Mar 11

ByJianhui Wang, Zhifei Yang, Yangfan He, Huixiong Zhang, Yuxuan Chen, Jingwei Huang

Die präzise Materialrückgewinnung ist entscheidend für die Erstellung realistischer 3D-Assets. Bisherige Methoden stützen sich auf Datensätze, die forminvariante und beleuchtungsvariante Darstellungen von Materialien erfassen, die jedoch rar sind und aufgrund begrenzter Vielfalt und unzureichender Generalisierung in der realen Welt Herausforderungen darstellen. Die meisten aktuellen Ansätze verwenden traditionelle Bildsuchtechniken. Sie scheitern daran, die einzigartigen Eigenschaften von Materialräumen zu erfassen, was zu suboptimalen Ergebnissen bei Rückgewinnungsaufgaben führt. Um diese Herausforderungen zu bewältigen, stellen wir MaRI vor, ein Framework, das die Lücke im Merkmalsraum zwischen synthetischen und realen Materialien überbrücken soll. MaRI konstruiert einen gemeinsamen Einbettungsraum, der visuelle und Materialattribute durch eine kontrastive Lernstrategie harmonisiert, indem ein Bild- und ein Materialencoder gemeinsam trainiert werden. Dadurch werden ähnliche Materialien und Bilder näher zusammengebracht, während unähnliche Paare im Merkmalsraum getrennt werden. Um dies zu unterstützen, erstellen wir einen umfassenden Datensatz, der hochwertige synthetische Materialien mit kontrollierten Formvariationen und diversen Beleuchtungsbedingungen sowie reale Materialien umfasst, die mit Materialtransfertechniken verarbeitet und standardisiert wurden. Umfangreiche Experimente demonstrieren die überlegene Leistung, Genauigkeit und Generalisierungsfähigkeit von MaRI bei vielfältigen und komplexen Materialrückgewinnungsaufgaben, wobei es bestehende Methoden übertrifft.

ProJudge: Ein Multi-Modaler Multi-Disziplin-Benchmark und Instruktions-Tuning-Datensatz für MLLM-basierte Prozessbewertungen
ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges

Mar 9

ByJiaxin Ai, Pengfei Zhou, Zhaopan Xu, Ming Li, Fanrui Zhang, Zizhen Li, Jianwen Sun, Yukang Feng, Baojin Huang, Zhongyuan Wang, Kaipeng Zhang

Da multimodale große Sprachmodelle (MLLMs) häufig Fehler bei der Lösung wissenschaftlicher Probleme aufweisen, ist die Bewertung der Gültigkeit ihrer Denkprozesse entscheidend, um Zuverlässigkeit sicherzustellen und feinkörnige Schwächen des Modells aufzudecken. Da menschliche Bewertungen mühsam und kostspielig sind, hat sich die Verwendung von MLLMs als automatisierte Prozessbewerter zu einer gängigen Praxis entwickelt. Die Zuverlässigkeit dieser modellbasierten Bewerter bleibt jedoch ungewiss. Um dies zu adressieren, führen wir ProJudgeBench ein, den ersten umfassenden Benchmark, der speziell für die Bewertung der Fähigkeiten von MLLM-basierten Prozessbewertern entwickelt wurde. ProJudgeBench umfasst 2.400 Testfälle und 50.118 schrittweise Labels, die vier wissenschaftliche Disziplinen mit unterschiedlichen Schwierigkeitsgraden und multimodalen Inhalten abdecken. In ProJudgeBench wird jeder Schritt von menschlichen Experten sorgfältig hinsichtlich Korrektheit, Fehlertyp und Erklärung annotiert, was eine systematische Bewertung der Fähigkeiten der Bewerter ermöglicht, Fehler zu erkennen, zu klassifizieren und zu diagnostizieren. Die Auswertung auf ProJudgeBench zeigt eine erhebliche Leistungslücke zwischen Open-Source- und proprietären Modellen. Um diese Lücke zu schließen, schlagen wir weiterhin ProJudge-173k vor, einen groß angelegten Instruktions-Tuning-Datensatz, und eine dynamische Dual-Phase-Feinabstimmungsstrategie, die Modelle dazu anregt, explizit durch Problemlösung zu denken, bevor sie Lösungen bewerten. Beide Beiträge verbessern die Prozessbewertungsfähigkeiten von Open-Source-Modellen erheblich. Alle Ressourcen werden veröffentlicht, um zukünftige Forschung zu zuverlässiger multimodaler Prozessbewertung zu fördern.

CHOrD: Erzeugung kollisionsfreier, hausgroßer und organisierter digitaler Zwillinge für 3D-Innenräume mit kontrollierbaren Grundrissen und optimalen Layouts
CHOrD: Generation of Collision-Free, House-Scale, and Organized Digital Twins for 3D Indoor Scenes with Controllable Floor Plans and Optimal Layouts

Mar 15

ByChong Su, Yingbin Fu, Zheyuan Hu, Jing Yang, Param Hanji, Shaojun Wang, Xuan Zhao, Cengiz Öztireli, Fangcheng Zhong

Wir stellen CHOrD vor, ein neuartiges Framework für die skalierbare Synthese von 3D-Innenräumen, das darauf ausgelegt ist, hausgroße, kollisionsfreie und hierarchisch strukturierte digitale Zwillinge von Innenräumen zu erstellen. Im Gegensatz zu bestehenden Methoden, die das Szenenlayout direkt als Szenengraph oder Objektliste synthetisieren, integriert CHOrD eine 2D-bildbasierte Zwischenlayoutdarstellung, die eine effektive Vermeidung von Kollisionsartefakten ermöglicht, indem diese erfolgreich als Out-of-Distribution (OOD)-Szenarien während der Generierung erfasst werden. Darüber hinaus ist CHOrD im Gegensatz zu bestehenden Methoden in der Lage, Szenenlayouts zu generieren, die komplexe Grundrisse mit multimodalen Steuerungen einhalten, wodurch die Erstellung kohärenter, hausweiter Layouts ermöglicht wird, die robust gegenüber geometrischen und semantischen Variationen in Raumstrukturen sind. Zusätzlich schlagen wir einen neuartigen Datensatz mit erweitertem Umfang an Haushaltsgegenständen und Raumkonfigurationen sowie deutlich verbesserter Datenqualität vor. CHOrD zeigt state-of-the-art Leistung sowohl auf dem 3D-FRONT-Datensatz als auch auf unserem vorgeschlagenen Datensatz und liefert fotorealistische, räumlich kohärente Synthesen von Innenräumen, die an beliebige Grundrisvariationen anpassbar sind.

TreeMeshGPT: Künstlerische Mesh-Generierung mit autoregressiver Baumsequenzierung
TreeMeshGPT: Artistic Mesh Generation with Autoregressive Tree Sequencing

Mar 14

ByStefan Lionar, Jiabin Liang, Gim Hee Lee

Wir stellen TreeMeshGPT vor, einen autoregressiven Transformer, der darauf ausgelegt ist, hochwertige künstlerische Meshes zu generieren, die mit Eingabepunktwolken ausgerichtet sind. Anstelle der konventionellen nächsten-Token-Vorhersage in autoregressiven Transformern schlagen wir eine neuartige Autoregressive Baumsequenzierung vor, bei der das nächste Eingabetoken aus einer dynamisch wachsenden Baumstruktur abgerufen wird, die auf der Dreiecksnachbarschaft von Flächen innerhalb des Meshes basiert. Unsere Sequenzierung ermöglicht es dem Mesh, sich lokal von der zuletzt generierten Dreiecksfläche in jedem Schritt auszudehnen, wodurch die Trainingsschwierigkeit verringert und die Mesh-Qualität verbessert wird. Unser Ansatz repräsentiert jede Dreiecksfläche mit zwei Tokens und erreicht damit eine Kompressionsrate von etwa 22 % im Vergleich zur naiven Flächentokenisierung. Diese effiziente Tokenisierung ermöglicht es unserem Modell, hochdetaillierte künstlerische Meshes mit starker Punktwolkenkonditionierung zu generieren, wodurch frühere Methoden sowohl in Bezug auf die Kapazität als auch die Treue übertroffen werden. Darüber hinaus erzeugt unsere Methode Meshes mit starken Normalenorientierungsbeschränkungen, wodurch umgedrehte Normalen, die in früheren Methoden häufig auftreten, minimiert werden. Unsere Experimente zeigen, dass TreeMeshGPT die Mesh-Generierungsqualität mit verfeinerten Details und konsistenter Normalenorientierung verbessert.

Können große Reasoning-Modelle analoges Reasoning unter Wahrnehmungsunsicherheit durchführen?
Can Large Reasoning Models do Analogical Reasoning under Perceptual Uncertainty?

Mar 14

ByGiacomo Camposampiero, Michael Hersche, Roger Wattenhofer, Abu Sebastian, Abbas Rahimi

Diese Arbeit präsentiert eine erste Evaluierung zweier modernster Large Reasoning Models (LRMs), OpenAI's o3-mini und DeepSeek R1, im Bereich des analogen Schließens, mit Fokus auf etablierte nonverbale menschliche IQ-Tests basierend auf den Raven’s Progressive Matrices. Wir benchmarken mit dem I-RAVEN-Datensatz und seiner anspruchsvolleren Erweiterung, I-RAVEN-X, die die Fähigkeit testet, längere Schließregeln und Wertebereiche der Attribute zu verallgemeinern. Um den Einfluss visueller Unsicherheiten auf diese nonverbalen analogen Schließtests zu bewerten, erweitern wir den I-RAVEN-X-Datensatz, der ansonsten eine perfekte Wahrnehmung voraussetzt. Wir verfolgen eine zweigleisige Strategie, um diese unvollkommene visuelle Wahrnehmung zu simulieren: 1) wir führen verwirrende Attribute ein, die zufällig ausgewählt werden und nicht zur Vorhersage der richtigen Antwort der Rätsel beitragen, und 2) glätten wir die Verteilungen der Werte der Eingabeattribute. Wir beobachten einen starken Rückgang der Aufgaben-Genauigkeit von OpenAI's o3-mini, die von 86,6 % auf dem ursprünglichen I-RAVEN auf nur 17,0 % – nahe der Zufallswahrscheinlichkeit – auf dem anspruchsvolleren I-RAVEN-X sinkt, das die Eingabelänge und den Wertebereich erhöht und Wahrnehmungsunsicherheit emuliert. Dieser Rückgang trat trotz eines 3,4-fachen Anstiegs der Schließ-Tokens auf. Ein ähnlicher Trend wird auch für DeepSeek R1 beobachtet: von 80,6 % auf 23,2 %. Andererseits kann ein neuro-symbolisches probabilistisches abduktives Modell, ARLC, das Spitzenleistungen auf I-RAVEN erzielt, robust unter all diesen Out-of-Distribution-Tests schließen und behält eine hohe Genauigkeit bei, mit nur einem moderaten Rückgang von 98,6 % auf 88,0 %. Unser Code ist verfügbar unter https://github.com/IBM/raven-large-language-models.

Open-World-Fähigkeitsentdeckung aus unsegmentierten Demonstrationen
Open-World Skill Discovery from Unsegmented Demonstrations

Mar 11

ByJingwen Deng, Zihao Wang, Shaofei Cai, Anji Liu, Yitao Liang

Das Erlernen von Fähigkeiten in offenen Umgebungen ist entscheidend für die Entwicklung von Agenten, die in der Lage sind, eine Vielzahl von Aufgaben durch die Kombination grundlegender Fähigkeiten zu bewältigen. Online-Demonstrationsvideos sind in der Regel lang, aber unsegmentiert, was es schwierig macht, sie zu segmentieren und mit Fähigkeitskennzeichnungen zu versehen. Im Gegensatz zu bestehenden Methoden, die auf Sequenzstichproben oder menschliche Kennzeichnung angewiesen sind, haben wir einen selbstüberwachten Lernansatz entwickelt, um diese langen Videos in eine Reihe von semantisch bewussten und fähigkeitskonsistenten Segmenten zu unterteilen. Inspiriert von der menschlichen kognitiven Ereignissegmentierungstheorie führen wir Skill Boundary Detection (SBD) ein, einen annotierungsfreien temporalen Video-Segmentierungsalgorithmus. SBD erkennt Fähigkeitsgrenzen in einem Video, indem es Vorhersagefehler eines vortrainierten unbedingten Aktionsvorhersagemodells nutzt. Dieser Ansatz basiert auf der Annahme, dass ein signifikanter Anstieg des Vorhersagefehlers einen Wechsel in der ausgeführten Fähigkeit anzeigt. Wir haben unsere Methode in Minecraft, einem umfangreichen Open-World-Simulator mit zahlreichen verfügbaren Gameplay-Videos, evaluiert. Unsere SBD-generierten Segmente verbesserten die durchschnittliche Leistung konditionierter Richtlinien um 63,7 % und 52,1 % bei kurzfristigen atomaren Fähigkeitsaufgaben sowie ihrer entsprechenden hierarchischen Agenten um 11,3 % und 20,8 % bei langfristigen Aufgaben. Unsere Methode kann die vielfältigen YouTube-Videos nutzen, um befehlsfolgende Agenten zu trainieren. Die Projektseite ist unter https://craftjarvis.github.io/SkillDiscovery zu finden.

Cockatiel: Kombination von synthetischem und menschlich präferenzbasiertem Training für detaillierte Videobeschreibung
Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption

Mar 12

ByLuozheng Qin, Zhiyu Tan, Mengping Yang, Xiaomeng Yang, Hao Li

Video Detailed Captioning (VDC) ist eine entscheidende Aufgabe für die Brücke zwischen Vision und Sprache, die detaillierte Beschreibungen von komplexen Videoinhalten ermöglicht. In diesem Papier benchmarken wir zunächst umfassend die aktuellen State-of-the-Art-Ansätze und identifizieren systematisch zwei kritische Einschränkungen: eine verzerrte Fähigkeit gegenüber bestimmten Aspekten der Beschriftung und eine Fehlausrichtung mit menschlichen Präferenzen. Um diese Mängel zu beheben, schlagen wir Cockatiel vor, eine neuartige dreistufige Trainingspipeline, die synthetisches und menschlich ausgerichtetes Training kombiniert, um die VDC-Leistung zu verbessern. In der ersten Stufe leiten wir einen Scorer aus einem sorgfältig annotierten Datensatz ab, um synthetische Beschriftungen auszuwählen, die in Bezug auf eine bestimmte feinkörnige Video-Beschriftungs-Ausrichtung und menschliche Präferenzen gut abschneiden, während andere ignoriert werden. Anschließend trainieren wir Cockatiel-13B mit diesem kuratierten Datensatz, um es mit den kombinierten Stärken des Modells und menschlichen Präferenzen zu versehen. Schließlich destillieren wir Cockatiel-8B aus Cockatiel-13B, um die Nutzung zu erleichtern. Umfangreiche quantitative und qualitative Experimente spiegeln die Wirksamkeit unserer Methode wider, da wir nicht nur auf VDCSCORE in einer dimensionsausgewogenen Weise neue State-of-the-Art-Leistungen erzielen, sondern auch führende Alternativen in Bezug auf menschliche Präferenzen mit großem Abstand übertreffen, wie die Ergebnisse der menschlichen Bewertung zeigen.

GoalFlow: Zielgesteuerte Flussanpassung für die Erzeugung multimodaler Trajektorien im End-to-End autonomen Fahren
GoalFlow: Goal-Driven Flow Matching for Multimodal Trajectories Generation in End-to-End Autonomous Driving

Mar 7

ByZebin Xing, Xingyu Zhang, Yang Hu, Bo Jiang, Tong He, Qian Zhang, Xiaoxiao Long, Wei Yin

Wir stellen GoalFlow vor, eine end-to-end-Methode für autonomes Fahren zur Erzeugung hochwertiger multimodaler Trajektorien. In Szenarien des autonomen Fahrens gibt es selten eine einzige geeignete Trajektorie. Neuere Methoden konzentrieren sich zunehmend auf die Modellierung multimodaler Trajektorienverteilungen. Allerdings leiden sie unter der Komplexität der Trajektorienauswahl und einer reduzierten Trajektorienqualität aufgrund hoher Trajektoriendivergenz und Inkonsistenzen zwischen Führungsinformationen und Szeneninformationen. Um diese Probleme zu lösen, führen wir GoalFlow ein, eine neuartige Methode, die den Generierungsprozess effektiv einschränkt, um hochwertige, multimodale Trajektorien zu erzeugen. Um das Problem der Trajektoriendivergenz, das in diffusionsbasierten Methoden inhärent ist, zu lösen, beschränkt GoalFlow die erzeugten Trajektorien durch die Einführung eines Zielpunkts. GoalFlow etabliert einen neuartigen Bewertungsmechanismus, der den am besten geeigneten Zielpunkt aus den Kandidatenpunkten basierend auf den Szeneninformationen auswählt. Darüber hinaus verwendet GoalFlow eine effiziente generative Methode, Flow Matching, um multimodale Trajektorien zu erzeugen, und integriert einen verfeinerten Bewertungsmechanismus, um die optimale Trajektorie aus den Kandidaten auszuwählen. Unsere experimentellen Ergebnisse, validiert auf dem NavsimDauner2024_navsim, zeigen, dass GoalFlow state-of-the-art Leistung erzielt und robuste multimodale Trajektorien für das autonome Fahren liefert. GoalFlow erreichte einen PDMS von 90,3 und übertraf damit andere Methoden deutlich. Im Vergleich zu anderen diffusionsbasierten Methoden benötigt unser Ansatz nur einen einzigen Entrauschungsschritt, um hervorragende Leistung zu erzielen. Der Code ist verfügbar unter https://github.com/YvanYin/GoalFlow.

Gruppenrobustes Maschinelles Verlernen
Group-robust Machine Unlearning

Mar 12

ByThomas De Min, Subhankar Roy, Stéphane Lathuilière, Elisa Ricci, Massimiliano Mancini

Machine Unlearning ist ein aufstrebendes Paradigma, um den Einfluss spezifischer Trainingsdaten (d.h., der Vergessmenge) aus einem Modell zu entfernen, während das Wissen über den Rest der Daten (d.h., der Behaltmenge) bewahrt wird. Bisherige Ansätze gehen davon aus, dass die zu vergessenden Daten gleichmäßig über alle Trainingsdatenpunkte verteilt sind. Wenn die zu vergessenden Daten jedoch in einer Gruppe dominant sind, zeigen wir empirisch, dass die Leistung für diese Gruppe abnimmt, was zu Fairnessproblemen führt. Diese Arbeit behandelt das übersehene Problem nicht gleichmäßig verteilter Vergessmengen, das wir als gruppenrobustes Machine Unlearning bezeichnen, indem wir eine einfache, effektive Strategie vorstellen, die den Leistungsverlust in dominanten Gruppen durch eine Neugewichtung der Stichprobenverteilung mildert. Darüber hinaus präsentieren wir MIU (Mutual Information-aware Machine Unlearning), den ersten Ansatz für Gruppenrobustheit im approximativen Machine Unlearning. MIU minimiert die gegenseitige Information zwischen Modellmerkmalen und Gruppeninformationen, erreicht das Vergessen und reduziert gleichzeitig den Leistungsabfall in der dominanten Gruppe der Vergessmenge. Zusätzlich nutzt MIU die Neugewichtung der Stichprobenverteilung und die Kalibrierung der gegenseitigen Information mit dem ursprünglichen Modell, um die Gruppenrobustheit zu bewahren. Wir führen Experimente auf drei Datensätzen durch und zeigen, dass MIU Standardmethoden übertrifft und das Vergessen ohne Kompromisse bei der Modellrobustheit erreicht. Der Quellcode ist verfügbar unter https://github.com/tdemin16/group-robust_machine_unlearning.

papers.title

papers.description

ReCamMaster: Kameragesteuertes generatives Rendering aus einem einzelnen Video
ReCamMaster: Camera-Controlled Generative Rendering from A Single Video

Mar 14

ByJianhong Bai, Menghan Xia, Xiao Fu, Xintao Wang, Lianrui Mu, Jinwen Cao, Zuozhu Liu, Haoji Hu, Xiang Bai, Pengfei Wan, Di Zhang

146

SmolDocling: Ein ultra-kompaktes Vision-Sprache-Modell für die End-to-End-Multi-Modale Dokumentkonvertierung
SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion

Mar 14

138

PLADIS: Grenzen der Aufmerksamkeit in Diffusionsmodellen zur Inferenzzeit durch Nutzung von Sparsität erweitern
PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity

Mar 10

ByKwanyoung Kim, Byeongsu Sim

API-Agenten vs. GUI-Agenten: Divergenz und Konvergenz
API Agents vs. GUI Agents: Divergence and Convergence

Mar 14

ByChaoyun Zhang, Shilin He, Liqun Li, Si Qin, Yu Kang, Qingwei Lin, Dongmei Zhang

VGGT: Visuell geometrie-basierter Transformer
VGGT: Visual Geometry Grounded Transformer

Mar 14

ByJianyuan Wang, Minghao Chen, Nikita Karaev, Andrea Vedaldi, Christian Rupprecht, David Novotny

Adversariale Datenerfassung: Menschlich-kollaborative Störungen für effizientes und robustes robotisches Imitationslernen
Adversarial Data Collection: Human-Collaborative Perturbations for Efficient and Robust Robotic Imitation Learning

Mar 14

BySiyuan Huang, Yue Liao, Siyuan Feng, Shu Jiang, Si Liu, Hongsheng Li, Maoqing Yao, Guanghui Ren

Technologien zu Effektivität und Effizienz: Eine Übersicht über State-Space-Modelle
Technologies on Effectiveness and Efficiency: A Survey of State Spaces Models

Mar 14

ByXingtai Lv, Youbang Sun, Kaiyan Zhang, Shang Qu, Xuekai Zhu, Yuchen Fan, Yi Wu, Ermo Hua, Xinwei Long, Ning Ding, Bowen Zhou

Vamba: Verständnis von stundenlangen Videos mit hybriden Mamba-Transformern
Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers

Mar 14

ByWeiming Ren, Wentao Ma, Huan Yang, Cong Wei, Ge Zhang, Wenhu Chen

FlowTok: Nahtloses Fließen zwischen Text- und Bild-Tokens
FlowTok: Flowing Seamlessly Across Text and Image Tokens

Mar 13

ByJu He, Qihang Yu, Qihao Liu, Liang-Chieh Chen

Erforschung der Schwachstellen von Federated Learning: Eine tiefgehende Analyse von Gradienteninversionsangriffen
Exploring the Vulnerabilities of Federated Learning: A Deep Dive into Gradient Inversion Attacks

Mar 13

ByPengxin Guo, Runxi Wang, Shuang Zeng, Jinjing Zhu, Haoning Jiang, Yanran Wang, Yuyin Zhou, Feifei Wang, Hui Xiong, Liangqiong Qu

TxAgent: Ein KI-Agent für therapeutisches Denken über ein Universum von Werkzeugen hinweg
TxAgent: An AI Agent for Therapeutic Reasoning Across a Universe of Tools

Mar 14

ByShanghua Gao, Richard Zhu, Zhenglun Kong, Ayush Noori, Xiaorui Su, Curtis Ginder, Theodoros Tsiligkaridis, Marinka Zitnik

Kolmogorov-Arnold-Aufmerksamkeit: Ist lernbare Aufmerksamkeit besser für Vision-Transformer?
Kolmogorov-Arnold Attention: Is Learnable Attention Better For Vision Transformers?

Mar 13

BySubhajit Maity, Killian Hitsman, Xin Li, Aritra Dutta

Groß angelegtes Vor-Training für die erdgebundene Videobeschreibungserzeugung
Large-scale Pre-training for Grounded Video Caption Generation

Mar 13

ByEvangelos Kazakos, Cordelia Schmid, Josef Sivic

ETCH: Verallgemeinerung der Körperanpassung auf bekleidete Menschen durch äquivariante Enge
ETCH: Generalizing Body Fitting to Clothed Humans via Equivariant Tightness

Mar 13

ByBoqian Li, Haiwen Feng, Zeyu Cai, Michael J. Black, Yuliang Xiu

Lernen von Few-Step-Diffusionsmodellen durch Trajektorienverteilungsabgleich
Learning Few-Step Diffusion Models by Trajectory Distribution Matching

Mar 9

ByYihong Luo, Tianyang Hu, Jiacheng Sun, Yujun Cai, Jing Tang

Nachbarschaftsautoregressive Modellierung für effiziente visuelle Generierung
Neighboring Autoregressive Modeling for Efficient Visual Generation

Mar 12

ByYefei He, Yuanyu He, Shaoxuan He, Feng Chen, Hong Zhou, Kaipeng Zhang, Bohan Zhuang

Von TOWER zu SPIRE: Hinzufügen der Sprachmodalität zu einem rein textbasierten LLM
From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM

Mar 13

ByKshitij Ambilduke, Ben Peters, Sonal Sannigrahi, Anil Keshwani, Tsz Kin Lam, Bruno Martins, Marcely Zanon Boito, André F. T. Martins

ARMOR v0.1: Stärkung des autoregressiven multimodalen Verständnismodells durch verschachtelte multimodale Generierung mittels asymmetrischer Synergie
ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy

Mar 9

ByJianwen Sun, Yukang Feng, Chuanhao Li, Fanrui Zhang, Zizhen Li, Jiaxin Ai, Sizhuo Zhou, Yu Dai, Shenglin Zhang, Kaipeng Zhang

MaRI: Material-Retrieval-Integration über Domänen hinweg
MaRI: Material Retrieval Integration across Domains

Mar 11

ByJianhui Wang, Zhifei Yang, Yangfan He, Huixiong Zhang, Yuxuan Chen, Jingwei Huang

ProJudge: Ein Multi-Modaler Multi-Disziplin-Benchmark und Instruktions-Tuning-Datensatz für MLLM-basierte Prozessbewertungen
ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges

Mar 9

ByJiaxin Ai, Pengfei Zhou, Zhaopan Xu, Ming Li, Fanrui Zhang, Zizhen Li, Jianwen Sun, Yukang Feng, Baojin Huang, Zhongyuan Wang, Kaipeng Zhang

CHOrD: Erzeugung kollisionsfreier, hausgroßer und organisierter digitaler Zwillinge für 3D-Innenräume mit kontrollierbaren Grundrissen und optimalen Layouts
CHOrD: Generation of Collision-Free, House-Scale, and Organized Digital Twins for 3D Indoor Scenes with Controllable Floor Plans and Optimal Layouts

Mar 15

ByChong Su, Yingbin Fu, Zheyuan Hu, Jing Yang, Param Hanji, Shaojun Wang, Xuan Zhao, Cengiz Öztireli, Fangcheng Zhong

TreeMeshGPT: Künstlerische Mesh-Generierung mit autoregressiver Baumsequenzierung
TreeMeshGPT: Artistic Mesh Generation with Autoregressive Tree Sequencing

Mar 14

ByStefan Lionar, Jiabin Liang, Gim Hee Lee

Können große Reasoning-Modelle analoges Reasoning unter Wahrnehmungsunsicherheit durchführen?
Can Large Reasoning Models do Analogical Reasoning under Perceptual Uncertainty?

Mar 14

ByGiacomo Camposampiero, Michael Hersche, Roger Wattenhofer, Abu Sebastian, Abbas Rahimi

Open-World-Fähigkeitsentdeckung aus unsegmentierten Demonstrationen
Open-World Skill Discovery from Unsegmented Demonstrations

Mar 11

ByJingwen Deng, Zihao Wang, Shaofei Cai, Anji Liu, Yitao Liang

Cockatiel: Kombination von synthetischem und menschlich präferenzbasiertem Training für detaillierte Videobeschreibung
Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption

Mar 12

ByLuozheng Qin, Zhiyu Tan, Mengping Yang, Xiaomeng Yang, Hao Li

GoalFlow: Zielgesteuerte Flussanpassung für die Erzeugung multimodaler Trajektorien im End-to-End autonomen Fahren
GoalFlow: Goal-Driven Flow Matching for Multimodal Trajectories Generation in End-to-End Autonomous Driving

Mar 7

ByZebin Xing, Xingyu Zhang, Yang Hu, Bo Jiang, Tong He, Qian Zhang, Xiaoxiao Long, Wei Yin

Gruppenrobustes Maschinelles Verlernen
Group-robust Machine Unlearning

Mar 12

ByThomas De Min, Subhankar Roy, Stéphane Lathuilière, Elisa Ricci, Massimiliano Mancini