papers.title

papers.description

Gesetz der visuellen Repräsentation in MLLMs
Law of Vision Representation in MLLMs

Aug 29

ByShijia Yang, Bohan Zhai, Quanzeng You, Jianbo Yuan, Hongxia Yang, Chenfeng Xu

Wir präsentieren das „Gesetz der visuellen Repräsentation“ in multimodalen großen Sprachmodellen (MLLMs). Es zeigt eine starke Korrelation zwischen der Kombination von cross-modaler Ausrichtung, Korrespondenz in der visuellen Repräsentation und der Leistung von MLLMs. Wir quantifizieren diese beiden Faktoren mithilfe des cross-modalen Ausrichtungs- und Korrespondenz-Scores (AC-Score). Durch umfangreiche Experimente mit dreizehn verschiedenen Einstellungen der visuellen Repräsentation und Bewertungen über acht Benchmarks hinweg stellen wir fest, dass der AC-Score linear mit der Modellleistung korreliert. Indem wir diese Beziehung nutzen, können wir die optimale visuelle Repräsentation identifizieren und trainieren, ohne jedes Mal das Sprachmodell feinabstimmen zu müssen, was zu einer Reduzierung der Rechenkosten um 99,7 % führt.

CogVLM2: Visuelle Sprachmodelle für Bild- und Videoverständnis
CogVLM2: Visual Language Models for Image and Video Understanding

Aug 29

ByWenyi Hong, Weihan Wang, Ming Ding, Wenmeng Yu, Qingsong Lv, Yan Wang, Yean Cheng, Shiyu Huang, Junhui Ji, Zhao Xue, Lei Zhao, Zhuoyi Yang, Xiaotao Gu, Xiaohan Zhang, Guanyu Feng, Da Yin, Zihan Wang, Ji Qi, Xixuan Song, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Yuxiao Dong, Jie Tang

Ausgehend von VisualGLM und CogVLM erforschen wir kontinuierlich Vision-Language-Modelle (VLMs), um eine verbesserte Fusion von Bild und Sprache, effizientere Architekturen für höhere Auflösungen sowie breitere Modalitäten und Anwendungen zu erreichen. Hier präsentieren wir die CogVLM2-Familie, eine neue Generation von visuellen Sprachmodellen für das Verständnis von Bildern und Videos, darunter CogVLM2, CogVLM2-Video und GLM-4V. Als Modell für das Bildverständnis erbt CogVLM2 die Architektur des visuellen Experten mit verbesserten Trainingsmethoden sowohl in der Vor- als auch in der Nachtrainingsphase und unterstützt eine Eingabeauflösung von bis zu 1344 × 1344 Pixeln. Als Modell für das Videoverständnis integriert CogVLM2-Video Mehrfachbild-Eingaben mit Zeitstempeln und schlägt eine automatisierte Konstruktion von temporalen Verankerungsdaten vor. Bemerkenswerterweise hat die CogVLM2-Familie state-of-the-art Ergebnisse auf Benchmarks wie MMBench, MM-Vet, TextVQA, MVBench und VCGBench erzielt. Alle Modelle sind unter https://github.com/THUDM/CogVLM2 und https://github.com/THUDM/GLM-4 quelloffen verfügbar und tragen so zur Weiterentwicklung des Feldes bei.

WavTokenizer: Ein effizienter akustischer diskreter Codec-Tokenizer für Audio-Sprachmodellierung
WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

Aug 29

ByShengpeng Ji, Ziyue Jiang, Xize Cheng, Yifu Chen, Minghui Fang, Jialong Zuo, Qian Yang, Ruiqi Li, Ziang Zhang, Xiaoda Yang, Rongjie Huang, Yidi Jiang, Qian Chen, Siqi Zheng, Wen Wang, Zhou Zhao

Sprachmodelle wurden erfolgreich zur Modellierung natürlicher Signale wie Bilder, Videos, Sprache und Audio eingesetzt. Ein entscheidender Bestandteil dieser Modelle ist der Codec-Tokenizer, der hochdimensionale natürliche Signale in niedrigdimensionale diskrete Token komprimiert. In diesem Artikel stellen wir WavTokenizer vor, das mehrere Vorteile gegenüber bisherigen State-of-the-Art (SOTA) akustischen Codec-Modellen im Audiobereich bietet: 1) extreme Kompression. Durch die Kompression der Quantisierungs-Ebenen und der zeitlichen Dimension des diskreten Codecs benötigt eine Sekunde Audio mit einer Abtastrate von 24 kHz nur einen einzigen Quantisierer mit 40 oder 75 Token. 2) verbesserte subjektive Qualität. Trotz der reduzierten Anzahl von Token erreicht WavTokenizer eine state-of-the-art Rekonstruktionsqualität mit hervorragenden UTMOS-Werten und enthält von Natur aus reichere semantische Informationen. Konkret erzielen wir diese Ergebnisse durch die Gestaltung eines breiteren VQ-Raums, erweiterter kontextueller Fenster und verbesserter Aufmerksamkeitsnetzwerke sowie die Einführung eines leistungsstarken Multi-Scale-Diskriminators und einer inversen Fourier-Transformations-Struktur. Wir führten umfangreiche Rekonstruktionsexperimente in den Bereichen Sprache, Audio und Musik durch. WavTokenizer zeigte im Vergleich zu state-of-the-art Modellen eine starke Leistung in verschiedenen objektiven und subjektiven Metriken. Wir testeten auch semantische Informationen, VQ-Nutzung und die Anpassungsfähigkeit an generative Modelle. Umfassende Ablationsstudien bestätigen die Notwendigkeit jedes Moduls in WavTokenizer. Der zugehörige Code, Demos und vortrainierte Modelle sind unter https://github.com/jishengpeng/WavTokenizer verfügbar.

ReconX: Rekonstruktion beliebiger Szenen aus spärlichen Ansichten mit einem Video-Diffusionsmodell
ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model

Aug 29

ByFangfu Liu, Wenqiang Sun, Hanyang Wang, Yikai Wang, Haowen Sun, Junliang Ye, Jun Zhang, Yueqi Duan

Fortschritte in der 3D-Szenenrekonstruktion haben 2D-Bilder aus der realen Welt in 3D-Modelle transformiert und ermöglichen realistische 3D-Ergebnisse aus Hunderten von Eingabefotos. Trotz großer Erfolge in Szenarien mit dichter Ansichtsrekonstruktion bleibt das Rendern einer detaillierten Szene aus unzureichend erfassten Ansichten ein schlecht gestelltes Optimierungsproblem, das oft zu Artefakten und Verzerrungen in nicht sichtbaren Bereichen führt. In diesem Artikel schlagen wir ReconX vor, ein neuartiges Paradigma zur 3D-Szenenrekonstruktion, das die mehrdeutige Rekonstruktionsherausforderung als eine zeitliche Generierungsaufgabe neu formuliert. Der zentrale Ansatz besteht darin, das starke generative Vorwissen großer, vortrainierter Video-Diffusionsmodelle für die Rekonstruktion mit spärlichen Ansichten zu nutzen. Allerdings wird die 3D-Ansichtskonsistenz in direkt generierten Videobildern aus vortrainierten Modellen nur unzureichend bewahrt. Um dies zu adressieren, konstruiert das vorgeschlagene ReconX bei begrenzten Eingabeansichten zunächst eine globale Punktwolke und kodiert sie in einen kontextuellen Raum als 3D-Strukturbedingung. Angeleitet durch diese Bedingung synthetisiert das Video-Diffusionsmodell dann Videobilder, die sowohl detailgetreu sind als auch eine hohe 3D-Konsistenz aufweisen, wodurch die Kohärenz der Szene aus verschiedenen Perspektiven sichergestellt wird. Schließlich rekonstruieren wir die 3D-Szene aus dem generierten Video durch ein konfidenzbewusstes 3D-Gaussian-Splatting-Optimierungsschema. Umfangreiche Experimente auf verschiedenen realen Datensätzen zeigen die Überlegenheit unseres ReconX gegenüber state-of-the-art Methoden in Bezug auf Qualität und Generalisierbarkeit.

SAM2Point: Segmentiere beliebige 3D-Daten als Videos in Zero-Shot und promptfähiger Weise
SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners

Aug 29

ByZiyu Guo, Renrui Zhang, Xiangyang Zhu, Chengzhuo Tong, Peng Gao, Chunyuan Li, Pheng-Ann Heng

Wir stellen SAM2Point vor, eine erste Exploration zur Anpassung des Segment Anything Model 2 (SAM 2) für die Zero-Shot- und promptbare 3D-Segmentierung. SAM2Point interpretiert beliebige 3D-Daten als eine Reihe von multidirektionalen Videos und nutzt SAM 2 für die Segmentierung im 3D-Raum, ohne zusätzliches Training oder 2D-3D-Projektion. Unser Framework unterstützt verschiedene Prompt-Typen, einschließlich 3D-Punkten, Boxen und Masken, und kann sich auf unterschiedliche Szenarien verallgemeinern, wie 3D-Objekte, Innenräume, Außenumgebungen und rohe, spärliche LiDAR-Daten. Demonstrationen auf mehreren 3D-Datensätzen, z. B. Objaverse, S3DIS, ScanNet, Semantic3D und KITTI, unterstreichen die robusten Generalisierungsfähigkeiten von SAM2Point. Nach bestem Wissen präsentieren wir die bisher treueste Implementierung von SAM in 3D, die als Ausgangspunkt für zukünftige Forschungen zur promptbaren 3D-Segmentierung dienen kann. Online-Demo: https://huggingface.co/spaces/ZiyuG/SAM2Point. Code: https://github.com/ZiyuGuo99/SAM2Point.

Physik von Sprachmodellen: Teil 2.2, Wie man aus Fehlern bei Grundschulmathematikaufgaben lernt
Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems

Aug 29

ByTian Ye, Zicheng Xu, Yuanzhi Li, Zeyuan Allen-Zhu

Sprachmodelle haben bemerkenswerte Leistungen bei der Lösung von Denkaufgaben gezeigt; jedoch machen selbst die stärksten Modelle gelegentlich noch Denkfehler. In jüngster Zeit gab es aktive Forschung, die darauf abzielt, die Genauigkeit des Denkens zu verbessern, insbesondere durch den Einsatz von vortrainierten Sprachmodellen, die ihre Fehler über mehrstufige Aufforderungen „selbst korrigieren“. In diesem Beitrag folgen wir dieser Forschungsrichtung, konzentrieren uns jedoch darauf, den Nutzen der direkten Einbindung von „Fehlerkorrektur“-Daten in die Vortrainingsphase zu untersuchen. Diese Daten bestehen aus fehlerhaften Lösungsschritten, denen unmittelbar ihre Korrekturen folgen. Anhand eines synthetischen Mathematikdatensatzes zeigen wir vielversprechende Ergebnisse: Diese Art von Vortrainingsdaten kann Sprachmodellen helfen, eine höhere Denkgenauigkeit direkt (d. h. durch einfache Autoregression, ohne mehrstufige Aufforderungen) zu erreichen, verglichen mit dem Vortraining auf der gleichen Menge fehlerfreier Daten. Wir gehen auch auf viele Details ein, wie (1) wie sich dieser Ansatz von der Strahlensuche unterscheidet, (2) wie solche Daten vorbereitet werden können, (3) ob eine Maskierung der fehlerhaften Tokens erforderlich ist, (4) die Menge der benötigten Fehler, (5) ob solche Daten auf die Feinabstimmungsphase verschoben werden können, und viele andere.

CSGO: Inhalts-Stil-Komposition in der Text-zu-Bild-Generierung
CSGO: Content-Style Composition in Text-to-Image Generation

Aug 29

ByPeng Xing, Haofan Wang, Yanpeng Sun, Qixun Wang, Xu Bai, Hao Ai, Renyuan Huang, Zechao Li

Das Diffusionsmodell hat außergewöhnliche Fähigkeiten bei der kontrollierten Bildgenerierung gezeigt, was das Interesse am Bildstiltransfer weiter gesteigert hat. Bisherige Arbeiten konzentrieren sich hauptsächlich auf das Training von freien Methoden (z. B. Bildinversion) aufgrund der Knappheit spezifischer Daten. In dieser Studie präsentieren wir eine Datenkonstruktionspipeline für Inhalts-Stil-stilisierte Bildtriplets, die stilisierte Datentriplets generiert und automatisch bereinigt. Basierend auf dieser Pipeline erstellen wir den Datensatz IMAGStyle, den ersten groß angelegten Stiltransfer-Datensatz, der 210k Bildtriplets enthält und der Gemeinschaft zur Erkundung und Forschung zur Verfügung steht. Ausgestattet mit IMAGStyle schlagen wir CSGO vor, ein Stiltransfermodell, das auf end-to-end-Training basiert und explizit Inhalts- und Stilmerkmale durch unabhängige Merkmalsinjektion entkoppelt. Das einheitliche CSGO implementiert bildgesteuerten Stiltransfer, textgesteuerte stilisierte Synthese und textbearbeitungsgesteuerte stilisierte Synthese. Umfangreiche Experimente demonstrieren die Effektivität unseres Ansatzes zur Verbesserung der Stilkontrollfähigkeiten in der Bildgenerierung. Zusätzliche Visualisierungen und Zugang zum Quellcode finden Sie auf der Projektseite: https://csgo-gen.github.io/.

3D-Rekonstruktion mit räumlichem Gedächtnis
3D Reconstruction with Spatial Memory

Aug 28

ByHengyi Wang, Lourdes Agapito

Wir stellen Spann3R vor, einen neuartigen Ansatz zur dichten 3D-Rekonstruktion aus geordneten oder ungeordneten Bildsammlungen. Basierend auf dem DUSt3R-Paradigma verwendet Spann3R eine Transformer-basierte Architektur, um direkt Punktkarten aus Bildern zu regressieren, ohne jegliche Vorinformationen über die Szene oder Kameraparameter. Im Gegensatz zu DUSt3R, das Punktkarten pro Bildpaar vorhersagt, die jeweils in ihrem lokalen Koordinatensystem ausgedrückt werden, kann Spann3R Punktkarten pro Bild in einem globalen Koordinatensystem vorhersagen, wodurch die Notwendigkeit einer optimierungsbasierten globalen Ausrichtung entfällt. Die zentrale Idee von Spann3R besteht darin, ein externes räumliches Gedächtnis zu verwalten, das lernt, alle bisherigen relevanten 3D-Informationen zu verfolgen. Spann3R fragt dann dieses räumliche Gedächtnis ab, um die 3D-Struktur des nächsten Bildes in einem globalen Koordinatensystem vorherzusagen. Durch die Nutzung der vortrainierten Gewichte von DUSt3R und weiteres Feinabstimmen auf einer Teilmenge von Datensätzen zeigt Spann3R eine wettbewerbsfähige Leistung und Generalisierungsfähigkeit auf verschiedenen unbekannten Datensätzen und kann geordnete Bildsammlungen in Echtzeit verarbeiten. Projektseite: https://hengyiwang.github.io/projects/spanner

StyleRemix: Interpretierbare Autorschaftsverschleierung durch Destillation und Perturbation von Stilelementen
StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements

Aug 28

ByJillian Fisher, Skyler Hallinan, Ximing Lu, Mitchell Gordon, Zaid Harchaoui, Yejin Choi

Autorenverschleierung, das gezielte Umschreiben eines Textes, um die Identität des Autors zu verschleiern, ist eine wichtige, aber herausfordernde Aufgabe. Aktuelle Methoden, die große Sprachmodelle (LLMs) verwenden, mangelt es an Interpretierbarkeit und Steuerbarkeit, wobei häufig autorspezifische stilistische Merkmale ignoriert werden, was insgesamt zu einer weniger robusten Leistung führt. Um dies zu beheben, entwickeln wir StyleRemix, eine adaptive und interpretierbare Verschleierungsmethode, die spezifische, feingranulare Stilelemente des ursprünglichen Eingabetexts verändert. StyleRemix nutzt vortrainierte Low-Rank-Adaptation-Module (LoRA), um einen Eingabetext gezielt entlang verschiedener stilistischer Achsen (z. B. Formalität und Länge) umzuschreiben, während die Rechenkosten gering bleiben. StyleRemix übertrifft sowohl in automatisierten als auch in menschlichen Bewertungen state-of-the-art Baselines und deutlich größere LLMs in einer Vielzahl von Domänen. Zusätzlich veröffentlichen wir AuthorMix, einen umfangreichen Datensatz mit 30.000 hochwertigen, langen Texten von 14 verschiedenen Autoren aus 4 Domänen, sowie DiSC, ein paralleles Korpus von 1.500 Texten, die sieben stilistische Achsen in 16 einzigartigen Richtungen abdecken.

Skalierung von Diffusions- und Flow-basierten XGBoost-Modellen
Scaling Up Diffusion and Flow-based XGBoost Models

Aug 28

ByJesse C. Cresswell, Taewoo Kim

Neuartige maschinelle Lernmethoden zur Generierung tabellarischer Daten werden oft an kleinen Datensätzen entwickelt, die nicht die für wissenschaftliche Anwendungen erforderliche Größe erreichen. Wir untersuchen einen kürzlich vorgeschlagenen Ansatz, XGBoost als Funktionsapproximator in Diffusions- und Flow-Matching-Modellen für tabellarische Daten zu verwenden, der sich selbst bei winzigen Datensätzen als extrem speicherintensiv erwiesen hat. In dieser Arbeit führen wir eine kritische Analyse der bestehenden Implementierung aus einer ingenieurtechnischen Perspektive durch und zeigen, dass diese Einschränkungen nicht grundlegend für die Methode sind; mit einer besseren Implementierung kann sie auf Datensätze skaliert werden, die 370-mal größer sind als bisher verwendet. Unsere effiziente Implementierung ermöglicht es auch, Modelle auf viel größere Größen zu skalieren, was nachweislich direkt zu einer verbesserten Leistung bei Benchmark-Aufgaben führt. Wir schlagen außerdem algorithmische Verbesserungen vor, die die Ressourcennutzung und Modellleistung weiter steigern können, darunter Multi-Output-Bäume, die sich gut für die generative Modellierung eignen. Schließlich präsentieren wir Ergebnisse zu groß angelegten wissenschaftlichen Datensätzen aus der experimentellen Teilchenphysik im Rahmen der Fast Calorimeter Simulation Challenge. Der Code ist verfügbar unter https://github.com/layer6ai-labs/calo-forest.

Meta Flow Matching: Integration von Vektorfeldern auf der Wasserstein-Mannigfaltigkeit
Meta Flow Matching: Integrating Vector Fields on the Wasserstein Manifold

Aug 26

ByLazar Atanackovic, Xi Zhang, Brandon Amos, Mathieu Blanchette, Leo J. Lee, Yoshua Bengio, Alexander Tong, Kirill Neklyudov

Zahlreiche biologische und physikalische Prozesse können als Systeme interagierender Entitäten modelliert werden, die sich kontinuierlich über die Zeit entwickeln, z. B. die Dynamik kommunizierender Zellen oder physikalischer Teilchen. Das Erlernen der Dynamik solcher Systeme ist entscheidend, um die zeitliche Entwicklung von Populationen über neue Proben und unbekannte Umgebungen hinweg vorherzusagen. Flow-basierte Modelle ermöglichen es, diese Dynamik auf Populationsebene zu lernen – sie modellieren die Entwicklung der gesamten Verteilung der Proben. Allerdings sind aktuelle Flow-basierte Modelle auf eine einzige Ausgangspopulation und eine Reihe vordefinierter Bedingungen beschränkt, die unterschiedliche Dynamiken beschreiben. Wir argumentieren, dass multiple Prozesse in den Naturwissenschaften als Vektorfelder auf der Wasserstein-Mannigfaltigkeit von Wahrscheinlichkeitsdichten dargestellt werden müssen. Das bedeutet, dass die Veränderung der Population zu jedem Zeitpunkt von der Population selbst abhängt, bedingt durch die Interaktionen zwischen den Proben. Dies ist insbesondere für die personalisierte Medizin entscheidend, wo die Entwicklung von Krankheiten und deren jeweilige Behandlungsreaktion von der zellspezifischen Mikroumgebung jedes Patienten abhängt. Wir schlagen Meta Flow Matching (MFM) vor, einen praktischen Ansatz zur Integration entlang dieser Vektorfelder auf der Wasserstein-Mannigfaltigkeit, indem das Flow-Modell über die Ausgangspopulationen amortisiert wird. Konkret betten wir die Population der Proben mit einem Graph Neural Network (GNN) ein und nutzen diese Einbettungen, um ein Flow-Matching-Modell zu trainieren. Dies verleiht MFM die Fähigkeit, über die Ausgangsverteilungen zu generalisieren, im Gegensatz zu bisher vorgeschlagenen Methoden. Wir demonstrieren die Fähigkeit von MFM, die Vorhersage individueller Behandlungsreaktionen auf einem groß angelegten Multi-Patienten-Einzellzell-Drug-Screen-Datensatz zu verbessern.

papers.title

papers.description

Gesetz der visuellen Repräsentation in MLLMs
Law of Vision Representation in MLLMs

Aug 29

ByShijia Yang, Bohan Zhai, Quanzeng You, Jianbo Yuan, Hongxia Yang, Chenfeng Xu

CogVLM2: Visuelle Sprachmodelle für Bild- und Videoverständnis
CogVLM2: Visual Language Models for Image and Video Understanding

Aug 29

WavTokenizer: Ein effizienter akustischer diskreter Codec-Tokenizer für Audio-Sprachmodellierung
WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

Aug 29

ByShengpeng Ji, Ziyue Jiang, Xize Cheng, Yifu Chen, Minghui Fang, Jialong Zuo, Qian Yang, Ruiqi Li, Ziang Zhang, Xiaoda Yang, Rongjie Huang, Yidi Jiang, Qian Chen, Siqi Zheng, Wen Wang, Zhou Zhao

ReconX: Rekonstruktion beliebiger Szenen aus spärlichen Ansichten mit einem Video-Diffusionsmodell
ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model

Aug 29

ByFangfu Liu, Wenqiang Sun, Hanyang Wang, Yikai Wang, Haowen Sun, Junliang Ye, Jun Zhang, Yueqi Duan

SAM2Point: Segmentiere beliebige 3D-Daten als Videos in Zero-Shot und promptfähiger Weise
SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners

Aug 29

ByZiyu Guo, Renrui Zhang, Xiangyang Zhu, Chengzhuo Tong, Peng Gao, Chunyuan Li, Pheng-Ann Heng

Physik von Sprachmodellen: Teil 2.2, Wie man aus Fehlern bei Grundschulmathematikaufgaben lernt
Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems

Aug 29

ByTian Ye, Zicheng Xu, Yuanzhi Li, Zeyuan Allen-Zhu

CSGO: Inhalts-Stil-Komposition in der Text-zu-Bild-Generierung
CSGO: Content-Style Composition in Text-to-Image Generation

Aug 29

ByPeng Xing, Haofan Wang, Yanpeng Sun, Qixun Wang, Xu Bai, Hao Ai, Renyuan Huang, Zechao Li

3D-Rekonstruktion mit räumlichem Gedächtnis
3D Reconstruction with Spatial Memory

Aug 28

ByHengyi Wang, Lourdes Agapito

StyleRemix: Interpretierbare Autorschaftsverschleierung durch Destillation und Perturbation von Stilelementen
StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements

Aug 28

ByJillian Fisher, Skyler Hallinan, Ximing Lu, Mitchell Gordon, Zaid Harchaoui, Yejin Choi

Skalierung von Diffusions- und Flow-basierten XGBoost-Modellen
Scaling Up Diffusion and Flow-based XGBoost Models

Aug 28

ByJesse C. Cresswell, Taewoo Kim

Meta Flow Matching: Integration von Vektorfeldern auf der Wasserstein-Mannigfaltigkeit
Meta Flow Matching: Integrating Vector Fields on the Wasserstein Manifold

Aug 26

ByLazar Atanackovic, Xi Zhang, Brandon Amos, Mathieu Blanchette, Leo J. Lee, Yoshua Bengio, Alexander Tong, Kirill Neklyudov