papers.description
Wir präsentieren das „Gesetz der visuellen Repräsentation“ in multimodalen großen Sprachmodellen (MLLMs). Es zeigt eine starke Korrelation zwischen der Kombination von cross-modaler Ausrichtung, Korrespondenz in der visuellen Repräsentation und der Leistung von MLLMs. Wir quantifizieren diese beiden Faktoren mithilfe des cross-modalen Ausrichtungs- und Korrespondenz-Scores (AC-Score). Durch umfangreiche Experimente mit dreizehn verschiedenen Einstellungen der visuellen Repräsentation und Bewertungen über acht Benchmarks hinweg stellen wir fest, dass der AC-Score linear mit der Modellleistung korreliert. Indem wir diese Beziehung nutzen, können wir die optimale visuelle Repräsentation identifizieren und trainieren, ohne jedes Mal das Sprachmodell feinabstimmen zu müssen, was zu einer Reduzierung der Rechenkosten um 99,7 % führt.
Ausgehend von VisualGLM und CogVLM erforschen wir kontinuierlich Vision-Language-Modelle (VLMs), um eine verbesserte Fusion von Bild und Sprache, effizientere Architekturen für höhere Auflösungen sowie breitere Modalitäten und Anwendungen zu erreichen. Hier präsentieren wir die CogVLM2-Familie, eine neue Generation von visuellen Sprachmodellen für das Verständnis von Bildern und Videos, darunter CogVLM2, CogVLM2-Video und GLM-4V. Als Modell für das Bildverständnis erbt CogVLM2 die Architektur des visuellen Experten mit verbesserten Trainingsmethoden sowohl in der Vor- als auch in der Nachtrainingsphase und unterstützt eine Eingabeauflösung von bis zu 1344 × 1344 Pixeln. Als Modell für das Videoverständnis integriert CogVLM2-Video Mehrfachbild-Eingaben mit Zeitstempeln und schlägt eine automatisierte Konstruktion von temporalen Verankerungsdaten vor. Bemerkenswerterweise hat die CogVLM2-Familie state-of-the-art Ergebnisse auf Benchmarks wie MMBench, MM-Vet, TextVQA, MVBench und VCGBench erzielt. Alle Modelle sind unter https://github.com/THUDM/CogVLM2 und https://github.com/THUDM/GLM-4 quelloffen verfügbar und tragen so zur Weiterentwicklung des Feldes bei.
Sprachmodelle wurden erfolgreich zur Modellierung natürlicher Signale wie Bilder, Videos, Sprache und Audio eingesetzt. Ein entscheidender Bestandteil dieser Modelle ist der Codec-Tokenizer, der hochdimensionale natürliche Signale in niedrigdimensionale diskrete Token komprimiert. In diesem Artikel stellen wir WavTokenizer vor, das mehrere Vorteile gegenüber bisherigen State-of-the-Art (SOTA) akustischen Codec-Modellen im Audiobereich bietet: 1) extreme Kompression. Durch die Kompression der Quantisierungs-Ebenen und der zeitlichen Dimension des diskreten Codecs benötigt eine Sekunde Audio mit einer Abtastrate von 24 kHz nur einen einzigen Quantisierer mit 40 oder 75 Token. 2) verbesserte subjektive Qualität. Trotz der reduzierten Anzahl von Token erreicht WavTokenizer eine state-of-the-art Rekonstruktionsqualität mit hervorragenden UTMOS-Werten und enthält von Natur aus reichere semantische Informationen. Konkret erzielen wir diese Ergebnisse durch die Gestaltung eines breiteren VQ-Raums, erweiterter kontextueller Fenster und verbesserter Aufmerksamkeitsnetzwerke sowie die Einführung eines leistungsstarken Multi-Scale-Diskriminators und einer inversen Fourier-Transformations-Struktur. Wir führten umfangreiche Rekonstruktionsexperimente in den Bereichen Sprache, Audio und Musik durch. WavTokenizer zeigte im Vergleich zu state-of-the-art Modellen eine starke Leistung in verschiedenen objektiven und subjektiven Metriken. Wir testeten auch semantische Informationen, VQ-Nutzung und die Anpassungsfähigkeit an generative Modelle. Umfassende Ablationsstudien bestätigen die Notwendigkeit jedes Moduls in WavTokenizer. Der zugehörige Code, Demos und vortrainierte Modelle sind unter https://github.com/jishengpeng/WavTokenizer verfügbar.
Fortschritte in der 3D-Szenenrekonstruktion haben 2D-Bilder aus der realen Welt in 3D-Modelle transformiert und ermöglichen realistische 3D-Ergebnisse aus Hunderten von Eingabefotos. Trotz großer Erfolge in Szenarien mit dichter Ansichtsrekonstruktion bleibt das Rendern einer detaillierten Szene aus unzureichend erfassten Ansichten ein schlecht gestelltes Optimierungsproblem, das oft zu Artefakten und Verzerrungen in nicht sichtbaren Bereichen führt. In diesem Artikel schlagen wir ReconX vor, ein neuartiges Paradigma zur 3D-Szenenrekonstruktion, das die mehrdeutige Rekonstruktionsherausforderung als eine zeitliche Generierungsaufgabe neu formuliert. Der zentrale Ansatz besteht darin, das starke generative Vorwissen großer, vortrainierter Video-Diffusionsmodelle für die Rekonstruktion mit spärlichen Ansichten zu nutzen. Allerdings wird die 3D-Ansichtskonsistenz in direkt generierten Videobildern aus vortrainierten Modellen nur unzureichend bewahrt. Um dies zu adressieren, konstruiert das vorgeschlagene ReconX bei begrenzten Eingabeansichten zunächst eine globale Punktwolke und kodiert sie in einen kontextuellen Raum als 3D-Strukturbedingung. Angeleitet durch diese Bedingung synthetisiert das Video-Diffusionsmodell dann Videobilder, die sowohl detailgetreu sind als auch eine hohe 3D-Konsistenz aufweisen, wodurch die Kohärenz der Szene aus verschiedenen Perspektiven sichergestellt wird. Schließlich rekonstruieren wir die 3D-Szene aus dem generierten Video durch ein konfidenzbewusstes 3D-Gaussian-Splatting-Optimierungsschema. Umfangreiche Experimente auf verschiedenen realen Datensätzen zeigen die Überlegenheit unseres ReconX gegenüber state-of-the-art Methoden in Bezug auf Qualität und Generalisierbarkeit.
Wir stellen SAM2Point vor, eine erste Exploration zur Anpassung des Segment Anything Model 2 (SAM 2) für die Zero-Shot- und promptbare 3D-Segmentierung. SAM2Point interpretiert beliebige 3D-Daten als eine Reihe von multidirektionalen Videos und nutzt SAM 2 für die Segmentierung im 3D-Raum, ohne zusätzliches Training oder 2D-3D-Projektion. Unser Framework unterstützt verschiedene Prompt-Typen, einschließlich 3D-Punkten, Boxen und Masken, und kann sich auf unterschiedliche Szenarien verallgemeinern, wie 3D-Objekte, Innenräume, Außenumgebungen und rohe, spärliche LiDAR-Daten. Demonstrationen auf mehreren 3D-Datensätzen, z. B. Objaverse, S3DIS, ScanNet, Semantic3D und KITTI, unterstreichen die robusten Generalisierungsfähigkeiten von SAM2Point. Nach bestem Wissen präsentieren wir die bisher treueste Implementierung von SAM in 3D, die als Ausgangspunkt für zukünftige Forschungen zur promptbaren 3D-Segmentierung dienen kann. Online-Demo: https://huggingface.co/spaces/ZiyuG/SAM2Point. Code: https://github.com/ZiyuGuo99/SAM2Point.
Sprachmodelle haben bemerkenswerte Leistungen bei der Lösung von Denkaufgaben gezeigt; jedoch machen selbst die stärksten Modelle gelegentlich noch Denkfehler. In jüngster Zeit gab es aktive Forschung, die darauf abzielt, die Genauigkeit des Denkens zu verbessern, insbesondere durch den Einsatz von vortrainierten Sprachmodellen, die ihre Fehler über mehrstufige Aufforderungen „selbst korrigieren“. In diesem Beitrag folgen wir dieser Forschungsrichtung, konzentrieren uns jedoch darauf, den Nutzen der direkten Einbindung von „Fehlerkorrektur“-Daten in die Vortrainingsphase zu untersuchen. Diese Daten bestehen aus fehlerhaften Lösungsschritten, denen unmittelbar ihre Korrekturen folgen. Anhand eines synthetischen Mathematikdatensatzes zeigen wir vielversprechende Ergebnisse: Diese Art von Vortrainingsdaten kann Sprachmodellen helfen, eine höhere Denkgenauigkeit direkt (d. h. durch einfache Autoregression, ohne mehrstufige Aufforderungen) zu erreichen, verglichen mit dem Vortraining auf der gleichen Menge fehlerfreier Daten. Wir gehen auch auf viele Details ein, wie (1) wie sich dieser Ansatz von der Strahlensuche unterscheidet, (2) wie solche Daten vorbereitet werden können, (3) ob eine Maskierung der fehlerhaften Tokens erforderlich ist, (4) die Menge der benötigten Fehler, (5) ob solche Daten auf die Feinabstimmungsphase verschoben werden können, und viele andere.
Das Diffusionsmodell hat außergewöhnliche Fähigkeiten bei der kontrollierten Bildgenerierung gezeigt, was das Interesse am Bildstiltransfer weiter gesteigert hat. Bisherige Arbeiten konzentrieren sich hauptsächlich auf das Training von freien Methoden (z. B. Bildinversion) aufgrund der Knappheit spezifischer Daten. In dieser Studie präsentieren wir eine Datenkonstruktionspipeline für Inhalts-Stil-stilisierte Bildtriplets, die stilisierte Datentriplets generiert und automatisch bereinigt. Basierend auf dieser Pipeline erstellen wir den Datensatz IMAGStyle, den ersten groß angelegten Stiltransfer-Datensatz, der 210k Bildtriplets enthält und der Gemeinschaft zur Erkundung und Forschung zur Verfügung steht. Ausgestattet mit IMAGStyle schlagen wir CSGO vor, ein Stiltransfermodell, das auf end-to-end-Training basiert und explizit Inhalts- und Stilmerkmale durch unabhängige Merkmalsinjektion entkoppelt. Das einheitliche CSGO implementiert bildgesteuerten Stiltransfer, textgesteuerte stilisierte Synthese und textbearbeitungsgesteuerte stilisierte Synthese. Umfangreiche Experimente demonstrieren die Effektivität unseres Ansatzes zur Verbesserung der Stilkontrollfähigkeiten in der Bildgenerierung. Zusätzliche Visualisierungen und Zugang zum Quellcode finden Sie auf der Projektseite: https://csgo-gen.github.io/.
Wir stellen Spann3R vor, einen neuartigen Ansatz zur dichten 3D-Rekonstruktion aus geordneten oder ungeordneten Bildsammlungen. Basierend auf dem DUSt3R-Paradigma verwendet Spann3R eine Transformer-basierte Architektur, um direkt Punktkarten aus Bildern zu regressieren, ohne jegliche Vorinformationen über die Szene oder Kameraparameter. Im Gegensatz zu DUSt3R, das Punktkarten pro Bildpaar vorhersagt, die jeweils in ihrem lokalen Koordinatensystem ausgedrückt werden, kann Spann3R Punktkarten pro Bild in einem globalen Koordinatensystem vorhersagen, wodurch die Notwendigkeit einer optimierungsbasierten globalen Ausrichtung entfällt. Die zentrale Idee von Spann3R besteht darin, ein externes räumliches Gedächtnis zu verwalten, das lernt, alle bisherigen relevanten 3D-Informationen zu verfolgen. Spann3R fragt dann dieses räumliche Gedächtnis ab, um die 3D-Struktur des nächsten Bildes in einem globalen Koordinatensystem vorherzusagen. Durch die Nutzung der vortrainierten Gewichte von DUSt3R und weiteres Feinabstimmen auf einer Teilmenge von Datensätzen zeigt Spann3R eine wettbewerbsfähige Leistung und Generalisierungsfähigkeit auf verschiedenen unbekannten Datensätzen und kann geordnete Bildsammlungen in Echtzeit verarbeiten. Projektseite: https://hengyiwang.github.io/projects/spanner
Autorenverschleierung, das gezielte Umschreiben eines Textes, um die Identität des Autors zu verschleiern, ist eine wichtige, aber herausfordernde Aufgabe. Aktuelle Methoden, die große Sprachmodelle (LLMs) verwenden, mangelt es an Interpretierbarkeit und Steuerbarkeit, wobei häufig autorspezifische stilistische Merkmale ignoriert werden, was insgesamt zu einer weniger robusten Leistung führt. Um dies zu beheben, entwickeln wir StyleRemix, eine adaptive und interpretierbare Verschleierungsmethode, die spezifische, feingranulare Stilelemente des ursprünglichen Eingabetexts verändert. StyleRemix nutzt vortrainierte Low-Rank-Adaptation-Module (LoRA), um einen Eingabetext gezielt entlang verschiedener stilistischer Achsen (z. B. Formalität und Länge) umzuschreiben, während die Rechenkosten gering bleiben. StyleRemix übertrifft sowohl in automatisierten als auch in menschlichen Bewertungen state-of-the-art Baselines und deutlich größere LLMs in einer Vielzahl von Domänen. Zusätzlich veröffentlichen wir AuthorMix, einen umfangreichen Datensatz mit 30.000 hochwertigen, langen Texten von 14 verschiedenen Autoren aus 4 Domänen, sowie DiSC, ein paralleles Korpus von 1.500 Texten, die sieben stilistische Achsen in 16 einzigartigen Richtungen abdecken.
Neuartige maschinelle Lernmethoden zur Generierung tabellarischer Daten werden oft an kleinen Datensätzen entwickelt, die nicht die für wissenschaftliche Anwendungen erforderliche Größe erreichen. Wir untersuchen einen kürzlich vorgeschlagenen Ansatz, XGBoost als Funktionsapproximator in Diffusions- und Flow-Matching-Modellen für tabellarische Daten zu verwenden, der sich selbst bei winzigen Datensätzen als extrem speicherintensiv erwiesen hat. In dieser Arbeit führen wir eine kritische Analyse der bestehenden Implementierung aus einer ingenieurtechnischen Perspektive durch und zeigen, dass diese Einschränkungen nicht grundlegend für die Methode sind; mit einer besseren Implementierung kann sie auf Datensätze skaliert werden, die 370-mal größer sind als bisher verwendet. Unsere effiziente Implementierung ermöglicht es auch, Modelle auf viel größere Größen zu skalieren, was nachweislich direkt zu einer verbesserten Leistung bei Benchmark-Aufgaben führt. Wir schlagen außerdem algorithmische Verbesserungen vor, die die Ressourcennutzung und Modellleistung weiter steigern können, darunter Multi-Output-Bäume, die sich gut für die generative Modellierung eignen. Schließlich präsentieren wir Ergebnisse zu groß angelegten wissenschaftlichen Datensätzen aus der experimentellen Teilchenphysik im Rahmen der Fast Calorimeter Simulation Challenge. Der Code ist verfügbar unter https://github.com/layer6ai-labs/calo-forest.
Zahlreiche biologische und physikalische Prozesse können als Systeme interagierender Entitäten modelliert werden, die sich kontinuierlich über die Zeit entwickeln, z. B. die Dynamik kommunizierender Zellen oder physikalischer Teilchen. Das Erlernen der Dynamik solcher Systeme ist entscheidend, um die zeitliche Entwicklung von Populationen über neue Proben und unbekannte Umgebungen hinweg vorherzusagen. Flow-basierte Modelle ermöglichen es, diese Dynamik auf Populationsebene zu lernen – sie modellieren die Entwicklung der gesamten Verteilung der Proben. Allerdings sind aktuelle Flow-basierte Modelle auf eine einzige Ausgangspopulation und eine Reihe vordefinierter Bedingungen beschränkt, die unterschiedliche Dynamiken beschreiben. Wir argumentieren, dass multiple Prozesse in den Naturwissenschaften als Vektorfelder auf der Wasserstein-Mannigfaltigkeit von Wahrscheinlichkeitsdichten dargestellt werden müssen. Das bedeutet, dass die Veränderung der Population zu jedem Zeitpunkt von der Population selbst abhängt, bedingt durch die Interaktionen zwischen den Proben. Dies ist insbesondere für die personalisierte Medizin entscheidend, wo die Entwicklung von Krankheiten und deren jeweilige Behandlungsreaktion von der zellspezifischen Mikroumgebung jedes Patienten abhängt. Wir schlagen Meta Flow Matching (MFM) vor, einen praktischen Ansatz zur Integration entlang dieser Vektorfelder auf der Wasserstein-Mannigfaltigkeit, indem das Flow-Modell über die Ausgangspopulationen amortisiert wird. Konkret betten wir die Population der Proben mit einem Graph Neural Network (GNN) ein und nutzen diese Einbettungen, um ein Flow-Matching-Modell zu trainieren. Dies verleiht MFM die Fähigkeit, über die Ausgangsverteilungen zu generalisieren, im Gegensatz zu bisher vorgeschlagenen Methoden. Wir demonstrieren die Fähigkeit von MFM, die Vorhersage individueller Behandlungsreaktionen auf einem groß angelegten Multi-Patienten-Einzellzell-Drug-Screen-Datensatz zu verbessern.