Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
In diesem technischen Bericht schlagen wir ChemVLM vor, das erste Open-Source multimodale große Sprachmodell, das den Bereichen Chemie gewidmet ist und entwickelt wurde, um die Inkompatibilität zwischen der Verständnis chemischer Bilder und der Textanalyse zu bewältigen. Aufbauend auf der VIT-MLP-LLM-Architektur nutzen wir ChemLLM-20B als grundlegendes großes Modell, um unser Modell mit robusten Fähigkeiten im Verständnis und der Nutzung chemischer Textkenntnisse auszustatten. Darüber hinaus verwenden wir InternVIT-6B als leistungsstarken Bildcodierer. Wir haben hochwertige Daten aus dem chemischen Bereich, einschließlich Molekülen, Reaktionsformeln und Chemieprüfungsdaten, zusammengestellt und in einen zweisprachigen multimodalen Frage-Antwort-Datensatz integriert. Wir testen die Leistung unseres Modells an mehreren Open-Source-Benchmarks und drei benutzerdefinierten Auswertungssätzen. Die experimentellen Ergebnisse zeigen, dass unser Modell eine ausgezeichnete Leistung erzielt und in fünf von sechs beteiligten Aufgaben Spitzenleistung erbringt. Unser Modell ist unter https://huggingface.co/AI4Chem/ChemVLM-26B verfügbar.
Text-zu-Bild-Modelle sind leistungsstarke Werkzeuge zur Bildgenerierung. Allerdings ähnelt der Generierungsprozess einem Würfelwurf und erschwert es, ein einzelnes Bild zu erzeugen, das alles einfängt, was ein Benutzer möchte. In diesem Paper schlagen wir ein Framework zur Erstellung des gewünschten Bildes vor, indem wir es aus verschiedenen Teilen von generierten Bildern zusammensetzen, im Wesentlichen ein Generatives Fotomontage. Ausgehend von einem Stapel von Bildern, die von ControlNet unter Verwendung derselben Eingangsbedingung und verschiedenen Seeds generiert wurden, lassen wir Benutzer gewünschte Teile aus den generierten Ergebnissen mithilfe einer Pinselstrich-Schnittstelle auswählen. Wir stellen eine neuartige Technik vor, die die Pinselstriche des Benutzers annimmt, die generierten Bilder in diffusion feature space segmentiert und dann die segmentierten Regionen über eine neue Feature-Space-Blending-Methode zusammensetzt. Unsere Methode bewahrt die vom Benutzer ausgewählten Regionen treu, während sie diese harmonisch zusammensetzt. Wir zeigen, dass unser flexibles Framework für viele Anwendungen verwendet werden kann, darunter die Generierung neuer Erscheinungskombinationen, das Beheben falscher Formen und Artefakte sowie die Verbesserung der Prompt-Ausrichtung. Wir präsentieren überzeugende Ergebnisse für jede Anwendung und zeigen, dass unsere Methode bestehende Bild-Blending-Methoden und verschiedene Baselines übertrifft.
Dieses Paper stellt die Aquila2-Serie vor, die eine breite Palette von zweisprachigen Modellen mit Parametergrößen von 7, 34 und 70 Milliarden umfasst. Diese Modelle werden auf Basis eines innovativen Frameworks namens HeuriMentor (HM) trainiert, das Echtzeiteinblicke in die Konvergenz des Modells bietet und den Schulungsprozess sowie das Datenmanagement verbessert. Das HM-System, bestehend aus dem Adaptiven Trainingsmotor (ATE), dem Schulungszustandsmonitor (TSM) und der Datenverwaltungseinheit (DMU), ermöglicht eine präzise Überwachung des Schulungsfortschritts des Modells und ermöglicht eine effiziente Optimierung der Datenaufteilung, wodurch die Schulungseffektivität verbessert wird. Umfangreiche Bewertungen zeigen, dass die Aquila2-Modellserie sowohl auf englischen als auch chinesischen Benchmarks vergleichsweise gut abschneidet. Insbesondere zeigt Aquila2-34B nur eine leichte Leistungsminderung, wenn es auf Int4 quantisiert wird. Darüber hinaus haben wir unseren Schulungscode (https://github.com/FlagOpen/FlagScale) und Modellgewichte (https://github.com/FlagAI-Open/Aquila2) öffentlich zugänglich gemacht, um laufende Forschung und die Entwicklung von Anwendungen zu unterstützen.
Wir beschreiben einen umfangreichen Datensatz - DeepSpeak - bestehend aus echten und Deepfake-Videos von Personen, die vor ihren Webcams sprechen und gestikulieren. Die echten Videos in dieser ersten Version des Datensatzes umfassen 9 Stunden Filmmaterial von 220 verschiedenen Personen. Die gefälschten Videos bestehen aus mehr als 25 Stunden Filmmaterial und zeigen eine Vielzahl verschiedener modernster Gesichtstausch- und Lippen-Synchronisations-Deepfakes mit natürlichen und KI-generierten Stimmen. Wir planen, zukünftige Versionen dieses Datensatzes mit verschiedenen und aktualisierten Deepfake-Technologien zu veröffentlichen. Dieser Datensatz steht für Forschungs- und nicht-kommerzielle Zwecke frei zur Verfügung; Anfragen für kommerzielle Nutzung werden geprüft.
Die jüngsten Fortschritte bei den Chain-of-Thoughts (CoT) und Program-of-Thoughts (PoT) Methoden haben die mathematischen Schlussfolgerungsfähigkeiten von Sprachmodellen erheblich verbessert, was ihre Integration in Instruktionstuning-Datensätze mit LLMs erleichtert hat. Allerdings erfordern bestehende Methoden zur Erstellung von Datensätzen im großen Maßstab erhebliche Ausgangsdaten und hohe Rechenkosten für die Datensynthese, was bedeutende Herausforderungen für die Skalierbarkeit darstellt. Wir stellen InfinityMATH vor, einen skalierbaren Instruktionstuning-Datensatz für programmatische mathematische Schlussfolgerungen. Der Konstruktionsprozess betont die Entkopplung von Zahlen von mathematischen Problemen zur Synthese von zahlenunabhängigen Programmen, was eine effiziente und flexible Skalierung ermöglicht und die Abhängigkeit von spezifischen numerischen Werten minimiert. Feinabstimmungsexperimente mit Open-Source Sprach- und Code-Modellen wie Llama2 und CodeLlama zeigen die praktischen Vorteile von InfinityMATH. Diese feinabgestimmten Modelle zeigten signifikante relative Verbesserungen sowohl bei In-Domain als auch bei Out-of-Domain Benchmarks, im Durchschnitt von 184,7% bis 514,3%. Darüber hinaus zeigten diese Modelle eine hohe Robustheit bei den GSM8K+ und MATH+ Benchmarks, die verbesserte Versionen von Testdatensätzen mit lediglich Zahlenvariationen sind. InfinityMATH stellt sicher, dass die Modelle vielseitiger und effektiver über eine breitere Palette mathematischer Probleme hinweg sind. Die Daten sind verfügbar unter https://huggingface.co/datasets/flagopen/InfinityMATH.
Die Modellierung und Manipulation von 3D-Szenen, die aus der realen Welt erfasst wurden, sind in verschiedenen Anwendungen entscheidend und ziehen zunehmendes Forschungsinteresse auf sich. Während frühere Arbeiten zur Bearbeitung interessante Ergebnisse durch die Manipulation von 3D-Meshes erzielt haben, erfordern sie oft genau rekonstruierte Meshes, um Bearbeitungen durchführen zu können, was ihre Anwendung bei der Generierung von 3D-Inhalten einschränkt. Um diese Lücke zu schließen, stellen wir einen neuartigen, von einem Einzelbild gesteuerten Ansatz zur 3D-Szenenbearbeitung auf der Grundlage von 3D-Gauß-Splatting vor, der eine intuitive Manipulation ermöglicht, indem der Inhalt direkt auf einer 2D-Bildebene bearbeitet wird. Unsere Methode lernt, die 3D-Gaußschen so zu optimieren, dass sie mit einer bearbeiteten Version des Bildes übereinstimmen, das aus einem vom Benutzer festgelegten Blickwinkel der Originalszene gerendert wurde. Um Verformungen von Objekten über große Entfernungen zu erfassen, führen wir einen Positionsverlust in den Optimierungsprozess des 3D-Gauß-Splattings ein und ermöglichen die Gradientenpropagation durch Reparametrisierung. Um mit verdeckten 3D-Gaußschen bei der Darstellung aus dem festgelegten Blickwinkel umzugehen, bauen wir eine ankerbasierte Struktur auf und verwenden eine Grob-zu-Fein-Optimierungsstrategie, die in der Lage ist, Verformungen über große Entfernungen zu bewältigen, während die strukturelle Stabilität erhalten bleibt. Darüber hinaus entwerfen wir eine neuartige Maskierungsstrategie, um anpassungsfähig nichtstarre Verformungsbereiche für die Modellierung im Feinmaßstab zu identifizieren. Umfangreiche Experimente zeigen die Wirksamkeit unserer Methode bei der Bewältigung geometrischer Details, Verformungen über große Entfernungen und nichtstarren Verformungen und demonstrieren eine überlegene Bearbeitungsflexibilität und -qualität im Vergleich zu früheren Ansätzen.
In letzter Zeit wurden universelle Wellenformgenerierungsaufgaben unter verschiedenen Out-of-Distribution-Szenarien untersucht. Obwohl GAN-basierte Methoden ihre Stärke in der schnellen Wellenformgenerierung gezeigt haben, sind sie anfällig für Train-Inference-Mismatch-Szenarien wie z. B. Zwei-Stufen-Text-zu-Sprache. Andererseits haben Diffusionsbasierte Modelle ihre starke generative Leistung in anderen Bereichen gezeigt; jedoch bleiben sie aufgrund der langsamen Inferenzgeschwindigkeit bei Wellenformgenerierungsaufgaben im Hintergrund. Vor allem gibt es keine Generatorarchitektur, die die natürlichen periodischen Merkmale von hochauflösenden Wellenformsignalen explizit trennen kann. In diesem Paper schlagen wir PeriodWave vor, ein neuartiges universelles Wellenformgenerierungsmodell vor. Zunächst führen wir einen periodenbewussten Flussanpassungsschätzer ein, der die periodischen Merkmale des Wellenformsignals erfassen kann, wenn die Vektorfelder geschätzt werden. Darüber hinaus nutzen wir einen Multi-Perioden-Schätzer, der Überlappungen vermeidet, um verschiedene periodische Merkmale von Wellenformsignalen zu erfassen. Obwohl die Erhöhung der Anzahl von Perioden die Leistung signifikant verbessern kann, erfordert dies höhere Rechenkosten. Um dieses Problem zu reduzieren, schlagen wir auch einen einzelnen periodenbedingten universellen Schätzer vor, der parallel periodenweise durch Vorwärtsverarbeitung in Batches inferieren kann. Zusätzlich nutzen wir die diskrete Wavelet-Transformation, um die Frequenzinformationen von Wellenformsignalen verlustfrei zu trennen, um eine Modellierung hoher Frequenzen zu ermöglichen, und führen FreeU ein, um das Rauschen hoher Frequenzen bei der Wellenformgenerierung zu reduzieren. Die experimentellen Ergebnisse zeigten, dass unser Modell sowohl bei der Rekonstruktion von Mel-Spektrogrammen als auch bei Text-zu-Sprache-Aufgaben die bisherigen Modelle übertrifft. Der gesamte Quellcode wird unter https://github.com/sh-lee-prml/PeriodWave verfügbar sein.
Das Verständnis der 3D-Semantik einer Szene ist ein grundlegendes Problem für verschiedene Szenarien wie verkörperte Agenten. Während NeRFs und 3DGS bei der Synthese von neuartigen Ansichten herausragend sind, waren frühere Methoden zur Erfassung ihrer Semantik auf eine unvollständige 3D-Verständnis beschränkt: Ihre Segmentierungsergebnisse sind 2D-Masken und ihre Überwachung ist an 2D-Pixel verankert. Diese Arbeit überdenkt das Problem, um ein besseres 3D-Verständnis einer Szene zu verfolgen, die von NeRFs und 3DGS modelliert wird, wie folgt. 1) Wir überwachen die 3D-Punkte direkt, um das Sprach-Einbettungsfeld zu trainieren. Es erreicht eine Genauigkeit auf dem neuesten Stand, ohne auf mehrskalige Sprach-Einbettungen angewiesen zu sein. 2) Wir übertragen das vorab trainierte Sprachfeld auf 3DGS und erreichen die erste Echtzeit-Rendering-Geschwindigkeit, ohne Trainingszeit oder Genauigkeit zu opfern. 3) Wir führen ein 3D-Abfrage- und Bewertungsprotokoll ein, um die rekonstruierte Geometrie und Semantik gemeinsam zu bewerten. Code, Checkpoints und Annotationen werden online verfügbar sein. Projektseite: https://hyunji12.github.io/Open3DRF