Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Effizientes Feintuning ist entscheidend für die Anpassung großer Sprachmodelle (LLMs) an nachgelagerte Aufgaben. Es erfordert jedoch erhebliche Anstrengungen, diese Methoden auf verschiedenen Modellen zu implementieren. Wir stellen LlamaFactory vor, ein einheitliches Framework, das eine Reihe modernster effizienter Schulungsmethoden integriert. Es ermöglicht Benutzern, das Feintuning von über 100 LLMs flexibel anzupassen, ohne dass Programmierung erforderlich ist, über das integrierte Web-UI LlamaBoard. Wir validieren empirisch die Effizienz und Wirksamkeit unseres Frameworks bei der Sprachmodellierung und Textgenerierungsaufgaben. Es wurde unter https://github.com/hiyouga/LLaMA-Factory veröffentlicht und hat bereits über 13.000 Sterne und 1.600 Forks erhalten.
Sora ist das erste groß angelegte allgemeine Video-Generierungsmodell, das erhebliche Aufmerksamkeit in der Gesellschaft erregt hat. Seit seiner Einführung durch OpenAI im Februar 2024 haben keine anderen Video-Generierungsmodelle die Leistung oder die Fähigkeit von Sora übertroffen, eine breite Palette von Video-Generierungsaufgaben zu unterstützen. Darüber hinaus gibt es nur wenige vollständig veröffentlichte Video-Generierungsmodelle, wobei die Mehrheit Closed-Source ist. Um diese Lücke zu schließen, schlägt dieser Artikel ein neues Multi-Agenten-Framework namens Mora vor, das mehrere fortschrittliche visuelle KI-Agenten integriert, um die allgemeine Video-Generierung nachzuahmen, die von Sora demonstriert wird. Insbesondere kann Mora mehrere visuelle Agenten nutzen und erfolgreich Soras Video-Generierungsfähigkeiten in verschiedenen Aufgaben nachahmen, wie (1) Text-zu-Video-Generierung, (2) textbedingte Bild-zu-Video-Generierung, (3) erweiterte generierte Videos, (4) Video-zu-Video-Bearbeitung, (5) Verbindung von Videos und (6) Simulation digitaler Welten. Unsere umfangreichen experimentellen Ergebnisse zeigen, dass Mora eine Leistung erzielt, die in verschiedenen Aufgaben Sora nahekommt. Es besteht jedoch ein offensichtlicher Leistungsunterschied zwischen unserer Arbeit und Sora, wenn ganzheitlich bewertet. Zusammenfassend hoffen wir, dass dieses Projekt die zukünftige Entwicklung der Video-Generierung durch kollaborative KI-Agenten lenken kann.
Wir präsentieren eine neuartige Anwendung evolutionärer Algorithmen zur Automatisierung der Erstellung leistungsstarker Grundlagenmodelle. Während das Zusammenführen von Modellen als vielversprechender Ansatz für die Entwicklung von LLM aufgrund seiner Kosteneffizienz aufgetaucht ist, basiert es derzeit auf menschlicher Intuition und Domänenwissen, was sein Potenzial einschränkt. Hier schlagen wir einen evolutionären Ansatz vor, der diese Einschränkung überwindet, indem er automatisch effektive Kombinationen verschiedener Open-Source-Modelle entdeckt, ihre kollektive Intelligenz nutzt, ohne umfangreiche zusätzliche Trainingsdaten oder Rechenleistung zu benötigen. Unser Ansatz arbeitet sowohl im Parameterbereich als auch im Datenflussbereich und ermöglicht eine Optimierung jenseits der Gewichte der einzelnen Modelle. Dieser Ansatz erleichtert sogar das domänenübergreifende Zusammenführen und generiert Modelle wie ein japanisches LLM mit mathematischen Denkfähigkeiten. Überraschenderweise erreichte unser japanisches Mathematik-LLM Spitzenleistungen in einer Vielzahl etablierter japanischer LLM-Benchmarks, übertraf sogar Modelle mit deutlich mehr Parametern, obwohl es nicht explizit für solche Aufgaben trainiert wurde. Darüber hinaus zeigte ein kulturell bewusstes japanisches VLM, das durch unseren Ansatz generiert wurde, seine Wirksamkeit bei der Beschreibung japanisch kulturspezifischer Inhalte und übertraf frühere japanische VLMs. Diese Arbeit trägt nicht nur neue Spitzenmodelle zur Open-Source-Community bei, sondern führt auch ein neues Paradigma für die automatisierte Modellkomposition ein und ebnet den Weg für die Erkundung alternativer, effizienter Ansätze zur Entwicklung von Grundlagenmodellen.
Wir stellen SceneScript vor, eine Methode, die direkt vollständige Szenenmodelle als eine Sequenz strukturierter Sprachbefehle mithilfe eines autoregressiven, tokenbasierten Ansatzes erzeugt. Unsere vorgeschlagene Szenendarstellung ist von den jüngsten Erfolgen in Transformatoren & LLMs inspiriert und unterscheidet sich von traditionelleren Methoden, die Szenen üblicherweise als Meshes, Voxelgitter, Punktwolken oder Strahlungsfelder beschreiben. Unsere Methode schließt von kodierten visuellen Daten direkt auf die Menge strukturierter Sprachbefehle mithilfe einer Szenensprach-Encoder-Decoder-Architektur. Um SceneScript zu trainieren, generieren und veröffentlichen wir einen groß angelegten synthetischen Datensatz namens Aria Synthetic Environments, der aus 100.000 hochwertigen Innenraumszenen besteht, mit fotorealistischen und Ground-Truth-annotierten Renderings von egozentrischen Szenendurchläufen. Unsere Methode erzielt Spitzenresultate bei der architektonischen Layoutschätzung und wettbewerbsfähige Ergebnisse bei der 3D-Objekterkennung. Schließlich erkunden wir einen Vorteil für SceneScript, nämlich die Fähigkeit, sich durch einfache Ergänzungen zur strukturierten Sprache leicht an neue Befehle anzupassen, was wir für Aufgaben wie die grobe 3D-Objektteilrekonstruktion veranschaulichen.
Die Skalierung der Größe von Vision-Modellen ist der Standard, um leistungsstärkere visuelle Repräsentationen zu erhalten. In dieser Arbeit diskutieren wir den Punkt, an dem größere Vision-Modelle nicht mehr notwendig sind. Zunächst zeigen wir die Leistung von Skalierung auf Skalen (S^2), wobei ein vortrainiertes und eingefrorenes kleineres Vision-Modell (z.B. ViT-B oder ViT-L), das über mehrere Bildskalen ausgeführt wird, größere Modelle (z.B. ViT-H oder ViT-G) in Klassifizierung, Segmentierung, Tiefenschätzung, Multimodale LLM (MLLM)-Benchmarks und robotische Manipulation übertreffen kann. Bemerkenswerterweise erreicht S^2 eine Spitzenleistung im detaillierten Verständnis von MLLM auf dem V*-Benchmark und übertrifft Modelle wie GPT-4V. Wir untersuchen die Bedingungen, unter denen S^2 im Vergleich zur Skalierung der Modellgröße ein bevorzugter Skalierungsansatz ist. Während größere Modelle den Vorteil einer besseren Verallgemeinerung bei schwierigen Beispielen haben, zeigen wir, dass Merkmale größerer Vision-Modelle gut durch die von mehrskaligen kleineren Modellen approximiert werden können. Dies legt nahe, dass die meisten, wenn nicht alle, von aktuellen großen vortrainierten Modellen gelernten Repräsentationen auch von mehrskaligen kleineren Modellen erhalten werden können. Unsere Ergebnisse zeigen, dass ein mehrskaliges kleineres Modell eine vergleichbare Lernkapazität wie ein größeres Modell hat und das Vortrainieren kleinerer Modelle mit S^2 den Vorteil größerer Modelle erreichen oder sogar übertreffen kann. Wir veröffentlichen ein Python-Paket, das S^2 auf jedes Vision-Modell mit einer Codezeile anwenden kann: https://github.com/bfshi/scaling_on_scales.
Die Nutzung der stabilen Diffusion zur Erzeugung personalisierter Porträts hat sich als leistungsstarkes und bemerkenswertes Werkzeug erwiesen, das es Benutzern ermöglicht, hochwertige, individuelle Charakter-Avatare basierend auf ihren spezifischen Eingaben zu erstellen. Allerdings stehen bestehende Personalisierungsmethoden vor Herausforderungen, darunter Feinabstimmung zur Testzeit, die Notwendigkeit mehrerer Eingabebilder, geringe Bewahrung der Identität und begrenzte Vielfalt in den erzeugten Ergebnissen. Um diese Herausforderungen zu überwinden, stellen wir IDAdapter vor, einen abstimmungsfreien Ansatz, der die Vielfalt und Identitätswahrung bei der personalisierten Bildgenerierung aus einem einzigen Gesichtsbild verbessert. IDAdapter integriert ein personalisiertes Konzept in den Generierungsprozess durch eine Kombination von textuellen und visuellen Einspritzungen sowie einem Gesichtsidentitätsverlust. Während der Trainingsphase integrieren wir gemischte Merkmale aus mehreren Referenzbildern einer spezifischen Identität, um identitätsbezogene Inhaltsdetails zu bereichern und das Modell dabei zu unterstützen, Bilder mit vielfältigeren Stilen, Ausdrücken und Blickwinkeln im Vergleich zu früheren Arbeiten zu generieren. Umfangreiche Evaluierungen zeigen die Wirksamkeit unserer Methode auf, die sowohl Vielfalt als auch Identitätsfidelität in den erzeugten Bildern erreicht.
Belohnungsmodelle (RMs) sind der Kernpunkt erfolgreicher RLHF, um vorab trainierte Modelle an menschlichen Präferenzen auszurichten, dennoch wurde bisher vergleichsweise wenig Forschung betrieben, die sich auf die Bewertung dieser Belohnungsmodelle konzentriert. Die Bewertung von Belohnungsmodellen bietet die Möglichkeit, die undurchsichtigen Technologien zu verstehen, die zur Ausrichtung von Sprachmodellen verwendet werden, und welche Werte in ihnen verankert sind. Bisher existieren nur sehr wenige Beschreibungen von Fähigkeiten, Trainingsmethoden oder Open-Source-Belohnungsmodellen. In diesem Artikel präsentieren wir RewardBench, einen Benchmark-Datensatz und eine Code-Basis zur Bewertung, um das wissenschaftliche Verständnis von Belohnungsmodellen zu verbessern. Der RewardBench-Datensatz ist eine Sammlung von Prompt-Gewinn-Verlust-Trios, die Chat, Schlussfolgerung und Sicherheit abdecken, um zu bewerten, wie Belohnungsmodelle bei herausfordernden, strukturierten und außerhalb der Verteilung liegenden Abfragen abschneiden. Wir haben spezifische Vergleichsdatensätze für RMs erstellt, die subtile, aber überprüfbare Gründe (z. B. Fehler, inkorrekte Fakten) dafür haben, warum eine Antwort einer anderen vorgezogen werden sollte. Auf der RewardBench-Rangliste bewerten wir Belohnungsmodelle, die mit einer Vielzahl von Methoden trainiert wurden, wie dem direkten MLE-Training von Klassifikatoren und der impliziten Belohnungsmodellierung der Direkten Präferenzoptimierung (DPO), und auf einer Vielzahl von Datensätzen. Wir präsentieren viele Erkenntnisse über die Neigung zu Ablehnungen, Schlussfolgerungseinschränkungen und Anweisungsfolgefehler verschiedener Belohnungsmodelle zur besseren Verständnis des RLHF-Prozesses.
Aktuelle Fortschritte deuten darauf hin, dass die Skalierung von Multimodalen Großen Sprachmodellen (MLLMs) die Leistung bei nachgelagerten multimodalen Aufgaben effektiv verbessert. Das vorherrschende MLLM-Paradigma, z.B. LLaVA, wandelt visuelle Merkmale mithilfe eines statischen Vision-Sprach-Mappers in textähnliche Tokens um, wodurch statischen LLMs ermöglicht wird, die Fähigkeit zur Erfassung visueller Informationen durch visuelle Anleitungstuning zu entwickeln. Obwohl vielversprechend, könnte die statische Tuning-Strategie - statisches Tuning bezieht sich auf das trainierte Modell mit statischen Parametern - die Leistung bei verschiedenen nachgelagerten multimodalen Aufgaben einschränken. Vor diesem Hintergrund stellen wir HyperLLaVA vor, das ein adaptives Tuning des Projektors und der LLM-Parameter in Verbindung mit einem dynamischen visuellen Experten und Sprachexperten beinhaltet. Diese Experten stammen aus Hypernetzwerken, die adaptive Parameteränderungen durch visuelle und sprachliche Anleitung generieren und dynamische Projektoren und LLM-Modellierung in einem zweistufigen Training ermöglichen. Unsere Experimente zeigen, dass unsere Lösung die Leistung von LLaVA bei bestehenden MLLM-Benchmarks, einschließlich MME, MMBench, SEED-Bench und LLaVA-Bench, signifikant übertrifft. Unser Projekt ist unter folgendem Link verfügbar: https://github.com/DCDmllm/HyperLLaVA.
In jüngster Zeit haben Fortschritte bei der Ansichtssynthese und der Echtzeit-Rendering beeindruckende fotorealistische Qualität bei beeindruckenden Rendering-Geschwindigkeiten erreicht. Während Methoden auf Basis von Strahlungsfeldern Spitzenqualität in anspruchsvollen Szenarien wie Wildaufnahmen und großflächigen Szenen erreichen, leiden sie oft unter übermäßig hohen Rechenanforderungen, die mit volumetrischem Rendering verbunden sind. Methoden auf Basis von Gauss'schem Splatting hingegen setzen auf Rasterisierung und erreichen natürlicherweise Echtzeit-Rendering, leiden jedoch unter spröden Optimierungshinweisen, die in anspruchsvolleren Szenen unterdurchschnittlich abschneiden. In dieser Arbeit präsentieren wir RadSplat, eine leichtgewichtige Methode für robustes Echtzeit-Rendering komplexer Szenen. Unsere Hauptbeiträge sind dreifach. Erstens verwenden wir Strahlungsfelder als Prior und Überwachungssignal zur Optimierung von punktbasierten Szenedarstellungen, was zu verbesserter Qualität und robusterer Optimierung führt. Als Nächstes entwickeln wir eine neuartige Beschneidungstechnik, die die Gesamtpunktzahl reduziert, während die hohe Qualität beibehalten wird, was zu kleineren und kompakteren Szenedarstellungen mit schnelleren Inferenzgeschwindigkeiten führt. Schließlich schlagen wir einen neuartigen Testzeitfilterungsansatz vor, der das Rendering weiter beschleunigt und die Skalierung auf größere, hausgroße Szenen ermöglicht. Wir stellen fest, dass unsere Methode eine Spitzen-Synthese komplexer Aufnahmen mit über 900 FPS ermöglicht.
Das Diffusionsmodell wurde lange Zeit von Skalierbarkeits- und quadratischen Komplexitätsproblemen geplagt, insbesondere innerhalb von auf Transformatoren basierenden Strukturen. In dieser Studie zielen wir darauf ab, die Fähigkeit zur Modellierung langer Sequenzen eines Zustandsraummodells namens Mamba zu nutzen, um seine Anwendbarkeit auf die Generierung visueller Daten zu erweitern. Zunächst identifizieren wir ein entscheidendes Versäumnis in den meisten aktuellen Mamba-basierten Methoden für die Bildverarbeitung, nämlich das Fehlen der Berücksichtigung räumlicher Kontinuität im Scan-Schema von Mamba. Zweitens bauen wir auf dieser Erkenntnis auf und führen eine einfache, Plug-and-Play-, nullparameter Methode namens Zigzag Mamba ein, die Mamba-basierte Baselines übertrifft und im Vergleich zu auf Transformatoren basierenden Baselines eine verbesserte Geschwindigkeit und Speichernutzung aufweist. Schließlich integrieren wir Zigzag Mamba in das Stochastic Interpolant Framework, um die Skalierbarkeit des Modells auf großen Auflösungsdatensätzen zu untersuchen, wie z.B. FacesHQ 1024mal 1024 und UCF101, MultiModal-CelebA-HQ und MS COCO 256mal 256. Der Code wird unter https://taohu.me/zigma/ veröffentlicht.
Die Schätzung der monokularen Tiefe ist entscheidend für zahlreiche nachgelagerte Visionstasks und Anwendungen. Aktuelle diskriminative Ansätze zu diesem Problem sind aufgrund von unscharfen Artefakten begrenzt, während generative Methoden auf dem neuesten Stand der Technik aufgrund ihrer SDE-Natur unter langsamer Abtastung leiden. Anstatt von Rauschen auszugehen, suchen wir eine direkte Zuordnung vom Eingabebild zur Tiefenkarte. Wir stellen fest, dass dies effektiv durch die Verwendung von Flussabgleichungen gerahmt werden kann, da ihre geraden Trajektorien durch den Lösungsraum Effizienz und hohe Qualität bieten. Unsere Studie zeigt, dass ein vortrainiertes Bildverdünnungsmodell als angemessene Voraussetzung für ein Flussabgleich-Tiefenmodell dienen kann, um eine effiziente Schulung nur auf synthetischen Daten zu ermöglichen, die auf reale Bilder verallgemeinern. Wir stellen fest, dass ein zusätzlicher Verlust von Oberflächennormalen die Tiefschätzungen weiter verbessert. Aufgrund des generativen Charakters unseres Ansatzes sagt unser Modell zuverlässig die Zuversichtlichkeit seiner Tiefschätzungen voraus. Auf Standard-Benchmarks komplexer natürlicher Szenen zeigt unser leichtgewichtiger Ansatz trotz Schulung nur auf wenig synthetischen Daten eine Leistung auf dem neuesten Stand der Technik bei günstigen niedrigen Rechenkosten.
Wir schlagen ein generatives Modell vor, das, ausgehend von einem grob bearbeiteten Bild, eine fotorealistische Ausgabe synthetisiert, die dem vorgegebenen Layout folgt. Unsere Methode überträgt feine Details vom Originalbild und bewahrt die Identität seiner Teile. Dennoch passt sie es an die Beleuchtung und den Kontext an, die durch das neue Layout definiert sind. Unser Schlüsselerkenntnis ist, dass Videos eine leistungsstarke Quelle der Überwachung für diese Aufgabe sind: Objekte und Kamerabewegungen liefern viele Beobachtungen darüber, wie sich die Welt mit Blickwinkel, Beleuchtung und physischen Interaktionen verändert. Wir erstellen einen Bild-Datensatz, bei dem jedes Beispiel ein Paar von Quell- und Zielbildern ist, die aus demselben Video zu zufällig gewählten Zeitintervallen extrahiert wurden. Wir verzerren das Quellbild in Richtung des Ziels unter Verwendung von zwei Bewegungsmodellen, die die erwarteten Benutzerbearbeitungen zur Testzeit nachahmen. Wir überwachen unser Modell, um das verformte Bild in die Ground Truth zu übersetzen, ausgehend von einem vorab trainierten Diffusionsmodell. Das Design unseres Modells ermöglicht ausdrücklich den Transfer feiner Details vom Quellbild zum generierten Bild, während es dem vom Benutzer angegebenen Layout eng folgt. Wir zeigen, dass wir durch die Verwendung einfacher Segmentierungen und grober 2D-Manipulationen eine fotorealistische Bearbeitung erstellen können, die der Eingabe des Benutzers treu bleibt und dabei Effekte der zweiten Ordnung wie die Harmonisierung der Beleuchtung und physischen Interaktionen zwischen bearbeiteten Objekten berücksichtigt.
Große Sprachmodelle (LLMs) weisen ein überraschendes Versagen auf: Wenn sie auf "A hat ein Merkmal B" trainiert werden, generalisieren sie nicht zu "B ist ein Merkmal von A", was als Umkehrfluch bezeichnet wird. Selbst bei einem Training mit Billionen von Tokens tritt dieses Problem aufgrund des Zipf'schen Gesetzes auf - daher auch, wenn wir das gesamte Internet trainieren. Diese Arbeit schlägt ein alternatives Trainingsschema namens Umkehrtraining vor, bei dem alle Wörter zweimal verwendet werden, wodurch die Anzahl der verfügbaren Tokens verdoppelt wird. Das LLM wird sowohl in Vorwärts- als auch in Rückwärtsrichtung trainiert, indem die Trainingszeichenfolgen umgekehrt werden, wobei ausgewählte Teilzeichenfolgen wie Entitäten beibehalten werden (d. h. nicht umgekehrt werden). Wir zeigen, dass datenangepasste rückwärts trainierte Modelle eine überlegene Leistung im Vergleich zu Standardmodellen bei Standardaufgaben bieten und datenangepasste rückwärts trainierte Modelle bei Umkehrungsaufgaben eine weit überlegene Leistung erbringen, was zur Lösung des Umkehrfluch-Problems beiträgt.
Die Videoretusche ist eine anspruchsvolle Aufgabe, die darauf abzielt, Videoinhalte außerhalb des Sichtbereichs des Eingangsvideos zu generieren, während die Inter-Frame- und Intra-Frame-Konsistenz erhalten bleibt. Bestehende Methoden erreichen entweder nicht die gewünschte Generierungsqualität oder Flexibilität. Wir stellen MOTIA (Mastering Video Outpainting Through Input-Specific Adaptation) vor, eine auf Diffusion basierende Pipeline, die sowohl die intrinsischen datenspezifischen Muster des Quellvideos als auch die Bild- und Video-generative Voraussetzung für effektive Retusche nutzt. MOTIA besteht aus zwei Hauptphasen: der Eingangsspezifischen Anpassung und der Musterbewussten Retusche. Die Phase der Eingangsspezifischen Anpassung beinhaltet die effiziente und effektive Pseudo-Retusche-Lernphase des Einzelaufnahme-Quellvideos. Dieser Prozess ermutigt das Modell, Muster im Quellvideo zu identifizieren und zu erlernen, sowie die Kluft zwischen standardmäßigen generativen Prozessen und Retusche zu überbrücken. Die nachfolgende Phase, die Musterbewusste Retusche, widmet sich der Verallgemeinerung dieser erlernten Muster zur Generierung von Retusche-Ergebnissen. Zusätzliche Strategien wie die räumlich bewusste Einfügung und Rauschreisen werden vorgeschlagen, um das generative Vorwissen des Diffusionsmodells und die erworbenen Videomuster aus den Quellvideos besser zu nutzen. Umfangreiche Bewertungen unterstreichen die Überlegenheit von MOTIA und übertreffen bestehende State-of-the-Art-Methoden in weit verbreiteten Benchmarks. Diese Fortschritte werden bemerkenswerterweise ohne umfangreiche, aufgabenspezifische Feinabstimmung erreicht.
Trotz enormer Fortschritte auf dem Gebiet der Text-zu-Video (T2V)-Synthese haben Open-Source T2V-Diffusionsmodelle Schwierigkeiten, längere Videos mit dynamisch variierenden und sich entwickelnden Inhalten zu generieren. Sie neigen dazu, quasi-statische Videos zu synthetisieren, die die notwendige visuelle Veränderung über die Zeit, wie sie im Textprompt impliziert ist, ignorieren. Gleichzeitig bleibt es oft rechnerisch untragbar, diese Modelle zu skalieren, um eine längere und dynamischere Videosynthese zu ermöglichen. Um diese Herausforderung anzugehen, führen wir das Konzept des Generativen Zeitlichen Pflegens (GTN) ein, bei dem wir darauf abzielen, den generativen Prozess während der Inferenz dynamisch zu verändern, um die Kontrolle über die zeitlichen Dynamiken zu verbessern und die Generierung längerer Videos zu ermöglichen. Wir schlagen eine Methode für GTN vor, genannt VSTAR, die aus zwei Schlüsselkomponenten besteht: 1) Video-Zusammenfassungsanregung (VSP) - automatische Generierung einer Videozusammenfassung basierend auf dem ursprünglichen einzelnen Prompt unter Verwendung von LLMs, die präzise textuelle Anleitungen zu verschiedenen visuellen Zuständen längerer Videos geben, und 2) Zeitliche Aufmerksamkeitsregulierung (TAR) - eine Regularisierungstechnik zur Verfeinerung der zeitlichen Aufmerksamkeitseinheiten der vorab trainierten T2V-Diffusionsmodelle, die die Kontrolle über die Videodynamik ermöglicht. Wir zeigen experimentell die Überlegenheit des vorgeschlagenen Ansatzes bei der Generierung längerer, visuell ansprechender Videos im Vergleich zu bestehenden Open-Source T2V-Modellen. Zusätzlich analysieren wir die zeitlichen Aufmerksamkeitskarten, die mit und ohne VSTAR erstellt wurden, und zeigen die Bedeutung der Anwendung unserer Methode zur Vermeidung der Vernachlässigung der gewünschten visuellen Veränderung über die Zeit auf.
Sprachmodelle (LMs) haben diverse Bereiche maßgeblich beeinflusst. Ihre inhärente Einschränkung im Verständnis von 3D-Molekülstrukturen hat jedoch ihr Potenzial im biomolekularen Bereich erheblich eingeschränkt. Um diese Lücke zu überbrücken, konzentrieren wir uns auf die 3D-Molekül-Text-Interpretation und schlagen 3D-MoLM vor: 3D-Molekularsprachmodellierung. Speziell ermöglicht 3D-MoLM einem LM, 3D-Moleküle zu interpretieren und zu analysieren, indem das LM mit einem 3D-Molekül-Encoder ausgestattet wird. Diese Integration wird durch einen 3D-Molekül-Text-Projektor erreicht, der den Repräsentationsraum des 3D-Molekül-Encoders und den Eingaberaum des LMs verbindet. Darüber hinaus haben wir zur Verbesserung der Fähigkeit von 3D-MoLM zur cross-modalen molekularen Verständnis und Anweisungsausführung einen sorgfältig kuratierten 3D-Molekül-zentrierten Anleitungseinstellungsdatensatz erstellt - 3D-MoIT. Durch 3D-Molekül-Text-Ausrichtung und 3D-Molekül-zentrierte Anleitungseinstellung etabliert 3D-MoLM eine Integration von 3D-Molekül-Encoder und LM. Es übertrifft signifikant bestehende Ausgangspunkte bei nachgelagerten Aufgaben, einschließlich Molekül-Text-Retrieval, Molekül-Beschriftung und anspruchsvolleren offenen Textmolekularer QA-Aufgaben, die sich besonders auf 3D-abhängige Eigenschaften konzentrieren.
Die 3D-Generierung hat bedeutende Fortschritte erlebt, doch die effiziente Erzeugung hochwertiger 3D-Assets aus einem einzigen Bild bleibt eine Herausforderung. In diesem Paper präsentieren wir einen Triplane-Autoencoder, der 3D-Modelle in einen kompakten Triplane-Latentraum codiert, um sowohl die 3D-Geometrie als auch die Texturinformation effektiv zu komprimieren. Innerhalb des Autoencoder-Frameworks führen wir einen 3D-bewussten Kreuz-Aufmerksamkeitsmechanismus ein, der niedrigauflösende latente Repräsentationen verwendet, um Merkmale aus einem hochauflösenden 3D-Merkmalvolumen abzufragen und damit die Repräsentationskapazität des latenten Raums zu verbessern. Anschließend trainieren wir ein Diffusionsmodell in diesem verfeinerten latenten Raum. Im Gegensatz zum ausschließlichen Verlassen auf Bildembedding für die 3D-Generierung befürwortet unsere vorgeschlagene Methode die gleichzeitige Nutzung sowohl des Bildembeddings als auch des Formembeddings als Bedingungen. Insbesondere wird das Formembedding über ein Diffusionsprior-Modell geschätzt, das auf dem Bildembedding basiert. Durch umfassende Experimente zeigen wir, dass unsere Methode state-of-the-art-Algorithmen übertrifft, überlegene Leistung erzielt und dabei weniger Trainingsdaten und Zeit benötigt. Unser Ansatz ermöglicht die Generierung hochwertiger 3D-Assets in nur 7 Sekunden auf einer einzelnen A100 GPU.
Um die Risiken zu verstehen, die durch ein neues KI-System entstehen, müssen wir verstehen, was es kann und nicht kann. Aufbauend auf früheren Arbeiten führen wir ein Programm neuer "gefährlicher Fähigkeitsbewertungen" ein und testen diese an Gemini 1.0-Modellen. Unsere Bewertungen umfassen vier Bereiche: (1) Überzeugung und Täuschung; (2) Cybersicherheit; (3) Selbstvermehrung; und (4) Selbstbegründung. Wir finden keine Hinweise auf starke gefährliche Fähigkeiten in den von uns bewerteten Modellen, aber wir kennzeichnen Frühwarnzeichen. Unser Ziel ist es, eine strenge Wissenschaft der Bewertung gefährlicher Fähigkeiten voranzutreiben, um auf zukünftige Modelle vorbereitet zu sein.