papers.description
Die Erstellung immersiver und spielbarer 3D-Welten aus Texten oder Bildern bleibt eine grundlegende Herausforderung in der Computer Vision und Grafik. Bestehende Ansätze zur Welterzeugung lassen sich typischerweise in zwei Kategorien einteilen: videobasierte Methoden, die eine große Vielfalt bieten, jedoch an 3D-Konsistenz und Render-Effizienz mangeln, und 3D-basierte Methoden, die geometrische Konsistenz gewährleisten, jedoch mit begrenzten Trainingsdaten und speicherineffizienten Darstellungen kämpfen. Um diese Einschränkungen zu überwinden, präsentieren wir HunyuanWorld 1.0, ein neuartiges Framework, das die Vorteile beider Ansätze kombiniert, um immersive, erkundbare und interaktive 3D-Szenen aus Text- und Bildbedingungen zu generieren. Unser Ansatz bietet drei wesentliche Vorteile: 1) 360°-Immersionserlebnisse durch panoramische Welt-Proxys; 2) Mesh-Export-Fähigkeiten für nahtlose Kompatibilität mit bestehenden Computergrafik-Pipelines; 3) entkoppelte Objektdarstellungen für erweiterte Interaktivität. Das Kernstück unseres Frameworks ist eine semantisch geschichtete 3D-Mesh-Darstellung, die Panoramabilder als 360°-Welt-Proxys nutzt, um eine semantikbewusste Weltzerlegung und -rekonstruktion zu ermöglichen, was die Erzeugung vielfältiger 3D-Welten unterstützt. Umfangreiche Experimente zeigen, dass unsere Methode Spitzenleistungen bei der Erzeugung kohärenter, erkundbarer und interaktiver 3D-Welten erzielt und gleichzeitig vielseitige Anwendungen in Virtual Reality, physikalischer Simulation, Spielentwicklung und interaktiver Inhaltserstellung ermöglicht.
Zahlreiche Bemühungen wurden unternommen, das Paradigma der „Vorhersage des nächsten Tokens“ auf visuelle Inhalte auszuweiten, mit dem Ziel, einen einheitlichen Ansatz für sowohl die Bildgenerierung als auch das Bildverständnis zu schaffen. Dennoch waren Versuche, Bilder durch autoregressives Modellieren mit diskreten Tokens zu erzeugen, von Problemen wie geringer visueller Qualität, verzerrten Ausgaben und der Unfähigkeit, komplexe Anweisungen bei der Darstellung detaillierter Inhalte zu befolgen, geplagt. Diese Mängel sind wahrscheinlich auf kumulative Fehler während des autoregressiven Inferenzprozesses oder auf Informationsverluste während der Diskretisierung zurückzuführen. Vermutlich aufgrund dieser Herausforderung hat sich die aktuelle Forschung zunehmend darauf verlagert, die Bildgenerierung mit Diffusionszielen und die Sprachgenerierung mit autoregressiven Zielen gemeinsam zu trainieren, wodurch einheitliche Modellierungsansätze in den Hintergrund gerückt sind. In dieser Arbeit zeigen wir, dass Reinforcement Learning Artefakte effektiv reduzieren und die Generierungsqualität einer diskreten autoregressiven Modellierungsmethode erheblich verbessern kann, wodurch eine nahtlose Integration von Bild- und Sprachgenerierung ermöglicht wird. Unser Framework besteht aus einem semantischen Bild-Tokenizer, einem einheitlichen autoregressiven Modell für Sprache und Bilder sowie einem Offline-Diffusions-Decoder für die Bildgenerierung, genannt X-Omni. X-Omni erzielt mit einem 7B-Sprachmodell Spitzenleistungen in Bildgenerierungsaufgaben, erzeugt Bilder von hoher ästhetischer Qualität und zeigt starke Fähigkeiten in der Befolgung von Anweisungen und der Darstellung langer Texte.
Während große Sprachmodelle (LLMs) beeindruckende Fortschritte erzielt haben, wird ihre Anwendung in wissenschaftlichen Domänen wie der Chemie durch ein oberflächliches Domänenverständnis und begrenzte Fähigkeiten zur logischen Schlussfolgerung behindert. In dieser Arbeit konzentrieren wir uns auf das spezifische Feld der Chemie und entwickeln ein Chemical Reasoner LLM, ChemDFM-R. Zunächst erstellen wir einen umfassenden Datensatz atomisierter Wissenspunkte, um das Verständnis des Modells für die grundlegenden Prinzipien und die logische Struktur der Chemie zu verbessern. Anschließend schlagen wir eine Mix-Sourced-Distillationsstrategie vor, die von Experten kuratiertes Wissen mit allgemeinen Fähigkeiten zur logischen Schlussfolgerung kombiniert, gefolgt von domänenspezifischem Reinforcement Learning, um das chemische Denken zu stärken. Experimente mit verschiedenen chemischen Benchmarks zeigen, dass ChemDFM-R Spitzenleistungen erzielt und gleichzeitig interpretierbare, begründungsgestützte Ergebnisse liefert. Weitere Fallstudien verdeutlichen, wie explizite Schlussfolgerungsketten die Zuverlässigkeit, Transparenz und praktische Nutzbarkeit des Modells in realen Mensch-KI-Kollaborationsszenarien signifikant verbessern.
Das exponentielle Wachstum der Nachfrage nach GPU-Computing-Ressourcen, getrieben durch die rasante Weiterentwicklung von Large Language Models, hat einen dringenden Bedarf an automatisierten CUDA-Optimierungsstrategien geschaffen. Obwohl jüngste Fortschritte bei LLMs vielversprechend für die Codegenerierung sind, erreichen aktuelle SOTA-Modelle (z. B. R1, o1) niedrige Erfolgsraten bei der Verbesserung der CUDA-Geschwindigkeit. In diesem Artikel stellen wir CUDA-L1 vor, ein automatisiertes Reinforcement-Learning-Framework für die CUDA-Optimierung. CUDA-L1 erzielt Leistungsverbesserungen bei der CUDA-Optimierungsaufgabe: Auf der NVIDIA A100 trainiert, erreicht es eine durchschnittliche Beschleunigung von x17,7 über alle 250 CUDA-Kernel von KernelBench, mit Spitzenbeschleunigungen von bis zu x449. Darüber hinaus zeigt das Modell auch eine hervorragende Portabilität über GPU-Architekturen hinweg und erreicht durchschnittliche Beschleunigungen von x17,8 auf der H100, x19,0 auf der RTX 3090, x16,5 auf der L40, x14,7 auf der H800 und x13,9 auf der H20, obwohl es speziell für die A100 optimiert wurde. Über diese Benchmark-Ergebnisse hinaus demonstriert CUDA-L1 mehrere bemerkenswerte Eigenschaften: 1) Es entdeckt eine Vielzahl von CUDA-Optimierungstechniken und lernt, sie strategisch zu kombinieren, um optimale Leistung zu erzielen; 2) Es deckt grundlegende Prinzipien der CUDA-Optimierung auf; 3) Es identifiziert nicht offensichtliche Leistungsengpässe und verwirft scheinbar vorteilhafte Optimierungen, die die Leistung beeinträchtigen. Die Fähigkeiten von CUDA-L1 zeigen, dass Reinforcement Learning ein zunächst leistungsschwaches LLM allein durch beschleunigungsbasierte Belohnungssignale in einen effektiven CUDA-Optimierer verwandeln kann, ohne menschliche Expertise oder Domänenwissen. Noch wichtiger ist, dass das trainierte RL-Modell die erworbenen Fähigkeiten zur Problemlösung auf neue Kernel ausdehnt. Dieses Paradigma eröffnet Möglichkeiten für die automatisierte Optimierung von CUDA-Operationen und verspricht, die GPU-Effizienz erheblich zu steigern und den wachsenden Druck auf GPU-Computing-Ressourcen zu verringern.
Brain-Computer-Interfaces (BCIs) ermöglichen die direkte Kommunikation zwischen dem Gehirn und externen Geräten. Aktuelle EEG-Foundation-Modelle zielen darauf ab, generalisierte Repräsentationen über verschiedene BCI-Paradigmen hinweg zu erlernen. Diese Ansätze übersehen jedoch grundlegende, paradigmspezifische neurophysiologische Unterschiede, was ihre Generalisierungsfähigkeit einschränkt. Von besonderer Bedeutung ist, dass bei praktischen BCI-Anwendungen das spezifische Paradigma, wie beispielsweise Motor Imagery (MI) für die Schlaganfallrehabilitation oder assistive Robotik, in der Regel vor der Datenerfassung festgelegt wird. Dieses Papier stellt MIRepNet vor, das erste EEG-Foundation-Modell, das speziell für das MI-Paradigma entwickelt wurde. MIRepNet umfasst eine hochwertige EEG-Vorverarbeitungspipeline, die eine neurophysiologisch fundierte Kanalvorlage integriert und sich an EEG-Headsets mit beliebigen Elektrodenkonfigurationen anpassen lässt. Darüber hinaus führen wir eine hybride Vorabtrainingsstrategie ein, die selbstüberwachte Rekonstruktion maskierter Tokens und überwachte MI-Klassifikation kombiniert, um eine schnelle Anpassung und präzise Dekodierung bei neuen nachgelagerten MI-Aufgaben mit weniger als 30 Versuchen pro Klasse zu ermöglichen. Umfangreiche Evaluierungen über fünf öffentliche MI-Datensätze zeigten, dass MIRepNet durchweg Spitzenleistungen erzielte und sowohl spezialisierte als auch generalisierte EEG-Modelle deutlich übertraf. Unser Code wird auf GitHub verfügbar sein: https://github.com/staraink/MIRepNet.
Mit dem Aufkommen der Ära großer Sprachmodelle (LLMs) im Namen der Nutzer sind Preference Optimization (PO)-Methoden zu einem zentralen Ansatz geworden, um LLMs mit menschlichen Präferenzen abzustimmen und die Leistung zu verbessern. Wir schlagen Maximum a Posteriori Preference Optimization (MaPPO) vor, ein Framework für das Lernen aus Präferenzen, das explizit vorheriges Wissen über Belohnungen in das Optimierungsziel integriert. Während bestehende Methoden wie Direct Preference Optimization (DPO) und deren Varianten das Präferenzlernen als ein Maximum Likelihood Estimation (MLE)-Problem behandeln, erweitert MaPPO dieses Paradigma, indem es vorherige Belohnungsschätzungen in ein fundiertes Maximum a Posteriori (MaP)-Ziel integriert. Dies verallgemeinert nicht nur DPO und dessen Varianten, sondern verbessert auch die Abstimmung, indem es die vereinfachte binäre Klassifizierung von Antworten reduziert. Noch wichtiger ist, dass MaPPO keine zusätzlichen Hyperparameter einführt und die Präferenzoptimierung sowohl in Offline- als auch in Online-Settings unterstützt. Darüber hinaus kann MaPPO als Plugin verwendet werden, das konsistente Verbesserungen bei DPO-Varianten einschließlich der weit verbreiteten SimPO, IPO und CPO bietet. Umfangreiche empirische Auswertungen verschiedener Modellgrößen und Modellserien auf drei Standard-Benchmarks, darunter MT-Bench, AlpacaEval 2.0 und Arena-Hard, zeigen konsistente Verbesserungen in der Abstimmungsleistung, ohne die Recheneffizienz zu beeinträchtigen.
Die Beobachtung von Wildtieren spielt eine wichtige Rolle beim Schutz der biologischen Vielfalt und erfordert robuste Methoden zur Überwachung von Wildtierpopulationen und interspezifischen Interaktionen. Jüngste Fortschritte in der Computer Vision haben wesentlich dazu beigetragen, grundlegende Aufgaben der Wildtierbeobachtung, wie die Erkennung von Tieren und die Identifizierung von Arten, zu automatisieren. Die genaue Identifizierung von Arten anhand indirekter Hinweise wie Fußabdrücken und Kot bleibt jedoch relativ wenig erforscht, obwohl sie einen wichtigen Beitrag zur Überwachung von Wildtieren leistet. Um diese Lücke zu schließen, stellen wir AnimalClue vor, den ersten groß angelegten Datensatz zur Artidentifizierung anhand von Bildern indirekter Hinweise. Unser Datensatz umfasst 159.605 Bounding Boxes, die fünf Kategorien indirekter Hinweise abdecken: Fußabdrücke, Kot, Eier, Knochen und Federn. Er umfasst 968 Arten, 200 Familien und 65 Ordnungen. Jedes Bild ist mit Art-Labels, Bounding Boxes oder Segmentierungsmasken sowie detaillierten Merkmalen wie Aktivitätsmustern und Habitatpräferenzen annotiert. Im Gegensatz zu bestehenden Datensätzen, die sich hauptsächlich auf direkte visuelle Merkmale (z. B. das Aussehen von Tieren) konzentrieren, stellt AnimalClue aufgrund der Notwendigkeit, detailliertere und subtilere visuelle Merkmale zu erkennen, einzigartige Herausforderungen für Klassifizierungs-, Erkennungs- und Instanzsegmentierungsaufgaben dar. In unseren Experimenten evaluieren wir umfassend repräsentative Vision-Modelle und identifizieren Schlüsselherausforderungen bei der Identifizierung von Tieren anhand ihrer Spuren. Unser Datensatz und der Code sind unter https://dahlian00.github.io/AnimalCluePage/ verfügbar.
Diese Arbeit befasst sich mit bewegungsgesteuerter Few-Shot-Videoobjektsegmentierung (FSVOS), die darauf abzielt, dynamische Objekte in Videos basierend auf wenigen annotierten Beispielen mit denselben Bewegungsmustern zu segmentieren. Bisherige FSVOS-Datensätze und Methoden konzentrieren sich typischerweise auf Objektkategorien, die statische Attribute darstellen und die reichhaltigen zeitlichen Dynamiken in Videos ignorieren, was ihre Anwendung in Szenarien, die ein Verständnis von Bewegung erfordern, einschränkt. Um diese Lücke zu schließen, führen wir MOVE ein, einen groß angelegten Datensatz, der speziell für bewegungsgesteuerte FSVOS entwickelt wurde. Basierend auf MOVE evaluieren wir umfassend 6 state-of-the-art Methoden aus 3 verschiedenen verwandten Aufgaben in 2 experimentellen Settings. Unsere Ergebnisse zeigen, dass aktuelle Methoden Schwierigkeiten haben, bewegungsgesteuerte FSVOS zu bewältigen, was uns dazu veranlasst, die damit verbundenen Herausforderungen zu analysieren und eine Baseline-Methode, das Decoupled Motion Appearance Network (DMA), vorzuschlagen. Experimente demonstrieren, dass unser Ansatz eine überlegene Leistung im Few-Shot-Bewegungsverständnis erzielt und somit eine solide Grundlage für zukünftige Forschung in dieser Richtung schafft.
Wildlife-Populationen in Afrika stehen vor schwerwiegenden Bedrohungen, wobei die Zahl der Wirbeltiere in den letzten fünf Jahrzehnten um mehr als 65 % zurückgegangen ist. Als Reaktion darauf hat sich die Bildklassifizierung mittels Deep Learning als vielversprechendes Werkzeug für die Überwachung und den Schutz der Biodiversität etabliert. Diese Arbeit präsentiert eine vergleichende Studie von Deep-Learning-Modellen zur automatischen Klassifizierung von afrikanischen Wildtierbildern, wobei der Schwerpunkt auf Transfer Learning mit eingefrorenen Feature-Extraktoren liegt. Unter Verwendung eines öffentlichen Datensatzes von vier Arten – Büffel, Elefant, Nashorn und Zebra – bewerten wir die Leistung von DenseNet-201, ResNet-152, EfficientNet-B4 und Vision Transformer ViT-H/14. DenseNet-201 erzielte die beste Leistung unter den Convolutional Neural Networks (67 % Genauigkeit), während ViT-H/14 die höchste Gesamtgenauigkeit (99 %) erreichte, jedoch mit einem deutlich höheren Rechenaufwand, was Bedenken hinsichtlich der Einsatzfähigkeit aufwirft. Unsere Experimente verdeutlichen die Abwägungen zwischen Genauigkeit, Ressourcenanforderungen und Einsatzfähigkeit. Das leistungsstärkste CNN (DenseNet-201) wurde in einen Hugging Face Gradio Space integriert, um die Echtzeitanwendung im Feld zu demonstrieren und die Machbarkeit des Einsatzes von leichtgewichtigen Modellen in Naturschutzumgebungen zu zeigen. Diese Arbeit leistet einen Beitrag zur afrikabezogenen KI-Forschung, indem sie praktische Einblicke in die Modellauswahl, die Datenaufbereitung und den verantwortungsvollen Einsatz von Deep-Learning-Werkzeugen für den Wildtierschutz bietet.
Kürzlich haben Multimodale Große Sprachmodelle (MLLMs) erhebliche Fortschritte in visuell-sprachlichen Aufgaben erzielt, produzieren jedoch potenziell schädliche oder unzuverlässige Inhalte. Trotz umfangreicher Arbeiten zur Untersuchung der Vertrauenswürdigkeit von Sprachmodellen bleibt die Fähigkeit von MMLMs, ehrlich zu handeln, insbesondere bei visuell unbeantwortbaren Fragen, weitgehend unerforscht. Diese Arbeit präsentiert die erste systematische Bewertung von Ehrlichkeitsverhalten über verschiedene MLLMs hinweg. Wir verankern Ehrlichkeit in den Antwortverhalten der Modelle auf unbeantwortbare visuelle Fragen, definieren vier repräsentative Arten solcher Fragen und konstruieren MoHoBench, einen groß angelegten MMLM-Ehrlichkeits-Benchmark, der aus über 12.000 visuellen Fragebeispielen besteht, deren Qualität durch mehrstufige Filterung und menschliche Überprüfung gewährleistet ist. Mit MoHoBench haben wir die Ehrlichkeit von 28 populären MMLMs bewertet und eine umfassende Analyse durchgeführt. Unsere Ergebnisse zeigen: (1) Die meisten Modelle versagen darin, angemessen zu verweigern, wenn es notwendig ist, und (2) die Ehrlichkeit von MMLMs ist nicht allein ein Problem der Sprachmodellierung, sondern wird stark von visuellen Informationen beeinflusst, was die Entwicklung spezieller Methoden für multimodale Ehrlichkeitsausrichtung erforderlich macht. Daher haben wir erste Ausrichtungsmethoden unter Verwendung von überwachtem und Präferenzlernen implementiert, um das Ehrlichkeitsverhalten zu verbessern, und legen damit eine Grundlage für zukünftige Arbeiten an vertrauenswürdigen MLLMs. Unsere Daten und Code sind unter https://github.com/DSTTSD/MoHoBench verfügbar.