Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Vereinheitlichung von Bildverständnis und Bildgenerierung hat in der jüngeren Forschung zu multimodalen Modellen zunehmend Aufmerksamkeit erregt. Obwohl Designentscheidungen für das Bildverständnis umfassend untersucht wurden, bleiben die optimale Modellarchitektur und das Trainingsrezept für einen vereinheitlichten Rahmen mit Bildgenerierung weitgehend unerforscht. Motiviert durch das starke Potenzial von autoregressiven und Diffusionsmodellen für hochwertige Generierung und Skalierbarkeit, führen wir eine umfassende Studie zu deren Einsatz in vereinheitlichten multimodalen Settings durch, mit Schwerpunkt auf Bildrepräsentationen, Modellierungszielen und Trainingsstrategien. Aufbauend auf diesen Untersuchungen stellen wir einen neuartigen Ansatz vor, der einen Diffusionstransformer zur Generierung semantisch reicher CLIP-Bildmerkmale einsetzt, im Gegensatz zu herkömmlichen VAE-basierten Repräsentationen. Dieses Design führt sowohl zu einer höheren Trainingseffizienz als auch zu einer verbesserten Generierungsqualität. Darüber hinaus zeigen wir, dass eine sequenzielle Vorabtrainingsstrategie für vereinheitlichte Modelle – zunächst Training auf Bildverständnis und anschließend auf Bildgenerierung – praktische Vorteile bietet, indem die Fähigkeit zum Bildverständnis erhalten bleibt, während gleichzeitig eine starke Bildgenerierungsfähigkeit entwickelt wird. Schließlich stellen wir sorgfältig einen hochwertigen Instruktions-Tuning-Datensatz BLIP3o-60k für die Bildgenerierung zusammen, indem wir GPT-4o mit einer Vielzahl von Bildbeschreibungen anregen, die verschiedene Szenen, Objekte, menschliche Gesten und mehr abdecken. Aufbauend auf unserem innovativen Modellentwurf, Trainingsrezept und Datensätzen entwickeln wir BLIP3-o, eine Suite von state-of-the-art vereinheitlichten multimodalen Modellen. BLIP3-o erzielt überlegene Leistungen in den meisten der gängigen Benchmarks, die sowohl Bildverständnis- als auch Bildgenerierungsaufgaben umfassen. Um zukünftige Forschung zu erleichtern, stellen wir unsere Modelle vollständig als Open Source zur Verfügung, einschließlich Code, Modellgewichten, Trainingsskripten sowie Vorabtrainings- und Instruktions-Tuning-Datensätzen.
Die rasante Skalierung großer Sprachmodelle (LLMs) hat kritische Grenzen in aktuellen Hardware-Architekturen offengelegt, darunter Beschränkungen in der Speicherkapazität, der Recheneffizienz und der Verbindungsbandbreite. DeepSeek-V3, das auf 2.048 NVIDIA H800 GPUs trainiert wurde, zeigt, wie hardwarebewusste Modell-Co-Designs diese Herausforderungen effektiv bewältigen können, indem sie kosteneffizientes Training und Inferenz in großem Maßstab ermöglichen. Dieses Papier präsentiert eine detaillierte Analyse der DeepSeek-V3/R1-Modellarchitektur und ihrer KI-Infrastruktur, wobei Schlüsselinnovationen wie Multi-head Latent Attention (MLA) zur Verbesserung der Speichereffizienz, Mixture of Experts (MoE)-Architekturen für optimierte Kompromisse zwischen Berechnung und Kommunikation, FP8-Mixed-Precision-Training zur Ausschöpfung des vollen Potenzials der Hardwarefähigkeiten sowie eine Multi-Plane-Netzwerktopologie zur Minimierung des Netzwerkoverheads auf Cluster-Ebene hervorgehoben werden. Basierend auf den Hardware-Engpässen, die während der Entwicklung von DeepSeek-V3 aufgetreten sind, führen wir eine breitere Diskussion mit akademischen und industriellen Partnern über potenzielle zukünftige Hardware-Richtungen, darunter präzise Niedrigpräzisions-Recheneinheiten, die Konvergenz von Scale-up und Scale-out sowie Innovationen in Kommunikationsstrukturen mit niedriger Latenz. Diese Erkenntnisse unterstreichen die entscheidende Rolle von Hardware- und Modell-Co-Designs bei der Bewältigung der steigenden Anforderungen von KI-Arbeitslasten und bieten einen praktischen Leitfaden für Innovationen in KI-Systemen der nächsten Generation.
Natürliche Sprach-Bildunterschriftendatensätze, die häufig für das Training von großen multimodalen Modellen verwendet werden, konzentrieren sich hauptsächlich auf natürliche Szenarien und übersehen die komplexen Details mathematischer Abbildungen, die für die Problemlösung entscheidend sind. Dies behindert den Fortschritt aktueller multimodaler Modelle im Bereich des multimodalen mathematischen Denkens. Um dies zu adressieren, schlagen wir vor, Code als Supervision für die cross-modale Ausrichtung zu nutzen, da Code inhärent alle Informationen kodiert, die zur Erstellung entsprechender Abbildungen benötigt werden, und somit eine präzise Verbindung zwischen den beiden Modalitäten herstellt. Konkret entwickeln wir unser Bild-zu-Code-Modell und den dazugehörigen Datensatz mit einem Model-in-the-Loop-Ansatz, was zu dem Bild-zu-Code-Modell FigCodifier und dem ImgCode-8.6M-Datensatz führt, dem bisher größten Bild-Code-Datensatz. Darüber hinaus nutzen wir FigCodifier, um neue mathematische Abbildungen zu synthetisieren und anschließend MM-MathInstruct-3M zu konstruieren, einen hochwertigen multimodalen mathematischen Instruktions-Fine-Tuning-Datensatz. Schließlich präsentieren wir MathCoder-VL, das mit ImgCode-8.6M für die cross-modale Ausrichtung trainiert und anschließend auf MM-MathInstruct-3M für die multimodale mathematische Problemlösung feinabgestimmt wurde. Unser Modell erreicht einen neuen Open-Source-SOTA-Wert in allen sechs Metriken. Bemerkenswerterweise übertrifft es GPT-4o und Claude 3.5 Sonnet im geometrischen Problemlösungsteil von MathVista mit Verbesserungen von 8,9 % bzw. 9,2 %. Die Datensätze und Modelle werden unter https://github.com/mathllm/MathCoder veröffentlicht.
Dichte visuelle Vorhersageaufgaben waren bisher durch ihre Abhängigkeit von vordefinierten Kategorien eingeschränkt, was ihre Anwendbarkeit in realen Szenarien, in denen visuelle Konzepte unbegrenzt sind, limitierte. Während Vision-Language-Modelle (VLMs) wie CLIP vielversprechende Ergebnisse bei Open-Vocabulary-Aufgaben gezeigt haben, führt ihre direkte Anwendung auf dichte Vorhersagen oft zu suboptimaler Leistung aufgrund von Einschränkungen in der lokalen Merkmalsdarstellung. In dieser Arbeit präsentieren wir unsere Beobachtung, dass die Bild-Tokens von CLIP Schwierigkeiten haben, effektiv Informationen aus räumlich oder semantisch verwandten Regionen zu aggregieren, was zu Merkmalen führt, denen lokale Unterscheidbarkeit und räumliche Konsistenz fehlen. Um dieses Problem zu lösen, schlagen wir DeCLIP vor, ein neuartiges Framework, das CLIP verbessert, indem es das Self-Attention-Modul entkoppelt, um jeweils „Inhalts“- und „Kontext“-Merkmale zu erhalten. Die „Inhalts“-Merkmale werden mit Bildausschnitt-Darstellungen abgeglichen, um die lokale Unterscheidbarkeit zu verbessern, während die „Kontext“-Merkmale lernen, die räumlichen Korrelationen unter der Anleitung von Vision-Foundation-Modellen wie DINO beizubehalten. Umfangreiche Experimente zeigen, dass DeCLIP bestehende Methoden bei mehreren Open-Vocabulary-dichten Vorhersageaufgaben, einschließlich Objekterkennung und semantischer Segmentierung, deutlich übertrifft. Der Code ist verfügbar unter magenta{https://github.com/xiaomoguhz/DeCLIP}.
Wir präsentieren eine einfache, aber effektive diffusionsbasierte Methode zur fein abgestimmten, parametrischen Steuerung von Lichtquellen in einem Bild. Bestehende Beleuchtungsmethoden verlassen sich entweder auf mehrere Eingabeansichten, um zur Inferenzzeit inverses Rendering durchzuführen, oder bieten keine explizite Kontrolle über Lichtveränderungen. Unsere Methode feintuned ein Diffusionsmodell auf einer kleinen Menge realer Rohfotografie-Paare, ergänzt durch synthetisch gerenderte Bilder in großem Maßstab, um dessen fotorealistische Voraussetzungen für die Beleuchtungsanpassung zu nutzen. Wir nutzen die Linearität des Lichts, um Bildpaare zu synthetisieren, die kontrollierte Lichtveränderungen entweder einer Ziellichtquelle oder der Umgebungsbeleuchtung darstellen. Mit diesen Daten und einem geeigneten Feintuning-Schema trainieren wir ein Modell für präzise Beleuchtungsänderungen mit expliziter Kontrolle über Lichtintensität und -farbe. Schließlich zeigen wir, wie unsere Methode überzeugende Lichtbearbeitungsergebnisse erzielen kann und bestehende Methoden basierend auf Benutzerpräferenzen übertrifft.
Der Erfolg des Deep Learning in der Computer Vision im letzten Jahrzehnt hing von großen, annotierten Datensätzen und leistungsstarken vortrainierten Modellen ab. In datenarmen Umgebungen wird die Qualität dieser vortrainierten Modelle entscheidend für effektives Transferlernen. Bildklassifizierung und selbstüberwachtes Lernen waren traditionell die primären Methoden für das Vortraining von CNNs und transformer-basierten Architekturen. In jüngster Zeit hat der Aufstieg von Text-zu-Bild-generativen Modellen, insbesondere solchen, die Denoising-Diffusion in einem latenten Raum verwenden, eine neue Klasse von Foundation-Modellen eingeführt, die auf riesigen, beschrifteten Bilddatensätzen trainiert wurden. Die Fähigkeit dieser Modelle, realistische Bilder von unbekanntem Inhalt zu generieren, deutet darauf hin, dass sie ein tiefes Verständnis der visuellen Welt besitzen. In dieser Arbeit stellen wir Marigold vor, eine Familie von bedingten generativen Modellen und ein Feinabstimmungsprotokoll, das das Wissen aus vortrainierten latenten Diffusionsmodellen wie Stable Diffusion extrahiert und sie für dichte Bildanalysenaufgaben anpasst, einschließlich monokularer Tiefenschätzung, Vorhersage von Oberflächennormalen und intrinsischer Dekomposition. Marigold erfordert minimale Modifikationen an der Architektur des vortrainierten latenten Diffusionsmodells, trainiert mit kleinen synthetischen Datensätzen auf einer einzelnen GPU über wenige Tage und demonstriert state-of-the-art Zero-Shot-Generalisierung. Projektseite: https://marigoldcomputervision.github.io
Nachahmung ist ein grundlegender Lernmechanismus beim Menschen, der es Individuen ermöglicht, neue Aufgaben durch Beobachtung und Imitation von Experten zu erlernen. Die Anwendung dieser Fähigkeit auf Roboter stellt jedoch erhebliche Herausforderungen dar, da es inhärente Unterschiede zwischen der menschlichen und der robotischen Verkörperung gibt, sowohl in Bezug auf das visuelle Erscheinungsbild als auch auf die physischen Fähigkeiten. Während frühere Methoden diese Lücke durch die Verwendung von Datensätzen mit gemeinsamen Szenen und Aufgaben über verschiedene Verkörperungen hinweg überbrücken, ist die Sammlung solcher abgestimmten Daten zwischen Menschen und Robotern in großem Maßstab nicht trivial. In diesem Artikel stellen wir UniSkill vor, ein neuartiges Framework, das verkörperungsunabhängige Fähigkeitsrepräsentationen aus groß angelegten, verkörperungsübergreifenden Videodaten ohne jegliche Labels lernt. Dadurch können Fähigkeiten, die aus menschlichen Videoanweisungen extrahiert werden, effektiv auf Roboterrichtlinien übertragen werden, die ausschließlich auf Roboterdaten trainiert wurden. Unsere Experimente in simulierten und realen Umgebungen zeigen, dass unsere verkörperungsübergreifenden Fähigkeiten Roboter erfolgreich bei der Auswahl geeigneter Aktionen leiten, selbst bei unbekannten Videoanweisungen. Die Projektwebsite ist unter folgender Adresse zu finden: https://kimhanjung.github.io/UniSkill.
Die Wiederherstellung hochwertiger 3D-Szenen aus einem einzelnen RGB-Bild ist eine anspruchsvolle Aufgabe in der Computergrafik. Aktuelle Methoden kämpfen oft mit domänenspezifischen Einschränkungen oder der Erzeugung von Objekten geringer Qualität. Um diese Probleme zu adressieren, schlagen wir CAST (Component-Aligned 3D Scene Reconstruction from a Single RGB Image) vor, eine neuartige Methode zur 3D-Szenenrekonstruktion und -wiederherstellung. CAST beginnt mit der Extraktion von objektbezogener 2D-Segmentierung und relativer Tiefeninformation aus dem Eingabebild, gefolgt von der Verwendung eines GPT-basierten Modells zur Analyse der räumlichen Beziehungen zwischen Objekten. Dies ermöglicht das Verständnis, wie Objekte innerhalb der Szene zueinander in Beziehung stehen, und gewährleistet eine kohärentere Rekonstruktion. Anschließend verwendet CAST ein okklusionsbewusstes großskaliges 3D-Generierungsmodell, um die vollständige Geometrie jedes Objekts unabhängig zu erzeugen. Dabei werden MAE (Masked Autoencoder) und Punktwolken-Konditionierung eingesetzt, um die Auswirkungen von Verdeckungen und partiellen Objektinformationen zu mildern und eine präzise Ausrichtung an der Geometrie und Textur des Quellbilds sicherzustellen. Um jedes Objekt mit der Szene auszurichten, berechnet das Ausrichtungsgenerierungsmodell die notwendigen Transformationen, wodurch die generierten Meshes präzise platziert und in die Punktwolke der Szene integriert werden können. Schließlich beinhaltet CAST einen physikbewussten Korrekturschritt, der einen feingranularen Beziehungsgraphen nutzt, um einen Constraint-Graphen zu erzeugen. Dieser Graph leitet die Optimierung der Objektpositionen und gewährleistet physikalische Konsistenz und räumliche Kohärenz. Durch die Verwendung von Signed Distance Fields (SDF) adressiert das Modell effektiv Probleme wie Verdeckungen, Objektdurchdringungen und schwebende Objekte, sodass die generierte Szene realweltliche physikalische Interaktionen genau widerspiegelt. CAST kann in der Robotik eingesetzt werden, um effiziente Real-to-Simulation-Workflows zu ermöglichen und realistische, skalierbare Simulationsumgebungen für Robotersysteme bereitzustellen.
End-to-End-Sprachdialogmodelle wie GPT-4o-audio haben in jüngster Zeit im Bereich der Sprachverarbeitung erhebliche Aufmerksamkeit erregt. Die Bewertung der Konversationsleistung von Sprachdialogmodellen wurde jedoch weitgehend vernachlässigt. Dies liegt vor allem daran, dass intelligente Chatbots eine Fülle von nicht-textuellen Informationen vermitteln, die mit textbasierten Sprachmodellen wie ChatGPT nicht einfach gemessen werden können. Um diese Lücke zu schließen, schlagen wir WavReward vor, ein Belohnungsfeedbackmodell auf Basis von Audio-Sprachmodellen, das sowohl den IQ als auch den EQ von Sprachdialogsystemen mit Spracheingabe bewerten kann. Konkret: 1) Basierend auf Audio-Sprachmodellen integriert WavReward den tiefen Denkprozess und den nichtlinearen Belohnungsmechanismus für das Post-Training. Durch die Nutzung von Multi-Sample-Feedback über den Reinforcement-Learning-Algorithmus konstruieren wir einen spezialisierten Evaluator, der auf Sprachdialogmodelle zugeschnitten ist. 2) Wir stellen ChatReward-30K vor, ein Präferenzdatensatz, der zur Schulung von WavReward verwendet wird. ChatReward-30K umfasst sowohl das Verständnis als auch die Generationsaspekte von Sprachdialogmodellen. Diese Szenarien decken verschiedene Aufgaben ab, wie textbasierte Chats, neun akustische Attribute von Instruktionschats und implizite Chats. WavReward übertrifft bisherige state-of-the-art Bewertungsmodelle in mehreren Sprachdialogszenarien und erreicht eine deutliche Verbesserung gegenüber Qwen2.5-Omni in der objektiven Genauigkeit von 55,1 % auf 91,5 %. In subjektiven A/B-Tests liegt WavReward ebenfalls mit einem Vorsprung von 83 % vorn. Umfassende Ablationsstudien bestätigen die Notwendigkeit jeder Komponente von WavReward. Alle Daten und Codes werden nach der Annahme des Papiers öffentlich unter https://github.com/jishengpeng/WavReward verfügbar sein.
Wir stellen Omni-R1 vor, das ein kürzlich entwickeltes multimodales LLM, Qwen2.5-Omni, auf einem Audio-Frage-Antwort-Datensatz mit der Reinforcement-Learning-Methode GRPO feinabstimmt. Dies führt zu einer neuen State-of-the-Art-Leistung auf dem aktuellen MMAU-Benchmark. Omni-R1 erzielt die höchsten Genauigkeiten in den Kategorien Klänge, Musik, Sprache und dem Gesamtdurchschnitt, sowohl bei den Test-mini- als auch bei den Test-full-Aufteilungen. Um die Leistungsverbesserung zu verstehen, testeten wir Modelle sowohl mit als auch ohne Audio und stellten fest, dass ein Großteil der Leistungssteigerung durch GRPO auf eine bessere textbasierte Argumentation zurückzuführen ist. Wir machten auch die überraschende Entdeckung, dass das Feinabstimmen ohne Audio auf einem rein textbasierten Datensatz effektiv war, um die audio-basierte Leistung zu verbessern.
Die Lokalisierung von Softwareproblemen, also die Aufgabe, die genauen Code-Stellen (Dateien, Klassen oder Funktionen) zu identifizieren, die für eine natürliche Sprachbeschreibung eines Problems (z. B. Fehlerbericht, Funktionsanfrage) relevant sind, ist ein kritischer, aber zeitaufwändiger Aspekt der Softwareentwicklung. Während neuere agentenbasierte Ansätze auf Basis von Large Language Models (LLMs) vielversprechend sind, verursachen sie oft erhebliche Latenzzeiten und Kosten aufgrund komplexer mehrstufiger Schlussfolgerungen und der Abhängigkeit von proprietären LLMs. Traditionelle Code-Ranking-Modelle, die typischerweise für die Abfrage-zu-Code- oder Code-zu-Code-Retrieval optimiert sind, haben hingegen Schwierigkeiten mit der ausführlichen und fehlerbeschreibenden Natur von Anfragen zur Problem-Lokalisierung. Um diese Lücke zu schließen, stellen wir SweRank vor, ein effizientes und effektives Retrieve-and-Rerank-Framework für die Lokalisierung von Softwareproblemen. Um das Training zu erleichtern, haben wir SweLoc erstellt, einen umfangreichen Datensatz, der aus öffentlichen GitHub-Repositories kuratiert wurde und reale Problembeschreibungen mit entsprechenden Codeänderungen kombiniert. Empirische Ergebnisse auf SWE-Bench-Lite und LocBench zeigen, dass SweRank Spitzenleistungen erzielt und sowohl frühere Ranking-Modelle als auch kostspielige agentenbasierte Systeme, die proprietäre LLMs wie Claude-3.5 verwenden, übertrifft. Darüber hinaus demonstrieren wir den Nutzen von SweLoc bei der Verbesserung verschiedener bestehender Retriever- und Reranker-Modelle für die Problem-Lokalisierung und etablieren den Datensatz als wertvolle Ressource für die Community.
Trotz jüngster Fortschritte im Bereich des Videoverständnisses sind die Fähigkeiten von Large Video Language Models (LVLMs) zur Durchführung von video-basiertem kausalem Denken weitgehend unerforscht, was vor allem auf das Fehlen relevanter und spezieller Benchmarks zur Bewertung von kausalem Denken in visuell fundierten und zielorientierten Kontexten zurückzuführen ist. Um diese Lücke zu schließen, führen wir einen neuartigen Benchmark namens Video-based long-form Causal Reasoning (VCRBench) ein. Wir erstellen VCRBench mithilfe von prozeduralen Videos einfacher alltäglicher Aktivitäten, bei denen die Schritte absichtlich durcheinander gebracht werden, wobei jedes Clip ein Schlüsselereignis mit kausaler Bedeutung erfasst, um zu testen, ob LVLMs die Ereignisse identifizieren, darüber nachdenken und korrekt in die richtige Reihenfolge bringen können, die zur Erreichung eines bestimmten Ziels erforderlich sind. Darüber hinaus ist der Benchmark sorgfältig so gestaltet, dass LVLMs keine sprachlichen Abkürzungen ausnutzen können, wie sie in Multiple-Choice- oder binären QA-Formaten zu finden sind, während gleichzeitig die Herausforderungen vermieden werden, die mit der Bewertung von offenen QA-Formaten verbunden sind. Unsere Bewertung von state-of-the-art LVLMs auf VCRBench deutet darauf hin, dass diese Modelle mit video-basiertem langfristigem kausalem Denken zu kämpfen haben, hauptsächlich aufgrund ihrer Schwierigkeit, langfristige kausale Abhängigkeiten direkt aus visuellen Beobachtungen zu modellieren. Als einen einfachen Schritt zur Ermöglichung solcher Fähigkeiten schlagen wir Recognition-Reasoning Decomposition (RRD) vor, einen modularen Ansatz, der video-basiertes kausales Denken in zwei Teilaufgaben des Videoerkennens und des kausalen Denkens aufteilt. Unsere Experimente auf VCRBench zeigen, dass RRD die Genauigkeit auf VCRBench erheblich steigert, mit Verbesserungen von bis zu 25,2%. Schließlich offenbart unsere umfassende Analyse interessante Erkenntnisse, zum Beispiel, dass LVLMs bei komplexen video-basierten langfristigen kausalen Denkaufgaben hauptsächlich auf Sprachwissen zurückgreifen.
Pretraining-Datasets sind grundlegend für die Entwicklung multimodaler Modelle, weisen jedoch oft inhärente Verzerrungen und toxische Inhalte aus den webweiten Korpora auf, aus denen sie stammen. In diesem Artikel untersuchen wir die Verbreitung von Toxizität im LLaVA-Bild-Text-Pretraining-Dataset und analysieren, wie schädliche Inhalte in verschiedenen Modalitäten auftreten. Wir präsentieren eine umfassende Analyse gängiger Toxizitätskategorien und schlagen gezielte Strategien zur Minderung vor, was zur Erstellung eines verfeinerten, toxizitätsgeminderten Datensatzes führt. Dieser Datensatz entfernt 7.531 toxische Bild-Text-Paare aus dem LLaVA-Pretraining-Dataset. Wir bieten Richtlinien für die Implementierung robuster Toxizitätserkennungspipelines. Unsere Ergebnisse unterstreichen die Notwendigkeit, aktiv toxische Inhalte – wie Hassrede, explizite Bilder und gezielte Belästigung – zu identifizieren und zu filtern, um verantwortungsbewusstere und gerechtere multimodale Systeme zu entwickeln. Der toxizitätsgeminderte Datensatz ist Open Source und steht für weitere Forschungen zur Verfügung.
Die Technologie zur Personenwiedererkennung (ReID) gilt als relativ leistungsstark unter kontrollierten, bodennahen Bedingungen, versagt jedoch in anspruchsvollen realen Einsatzszenarien. Dies ist offensichtlich auf extreme Datenvariabilitätsfaktoren wie Auflösung, Blickwinkeländerungen, Skalenvariationen, Verdeckungen und Erscheinungsverschiebungen durch Kleidung oder Sitzungsänderungen zurückzuführen. Darüber hinaus berücksichtigen die öffentlich verfügbaren Datensätze solche Arten und Ausmaße von Variabilität nicht realistisch, was den Fortschritt dieser Technologie begrenzt. Dieses Papier stellt DetReIDX vor, einen groß angelegten Luft-Boden-Personendatensatz, der explizit als Belastungstest für ReID unter realen Bedingungen konzipiert wurde. DetReIDX ist ein mehrsitziger Datensatz, der über 13 Millionen Begrenzungsrahmen von 509 Identitäten umfasst, die in sieben Universitätsgeländen auf drei Kontinenten mit Drohnenhöhen zwischen 5,8 und 120 Metern gesammelt wurden. Wichtiger noch, als zentrale Neuheit wurden die Probanden von DetReIDX an (mindestens) zwei verschiedenen Tagen mit Änderungen in Kleidung, Tageslicht und Standort aufgenommen, was ihn zur tatsächlichen Bewertung der langfristigen Personenwiedererkennung geeignet macht. Zusätzlich wurden die Daten mit 16 weichen biometrischen Attributen und Multitask-Labels für Erkennung, Verfolgung, ReID und Aktionserkennung annotiert. Um empirische Belege für die Nützlichkeit von DetReIDX zu liefern, betrachteten wir die spezifischen Aufgaben der menschlichen Erkennung und ReID, bei denen SOTA-Methoden die Leistung katastrophal verschlechtern (bis zu 80 % bei der Erkennungsgenauigkeit und über 70 % bei der Rank-1-ReID), wenn sie den Bedingungen von DetReIDX ausgesetzt sind. Der Datensatz, die Annotationen und die offiziellen Bewertungsprotokolle sind öffentlich unter https://www.it.ubi.pt/DetReIDX/ verfügbar.
In jüngster Zeit haben wir eine rasante Entwicklung großer Vision-Language-Modelle (VLMs) beobachtet. Diese haben beeindruckende Ergebnisse auf akademischen Benchmarks gezeigt, vor allem in weit verbreiteten Sprachen, weisen jedoch Schwächen bei ressourcenarmen Sprachen und unterschiedlichen kulturellen Kontexten auf. Um diese Einschränkungen zu überwinden, stellen wir Maya vor, ein Open-Source-Multilingual-VLM. Unsere Beiträge sind: 1) ein mehrsprachiges Bild-Text-Pretraining-Datensatz in acht Sprachen, basierend auf dem LLaVA-Pretraining-Datensatz; und 2) ein mehrsprachiges Bild-Text-Modell, das diese Sprachen unterstützt und das kulturelle und linguistische Verständnis in Vision-Language-Aufgaben verbessert. Der Code ist verfügbar unter https://github.com/nahidalam/maya.
Die Beantwortung komplexer visueller Fragen wie „Welches rote Möbelstück eignet sich zum Sitzen?“ erfordert mehrstufiges Schlussfolgern, einschließlich Objekterkennung, Attributfilterung und relationalem Verständnis. Aktuelle Arbeiten verbessern die Interpretierbarkeit in multimodalen großen Sprachmodellen (MLLMs), indem sie Aufgaben in Unteraufgabenprogramme zerlegen. Diese Methoden sind jedoch rechenintensiv und weniger genau, da sie sich schlecht an die Ziel-Daten anpassen. Um dies zu adressieren, stellen wir VISTAR (Visually Interpretable Subtask-Aware Reasoning Model) vor, ein auf Unteraufgaben basierendes Trainingsframework, das sowohl die Interpretierbarkeit als auch das Schlussfolgern verbessert, indem es textuelle und visuelle Erklärungen innerhalb von MLLMs generiert. Anstatt sich auf externe Modelle zu verlassen, feintunt VISTAR MLLMs, um strukturierte Subtask-of-Thought-Begründungen (schrittweise Schlussfolgerungssequenzen) zu erzeugen. Experimente auf zwei Benchmarks zeigen, dass VISTAR die Genauigkeit des Schlussfolgerns kontinuierlich verbessert, während die Interpretierbarkeit erhalten bleibt. Unser Code und Datensatz werden unter https://github.com/ChengJade/VISTAR verfügbar sein.
3D Gaussian Splatting (3DGS) hat sich als leistungsstarke Technik für die Echtzeit-Synthese hochauflösender neuer Ansichten etabliert. Indem Szenen als eine Mischung von Gaußschen Primitiven dargestellt werden, nutzt 3DGS GPU-Rasterisierungspipelines für effizientes Rendering und Rekonstruktion. Um die Szenenabdeckung zu optimieren und feine Details zu erfassen, verwendet 3DGS einen Verdichtungsalgorithmus, um zusätzliche Punkte zu generieren. Dieser Prozess führt jedoch oft zu redundanten Punktwolken, was übermäßigen Speicherverbrauch, langsamere Leistung und erhebliche Speicheranforderungen zur Folge hat – was erhebliche Herausforderungen für den Einsatz auf ressourcenbeschränkten Geräten darstellt. Um diese Einschränkung zu überwinden, schlagen wir ein theoretisches Framework vor, das die Dichtekontrolle in 3DGS entmystifiziert und verbessert. Unsere Analyse zeigt, dass das Aufteilen entscheidend ist, um Sattelpunkte zu verlassen. Durch einen optimierungstheoretischen Ansatz leiten wir die notwendigen Bedingungen für die Verdichtung ab, bestimmen die minimale Anzahl von Nachkommen-Gaußschen, identifizieren die optimale Richtung für Parameteraktualisierungen und liefern eine analytische Lösung für die Normalisierung der Opazität der Nachkommen. Aufbauend auf diesen Erkenntnissen führen wir SteepGS ein, das eine steilste Dichtekontrolle integriert – eine prinzipienbasierte Strategie, die den Verlust minimiert, während eine kompakte Punktwolke erhalten bleibt. SteepGS erreicht eine Reduktion der Gaußschen Punkte um ~50 %, ohne die Renderqualität zu beeinträchtigen, und verbessert damit sowohl die Effizienz als auch die Skalierbarkeit erheblich.