Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir präsentieren Pangu Ultra, ein Large Language Model (LLM) mit 135 Milliarden Parametern und dichten Transformer-Modulen, das auf Ascend Neural Processing Units (NPUs) trainiert wurde. Obwohl das Feld der LLMs in den letzten Jahren beispiellose Fortschritte bei der Skalierung und Fähigkeitserweiterung von LLMs erlebt hat, stellt das Training eines derart großskaligen Modells weiterhin erhebliche Optimierungs- und Systemherausforderungen dar. Um den Trainingsprozess zu stabilisieren, schlagen wir eine tiefenskalierte Sandwich-Normalisierung vor, die Verlustspitzen während des Trainingsprozesses tiefer Modelle effektiv eliminiert. Wir pre-trainieren unser Modell mit 13,2 Billionen diversen und hochwertigen Tokens und verbessern seine Fähigkeiten zur logischen Schlussfolgerung weiter während des Post-Trainings. Um ein derart großskaliges Training effizient durchzuführen, nutzen wir 8.192 Ascend NPUs mit einer Reihe von Systemoptimierungen. Bewertungen auf mehreren diversen Benchmarks zeigen, dass Pangu Ultra die state-of-the-art-Fähigkeiten dichter LLMs wie Llama 405B und Mistral Large 2 deutlich vorantreibt und sogar wettbewerbsfähige Ergebnisse mit DeepSeek-R1 erzielt, dessen sparsame Modellstruktur deutlich mehr Parameter enthält. Unsere Untersuchung zeigt, dass Ascend NPUs in der Lage sind, dichte Modelle mit mehr als 100 Milliarden Parametern effizient und effektiv zu trainieren. Unser Modell und System werden für unsere kommerziellen Kunden verfügbar sein.
Wir präsentieren Kimi-VL, ein effizientes Open-Source-Mixture-of-Experts (MoE)-Vision-Sprache-Modell (VLM), das fortschrittliches multimodales Denken, Langzeitkontextverständnis und starke Agenten-Fähigkeiten bietet – und dabei nur 2,8 Milliarden Parameter in seinem Sprachdecoder aktiviert (Kimi-VL-A3B). Kimi-VL zeigt eine starke Leistung in anspruchsvollen Domänen: Als allgemeines VLM überzeugt es in Multi-Turn-Agenten-Aufgaben (z. B. OSWorld) und hält mit führenden Modellen Schritt. Darüber hinaus weist es bemerkenswerte Fähigkeiten in diversen anspruchsvollen Vision-Sprache-Aufgaben auf, darunter College-Level-Bild- und Videoverständnis, OCR, mathematisches Denken und Multi-Bild-Verständnis. In vergleichenden Bewertungen konkurriert es effektiv mit modernsten effizienten VLMs wie GPT-4o-mini, Qwen2.5-VL-7B und Gemma-3-12B-IT, während es GPT-4o in mehreren Schlüsselbereichen übertrifft. Kimi-VL macht auch Fortschritte bei der Verarbeitung langer Kontexte und der klaren Wahrnehmung. Mit einem erweiterten Kontextfenster von 128K kann Kimi-VL diverse lange Eingaben verarbeiten und erzielt beeindruckende Werte von 64,5 auf LongVideoBench und 35,1 auf MMLongBench-Doc. Sein nativer Auflösungs-Vision-Encoder, MoonViT, ermöglicht es ihm, ultrahochauflösende visuelle Eingaben zu sehen und zu verstehen, und erreicht 83,2 auf InfoVQA und 34,5 auf ScreenSpot-Pro, während es gleichzeitig die Rechenkosten für gängige Aufgaben niedrig hält. Aufbauend auf Kimi-VL führen wir eine fortschrittliche Langzeitdenken-Variante ein: Kimi-VL-Thinking. Dieses Modell, entwickelt durch langen Chain-of-Thought (CoT)-supervised Fine-Tuning (SFT) und Reinforcement Learning (RL), zeigt starke Langzeitdenkfähigkeiten. Es erreicht Werte von 61,7 auf MMMU, 36,8 auf MathVision und 71,3 auf MathVista, während es die kompakten 2,8 Milliarden aktivierten LLM-Parameter beibehält, und setzt damit einen neuen Standard für effiziente multimodale Denkmodelle. Code und Modelle sind öffentlich zugänglich unter https://github.com/MoonshotAI/Kimi-VL.
Große Reasoning-Modelle wie DeepSeek-R1 markieren einen grundlegenden Wandel in der Art und Weise, wie LLMs komplexe Probleme angehen. Anstatt direkt eine Antwort für eine gegebene Eingabe zu produzieren, erstellt DeepSeek-R1 detaillierte mehrstufige Reasoning-Ketten, scheinbar „denkt“ es über ein Problem nach, bevor es eine Antwort liefert. Dieser Reasoning-Prozess ist für den Benutzer öffentlich zugänglich, was unendliche Möglichkeiten bietet, das Reasoning-Verhalten des Modells zu untersuchen und das Feld der Thoughtology zu eröffnen. Ausgehend von einer Taxonomie der grundlegenden Bausteine des Reasonings von DeepSeek-R1 untersuchen unsere Analysen zu DeepSeek-R1 die Auswirkungen und Kontrollierbarkeit der Gedankenlänge, das Management von langen oder verwirrenden Kontexten, kulturelle und Sicherheitsbedenken sowie den Status von DeepSeek-R1 im Hinblick auf kognitive Phänomene wie menschliche Sprachverarbeitung und Weltmodellierung. Unsere Ergebnisse zeichnen ein differenziertes Bild. Insbesondere zeigen wir, dass DeepSeek-R1 einen „Sweet Spot“ des Reasonings hat, bei dem zusätzliche Inferenzzeit die Modellleistung beeinträchtigen kann. Darüber hinaus stellen wir fest, dass DeepSeek-R1 dazu neigt, hartnäckig über zuvor untersuchte Problemformulierungen nachzudenken, was die weitere Exploration behindert. Wir stellen auch starke Sicherheitslücken von DeepSeek-R1 im Vergleich zu seinem nicht-reasoning Pendant fest, die auch sicherheitsausgerichtete LLMs gefährden können.
Mixture-of-Experts (MoE) Large Language Models (LLMs) leiden unter stark suboptimalen Expertenpfaden – unsere Studie zeigt, dass die naive Expertenauswahl, die während des Vortrainings erlernt wird, eine überraschende Genauigkeitslücke von 10–20 % für Verbesserungen hinterlässt. Motiviert durch diese Beobachtung entwickeln wir eine neuartige Klasse von Optimierungsmethoden zur Testzeit, um die Experten in verschiedenen Schichten gemeinsam für jedes Testbeispiel neu zu gewichten oder „neu zu mischen“. Da die Grundwahrheit des Testbeispiels unbekannt ist, schlagen wir vor, ein Ersatzziel zu optimieren, das durch die „erfolgreichen Nachbarn“ des Beispiels aus einem Referenzsatz von Beispielen definiert wird. Wir führen drei Ersatzziele und Algorithmen ein, die auf Modusfindung, Kernel-Regression und dem durchschnittlichen Verlust ähnlicher Referenzbeispiele/-aufgaben basieren. Um die Kosten für die Optimierung ganzer Pfade zu reduzieren, wenden wir unsere Algorithmen lediglich auf die Mischgewichte der Kern-Experten in kritischen Schichten an, die eine ähnliche Leistung erzielen, aber erhebliche Rechenressourcen einsparen. Dies führt zu „Critical-Layer, Core-Expert, Collaborative Pathway Optimization (C3PO)“. Wir wenden C3PO auf zwei aktuelle MoE-LLMs an und testen es anhand von sechs weit verbreiteten Benchmarks. Es verbessert das Basismodell durchgängig um 7–15 % in der Genauigkeit und übertrifft weit verbreitete Testzeit-Lern-Baselines, wie z. B. In-Context-Learning und Prompt-/Prefix-Tuning, deutlich. Darüber hinaus ermöglicht C3PO MoE-LLMs mit 1–3B aktiven Parametern, LLMs mit 7–9B Parametern zu übertreffen, wodurch die Effizienzvorteile von MoE weiter gesteigert werden. Unsere umfassende Ablationsstudie liefert zudem neue Einblicke in die Verbesserung von MoE zur Testzeit.
Jüngste Fortschritte bei Diffusionsmodellen haben verschiedene Aufgaben der Bildgenerierung erheblich vorangetrieben. Der derzeitige Mainstream-Ansatz konzentriert sich jedoch weiterhin auf die Entwicklung von aufgabenspezifischen Modellen, die bei der Unterstützung einer breiten Palette unterschiedlicher Anforderungen nur begrenzt effizient sind. Während universelle Modelle versuchen, diese Einschränkung zu überwinden, stehen sie vor kritischen Herausforderungen, darunter generalisierbare Aufgabenanweisungen, angemessene Aufgabenverteilungen und einheitliche Architekturdesigns. Um diese Herausforderungen zu bewältigen, schlagen wir VisualCloze vor, ein universelles Framework für die Bildgenerierung, das eine breite Palette von domänenspezifischen Aufgaben, die Generalisierung auf unbekannte Aufgaben, die ungesehene Vereinheitlichung mehrerer Aufgaben und die umgekehrte Generierung unterstützt. Im Gegensatz zu bestehenden Methoden, die auf sprachbasierte Aufgabenanweisungen angewiesen sind und dadurch zu Aufgabenmehrdeutigkeit und schwacher Generalisierung führen, integrieren wir visuelles In-Context-Lernen, das es Modellen ermöglicht, Aufgaben aus visuellen Demonstrationen zu identifizieren. Gleichzeitig behindert die inhärente Sparsity von visuellen Aufgabenverteilungen das Erlernen übertragbaren Wissens über Aufgaben hinweg. Zu diesem Zweck führen wir Graph200K ein, einen graphstrukturierten Datensatz, der verschiedene miteinander verbundene Aufgaben etabliert und dadurch die Aufgabendichte und das übertragbare Wissen verbessert. Darüber hinaus decken wir auf, dass unsere einheitliche Formulierung der Bildgenerierung ein konsistentes Ziel mit der Bildinfüllung teilt, was es uns ermöglicht, die starken generativen Prioritäten vortrainierter Infüllungsmodelle zu nutzen, ohne die Architekturen zu modifizieren.
Die Weiterentwicklung des Chain-of-Thought (CoT)-Denkens hat die Fähigkeiten von großen Sprachmodellen (LLMs) und großen visuell-sprachlichen Modellen (LVLMs) erheblich verbessert. Dennoch fehlt ein rigoroses Bewertungsrahmenwerk für das Video-CoT-Denken. Aktuelle Video-Benchmarks sind nicht in der Lage, den Denkprozess angemessen zu bewerten und aufzuzeigen, ob Fehler auf Mängel in der Wahrnehmung oder in den Denkfähigkeiten beruhen. Daher stellen wir VCR-Bench vor, einen neuartigen Benchmark, der entwickelt wurde, um die Video-Chain-of-Thought-Denkfähigkeiten von LVLMs umfassend zu bewerten. VCR-Bench umfasst 859 Videos, die eine Vielzahl von Videoinhalten und -dauern abdecken, sowie 1.034 hochwertige Frage-Antwort-Paare. Jedes Paar ist manuell mit einer schrittweisen CoT-Begründung annotiert, wobei jeder Schritt gekennzeichnet ist, um seine Zuordnung zu den Wahrnehmungs- oder Denkfähigkeiten anzuzeigen. Darüber hinaus entwerfen wir sieben verschiedene Aufgabenbereiche und schlagen den CoT-Score vor, um den gesamten CoT-Prozess basierend auf den schrittweise gekennzeichneten CoT-Begründungen zu bewerten. Umfangreiche Experimente auf VCR-Bench verdeutlichen erhebliche Einschränkungen bei aktuellen LVLMs. Selbst das leistungsstärkste Modell, o1, erreicht nur einen CoT-Score von 62,8 % und eine Genauigkeit von 56,7 %, während die meisten Modelle unter 40 % liegen. Die Experimente zeigen, dass die meisten Modelle bei Wahrnehmungsschritten schlechter abschneiden als bei Denkschritten, was den entscheidenden Engpass von LVLMs bei der Verarbeitung von zeitlich-räumlichen Informationen für komplexes Video-Denken offenbart. Eine robuste positive Korrelation zwischen dem CoT-Score und der Genauigkeit bestätigt die Gültigkeit unseres Bewertungsrahmenwerks und unterstreicht die entscheidende Rolle des CoT-Denkens bei der Lösung komplexer Video-Denkaufgaben. Wir hoffen, dass VCR-Bench als standardisiertes Bewertungsrahmenwerk dient und die tatsächlichen Schwächen bei komplexen Video-Denkaufgaben aufzeigt.
Die Fähigkeit zur Befolgung von Anweisungen (Instruction Following, IF) misst, wie gut Multimodale Große Sprachmodelle (Multi-modal Large Language Models, MLLMs) genau verstehen, was Benutzer ihnen mitteilen, und ob sie dies korrekt umsetzen. Bisherige multimodale Trainingsdaten zur Befolgung von Anweisungen sind knapp, die Benchmarks sind einfach mit atomaren Anweisungen, und die Bewertungsstrategien sind unpräzise für Aufgaben, die exakte Ausgabebeschränkungen erfordern. Um dies zu beheben, stellen wir MM-IFEngine vor, eine effektive Pipeline zur Generierung hochwertiger Bild-Anweisungs-Paare. Unsere MM-IFEngine-Pipeline liefert umfangreiche, vielfältige und hochwertige Trainingsdaten MM-IFInstruct-23k, die sich für Supervised Fine-Tuning (SFT) eignen und als MM-IFDPO-23k für Direct Preference Optimization (DPO) erweitert werden. Wir führen außerdem MM-IFEval ein, einen anspruchsvollen und vielfältigen multimodalen Benchmark zur Befolgung von Anweisungen, der (1) sowohl zusammengesetzte Beschränkungen für Ausgabeantworten als auch wahrnehmungsbezogene Beschränkungen, die an die Eingabebilder gebunden sind, umfasst, und (2) eine umfassende Bewertungspipeline, die sowohl regelbasierte Bewertungen als auch ein Richtermodell integriert. Wir führen SFT- und DPO-Experimente durch und zeigen, dass das Feinabstimmen von MLLMs auf MM-IFInstruct-23k und MM-IFDPO-23k bemerkenswerte Verbesserungen bei verschiedenen IF-Benchmarks erzielt, wie z.B. MM-IFEval (+10,2 %), MIA (+7,6 %) und IFEval (+12,3 %). Die vollständigen Daten und der Bewertungscode werden auf https://github.com/SYuan03/MM-IFEngine veröffentlicht.
Die Entwicklung allgemeiner Modelle, die die Welt effektiv durch multimodale Signale wahrnehmen können, ist ein langjähriges Ziel. Aktuelle Ansätze beinhalten die Integration separat vortrainierter Komponenten, wie beispielsweise die Verbindung von Vision-Encodern mit LLMs und die Fortführung des multimodalen Trainings. Obwohl solche Ansätze eine bemerkenswerte Stichprobeneffizienz aufweisen, bleibt die Frage offen, ob solche Late-Fusion-Architekturen inhärent überlegen sind. In dieser Arbeit untersuchen wir erneut das architektonische Design nativer multimodaler Modelle (NMMs) – solche, die von Grund auf für alle Modalitäten trainiert werden – und führen eine umfangreiche Studie zu Skalierungsgesetzen durch, die 457 trainierte Modelle mit unterschiedlichen Architekturen und Trainingsmischungen umfasst. Unsere Untersuchung zeigt keinen inhärenten Vorteil von Late-Fusion-Architekturen gegenüber Early-Fusion-Architekturen, die nicht auf Bild-Encoder angewiesen sind. Im Gegenteil, Early-Fusion zeigt eine stärkere Leistung bei geringeren Parameterzahlen, ist effizienter zu trainieren und einfacher zu implementieren. Motiviert durch die starke Leistung der Early-Fusion-Architekturen zeigen wir, dass die Einbindung von Mixture of Experts (MoEs) Modelle ermöglicht, die modalspezifische Gewichte lernen, was die Leistung erheblich verbessert.
Die 3D-Part-Amodalsegmentierung – die Zerlegung einer 3D-Form in vollständige, semantisch bedeutungsvolle Teile, auch bei Verdeckung – ist eine anspruchsvolle, aber entscheidende Aufgabe für die Erstellung und das Verständnis von 3D-Inhalten. Bisherige Methoden zur 3D-Partsegmentierung identifizieren lediglich sichtbare Oberflächenbereiche, was ihre Nützlichkeit einschränkt. Inspiriert von der 2D-Amodalsegmentierung führen wir diese neuartige Aufgabe in den 3D-Bereich ein und schlagen einen praktischen, zweistufigen Ansatz vor, der die zentralen Herausforderungen der Inferenz verdeckter 3D-Geometrie, der Wahrung globaler Formkonsistenz und der Handhabung vielfältiger Formen mit begrenzten Trainingsdaten adressiert. Zunächst nutzen wir bestehende 3D-Partsegmentierung, um initiale, unvollständige Partsegmente zu erhalten. Anschließend führen wir HoloPart vor, ein neuartiges, diffusionsbasiertes Modell, das diese Segmente zu vollständigen 3D-Teilen vervollständigt. HoloPart verwendet eine spezialisierte Architektur mit lokaler Aufmerksamkeit, um fein abgestufte Partgeometrien zu erfassen, und globaler Formkontext-Aufmerksamkeit, um die Gesamtformkonsistenz sicherzustellen. Wir stellen neue Benchmarks basierend auf den Datensätzen ABO und PartObjaverse-Tiny vor und zeigen, dass HoloPart state-of-the-art Methoden zur Formvervollständigung deutlich übertrifft. Durch die Integration von HoloPart mit bestehenden Segmentierungstechniken erzielen wir vielversprechende Ergebnisse bei der 3D-Part-Amodalsegmentierung und eröffnen neue Anwendungsmöglichkeiten in den Bereichen Geometriebearbeitung, Animation und Materialzuweisung.
In diesem Artikel präsentieren wir eine effektive Methode zur Verbesserung des visuellen Denkens mit deutlich weniger Trainingsdaten, die ausschließlich auf Selbstverbesserung ohne Wissensdistillation basiert. Unsere zentrale Erkenntnis ist, dass die Schwierigkeit der Trainingsdaten während des Reinforcement Fine-Tunings (RFT) entscheidend ist. Angemessen herausfordernde Beispiele können die Denkfähigkeiten erheblich steigern, selbst wenn der Datensatz klein ist. Obwohl dies intuitiv erscheint, besteht die Hauptherausforderung darin, die Schwierigkeit der Beispiele genau zu quantifizieren, um eine effektive Datenfilterung zu ermöglichen. Zu diesem Zweck schlagen wir eine neuartige Methode vor, die Monte Carlo Tree Search (MCTS) umfunktioniert, um dies zu erreichen. Ausgehend von unseren kuratierten 70.000 Open-Source-Trainingsbeispielen führen wir eine MCTS-basierte Auswahlmethode ein, die die Schwierigkeit der Beispiele basierend auf der Anzahl der Iterationen quantifiziert, die die VLMs benötigen, um jedes Problem zu lösen. Dieser explizite schrittweise Denkprozess in MCTS zwingt das Modell, länger nachzudenken, und identifiziert besser die Beispiele, die wirklich herausfordernd sind. Wir filtern und behalten 11.000 Beispiele, um RFT auf Qwen2.5-VL-7B-Instruct durchzuführen, was zu unserem finalen Modell, ThinkLite-VL, führt. Evaluierungsergebnisse auf acht Benchmarks zeigen, dass ThinkLite-VL die durchschnittliche Leistung von Qwen2.5-VL-7B-Instruct um 7% verbessert, wobei nur 11.000 Trainingsbeispiele ohne Wissensdistillation verwendet werden. Dies übertrifft deutlich alle bestehenden 7B-Level-Denk-VLMs sowie unsere vergleichbaren Baselines, die klassische Auswahlmethoden wie die Genauigkeits-basierte Filterung verwenden. Besonders hervorzuheben ist, dass ThinkLite-VL-7B auf MathVista eine SoTA-Genauigkeit von 75,1 erreicht und damit Qwen2.5-VL-72B, GPT-4o und O1 übertrifft. Unser Code, Daten und Modell sind verfügbar unter https://github.com/si0wang/ThinkLite-VL.
Wir stellen MOSAIC vor, ein neuartiges, quelloffenes Framework zur Simulation sozialer Netzwerke, in dem generative Sprachagenten Nutzerverhalten wie das Liken, Teilen und Melden von Inhalten vorhersagen. Diese Simulation kombiniert LLM-Agenten mit einem gerichteten sozialen Graphen, um aufkommende Täuschungsverhalten zu analysieren und ein besseres Verständnis dafür zu gewinnen, wie Nutzer die Glaubwürdigkeit von Inhalten in sozialen Netzwerken bestimmen. Durch die Konstruktion von Nutzerrepräsentationen aus diversen, feingranularen Personas ermöglicht unser System Multi-Agenten-Simulationen, die die Verbreitung von Inhalten und Engagement-Dynamiken in großem Maßstab modellieren. Innerhalb dieses Frameworks evaluieren wir drei verschiedene Strategien zur Inhaltsmoderation mit simulierter Fehlinformationsverbreitung und stellen fest, dass diese nicht nur die Verbreitung nicht-faktischer Inhalte reduzieren, sondern auch das Nutzerengagement steigern. Zusätzlich analysieren wir die Verläufe populärer Inhalte in unseren Simulationen und untersuchen, ob die von den Simulationsagenten artikulierten Begründungen für ihre sozialen Interaktionen tatsächlich mit ihren kollektiven Engagement-Mustern übereinstimmen. Wir stellen unsere Simulationssoftware als Open Source zur Verfügung, um weitere Forschung in den Bereichen KI und Sozialwissenschaften zu fördern.
Trotz der bestehenden Weiterentwicklung von Multimodalen Großen Sprachmodellen (MLLMs) bleibt eine nicht zu vernachlässigende Einschränkung in ihrer Fähigkeit zur visuellen Textverankerung, insbesondere bei textreichen Bildern von Dokumenten. Dokumentbilder, wie gescannte Formulare und Infografiken, verdeutlichen kritische Herausforderungen aufgrund ihrer komplexen Layouts und textuellen Inhalte. Allerdings werden diese Herausforderungen von aktuellen Benchmarks nicht vollständig adressiert, da sie sich hauptsächlich auf die visuelle Verankerung in natürlichen Bildern konzentrieren und weniger auf textreiche Dokumentbilder. Um diese Lücke zu schließen, führen wir TRIG ein, eine neuartige Aufgabe mit einem neu gestalteten Instruktionsdatensatz zur Bewertung und Verbesserung der Textreichen Bildverankerungsfähigkeiten von MLLMs in der Dokumentfrage-Antwortung. Insbesondere schlagen wir eine OCR-LLM-Mensch-Interaktionspipeline vor, um 800 manuell annotierte Frage-Antwort-Paare als Benchmark und einen groß angelegten Trainingsdatensatz von 90$ synthetischen Daten basierend auf vier diversen Datensätzen zu erstellen. Eine umfassende Bewertung verschiedener MLLMs anhand unseres vorgeschlagenen Benchmarks zeigt erhebliche Einschränkungen in ihrer Verankerungsfähigkeit bei textreichen Bildern auf. Darüber hinaus schlagen wir zwei einfache und effektive TRIG-Methoden vor, die auf allgemeiner Instruktionsfeinabstimmung bzw. Plug-and-Play-effizienter Einbettung basieren. Durch die Feinabstimmung von MLLMs an unserem synthetischen Datensatz verbessern sich deren räumliche Argumentations- und Verankerungsfähigkeiten vielversprechend.
Bestehende Ansätze zur Steuerung von Text-zu-Bild-Diffusionsmodellen, obwohl leistungsstark, ermöglichen keine explizite 3D-objektzentrierte Kontrolle, wie beispielsweise die präzise Steuerung der Objektausrichtung. In dieser Arbeit behandeln wir das Problem der Multi-Objekt-Orientierungskontrolle in Text-zu-Bild-Diffusionsmodellen. Dies ermöglicht die Erzeugung vielfältiger Multi-Objekt-Szenen mit präziser Orientierungskontrolle für jedes Objekt. Die zentrale Idee besteht darin, das Diffusionsmodell mit einer Reihe von orientierungsbewussten Kompass-Tokens, eines für jedes Objekt, zusammen mit Text-Tokens zu konditionieren. Ein leichtgewichtiges Encoder-Netzwerk sagt diese Kompass-Tokens voraus, wobei die Objektausrichtung als Eingabe dient. Das Modell wird auf einem synthetischen Datensatz von prozedural generierten Szenen trainiert, die jeweils ein oder zwei 3D-Assets auf einem einfachen Hintergrund enthalten. Direktes Training dieses Frameworks führt jedoch zu schlechter Orientierungskontrolle sowie zu Verflechtungen zwischen den Objekten. Um dies zu mildern, greifen wir in den Generierungsprozess ein und beschränken die Cross-Attention-Maps jedes Kompass-Tokens auf die entsprechenden Objektregionen. Das trainierte Modell ist in der Lage, präzise Orientierungskontrolle für a) komplexe Objekte, die während des Trainings nicht gesehen wurden, und b) Multi-Objekt-Szenen mit mehr als zwei Objekten zu erreichen, was auf starke Generalisierungsfähigkeiten hinweist. Darüber hinaus ermöglicht unsere Methode in Kombination mit Personalisierungsmethoden die präzise Steuerung der Ausrichtung des neuen Objekts in verschiedenen Kontexten. Unsere Methode erreicht state-of-the-art Orientierungskontrolle und Textausrichtung, quantifiziert durch umfangreiche Evaluierungen und eine Benutzerstudie.
Wir stellen Geo4D vor, eine Methode zur Umwidmung von Video-Diffusionsmodellen für die monokulare 3D-Rekonstruktion dynamischer Szenen. Durch die Nutzung des starken dynamischen Priors, der von solchen Videomodellen erfasst wird, kann Geo4D ausschließlich mit synthetischen Daten trainiert werden und generalisiert dennoch in einem Zero-Shot-Ansatz gut auf reale Daten. Geo4D sagt mehrere komplementäre geometrische Modalitäten voraus, nämlich Punkt-, Tiefen- und Strahlenkarten. Es verwendet einen neuen multimodalen Ausrichtungsalgorithmus, um diese Modalitäten sowie mehrere gleitende Fenster während der Inferenz auszurichten und zu fusionieren, wodurch eine robuste und präzise 4D-Rekonstruktion langer Videos erreicht wird. Umfangreiche Experimente über mehrere Benchmarks hinweg zeigen, dass Geo4D die aktuellsten Methoden zur Video-Tiefenschätzung, einschließlich neuerer Methoden wie MonST3R, die ebenfalls für die Handhabung dynamischer Szenen entwickelt wurden, deutlich übertrifft.
Aktuelle monokulare 3D-Detektoren werden durch die begrenzte Vielfalt und den Umfang realer Datensätze eingeschränkt. Obwohl Datenaugmentierung sicherlich hilfreich ist, ist es besonders schwierig, realistische, szenenbewusste augmentierte Daten für Außenbereiche zu generieren. Die meisten aktuellen Ansätze zur synthetischen Datengenerierung konzentrieren sich auf das realistische Erscheinungsbild von Objekten durch verbesserte Rendering-Techniken. Wir zeigen jedoch, dass die Platzierung und Positionierung von Objekten ebenso entscheidend für das Training effektiver monokularer 3D-Detektoren ist. Die Hauptherausforderung liegt in der automatischen Bestimmung realistischer Platzierungsparameter – einschließlich Position, Abmessungen und Ausrichtung – bei der Einführung synthetischer Objekte in reale Szenen. Um dies zu bewältigen, stellen wir MonoPlace3D vor, ein neuartiges System, das den 3D-Szeneninhalt berücksichtigt, um realistische Augmentierungen zu erzeugen. Konkret lernt MonoPlace3D, gegeben eine Hintergrundszene, eine Verteilung über plausible 3D-Bounding-Boxen. Anschließend rendern wir realistische Objekte und platzieren sie entsprechend den aus der gelernten Verteilung entnommenen Positionen. Unsere umfassende Auswertung auf zwei Standarddatensätzen, KITTI und NuScenes, zeigt, dass MonoPlace3D die Genauigkeit mehrerer bestehender monokularer 3D-Detektoren signifikant verbessert und dabei äußerst dateneffizient ist.
Das Tracking beliebiger Punkte (Tracking Any Point, TAP) in einem Video ist ein anspruchsvolles Problem der Computer Vision mit vielen nachgewiesenen Anwendungen in der Robotik, Videobearbeitung und 3D-Rekonstruktion. Bisherige Methoden für TAP stützen sich stark auf komplexe, spezifische Induktionsannahmen und Heuristiken, was ihre Allgemeingültigkeit und Skalierbarkeit einschränkt. Um diese Herausforderungen zu bewältigen, stellen wir TAPNext vor, einen neuen Ansatz, der TAP als sequenzielle Dekodierung maskierter Tokens behandelt. Unser Modell ist kausal, arbeitet rein online und entfernt spezifische Induktionsannahmen für das Tracking. Dies ermöglicht es TAPNext, mit minimaler Latenz zu arbeiten, und eliminiert die zeitliche Fensterung, die von vielen aktuellen State-of-the-Art-Trackern benötigt wird. Trotz seiner Einfachheit erreicht TAPNext eine neue Bestleistung im Tracking sowohl bei Online- als auch Offline-Trackern. Schließlich zeigen wir, dass viele weit verbreitete Tracking-Heuristiken in TAPNext durch end-to-end-Training auf natürliche Weise entstehen.