Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir präsentieren RWKV-7 „Goose“, eine neue Architektur für Sequenzmodellierung, zusammen mit vortrainierten Sprachmodellen, die einen neuen State-of-the-Art in der Downstream-Leistung bei 3 Milliarden Parametern für multilinguale Aufgaben etablieren und die aktuelle State-of-the-Art-Leistung für die englische Sprache erreichen, obwohl sie mit deutlich weniger Tokens trainiert wurden als andere Top-3B-Modelle. Dennoch benötigen RWKV-7-Modelle nur konstanten Speicherverbrauch und konstante Inferenzzeit pro Token. RWKV-7 führt eine neu verallgemeinerte Formulierung der Delta-Regel mit vektorwertigem Gating und In-Context-Lernraten sowie eine entspannte Wertersetzungsregel ein. Wir zeigen, dass RWKV-7 Zustandsverfolgung durchführen und alle regulären Sprachen erkennen kann, während die Parallelisierbarkeit des Trainings erhalten bleibt. Dies übertrifft die Fähigkeiten von Transformern unter Standard-Komplexitätsannahmen, die auf TC^0 beschränkt sind. Um die Sprachmodellierungsfähigkeit von RWKV-7 zu demonstrieren, präsentieren wir auch einen erweiterten Open-Source-Multilingual-Korpus mit 3,1 Billionen Tokens und trainieren vier RWKV-7-Modelle mit 0,19 bis 2,9 Milliarden Parametern auf diesem Datensatz. Um Offenheit, Reproduzierbarkeit und Übernahme zu fördern, veröffentlichen wir unsere Modelle und die Auflistung der Datensatzkomponenten unter https://huggingface.co/RWKV sowie unseren Trainings- und Inferenzcode unter https://github.com/RWKV/RWKV-LM, alles unter der Apache-2.0-Lizenz.
Inference Scaling verleiht LLMs beispiellose Fähigkeiten im logischen Denken, wobei Reinforcement Learning die zentrale Technik ist, um komplexe Schlussfolgerungen zu ermöglichen. Allerdings bleiben wichtige technische Details von state-of-the-art Reasoning-LLMs verborgen (wie beispielsweise im OpenAI o1-Blog und im DeepSeek R1-Technical Report), weshalb die Community weiterhin Schwierigkeiten hat, deren RL-Trainingsergebnisse zu reproduzieren. Wir schlagen den Decoupled Clip and Dynamic Sampling Policy Optimization (DAPO)-Algorithmus vor und stellen ein vollständig quelloffenes, state-of-the-art, großskaliges RL-System zur Verfügung, das mit dem Qwen2.5-32B-Basismodell 50 Punkte auf AIME 2024 erreicht. Im Gegensatz zu früheren Arbeiten, die Trainingsdetails zurückhalten, führen wir vier Schlüsseltechniken unseres Algorithmus ein, die großskaliges LLM-RL erfolgreich machen. Darüber hinaus veröffentlichen wir unseren Trainingscode, der auf dem verl-Framework basiert, sowie einen sorgfältig kuratierten und aufbereiteten Datensatz. Diese Komponenten unseres quelloffenen Systems verbessern die Reproduzierbarkeit und unterstützen zukünftige Forschung im Bereich großskaliger LLM-RL.
Synthetische Videos werden heutzutage häufig genutzt, um die Knappheit und Vielfalt realer Videodaten zu ergänzen. Aktuelle synthetische Datensätze replizieren hauptsächlich reale Szenarien, wodurch unmögliche, kontrafaktische und anti-reale Videokonzepte unterrepräsentiert bleiben. Diese Arbeit zielt darauf ab, zwei Fragen zu beantworten: 1) Können heutige Videogenerierungsmodelle effektiv Anweisungen folgen, um unmögliche Videoinhalte zu erstellen? 2) Sind heutige Videoanalyse-Modelle gut genug, um unmögliche Videos zu verstehen? Zu diesem Zweck führen wir IPV-Bench ein, einen neuartigen Benchmark, der entwickelt wurde, um Fortschritte in der Videoanalyse und -generierung zu bewerten und zu fördern. IPV-Bench basiert auf einer umfassenden Taxonomie, die 4 Domänen und 14 Kategorien umfasst. Es bietet vielfältige Szenen, die physikalische, biologische, geografische oder soziale Gesetze brechen. Auf Grundlage dieser Taxonomie wurde eine Prompt-Suite erstellt, um Videogenerierungsmodelle zu bewerten und ihre Fähigkeiten zur Befolgung von Anweisungen und Kreativität herauszufordern. Zusätzlich wurde ein Video-Benchmark kuratiert, um Video-LLMs hinsichtlich ihrer Fähigkeit zu bewerten, unmögliche Videos zu verstehen, was insbesondere ein Verständnis der zeitlichen Dynamik und des Weltwissens erfordert. Umfassende Auswertungen offenbaren Einschränkungen und Erkenntnisse für zukünftige Entwicklungsrichtungen von Videomodellen und ebnen den Weg für die nächste Generation von Videomodellen.
Kreativität ist ein grundlegender Aspekt der Intelligenz, der die Fähigkeit umfasst, neuartige und angemessene Lösungen in verschiedenen Kontexten zu generieren. Während die kreativen Fähigkeiten von Large Language Models (LLMs) umfassend evaluiert wurden, bleibt die Bewertung von Multimodal Large Language Models (MLLMs) in diesem Bereich weitgehend unerforscht. Um diese Lücke zu schließen, führen wir Creation-MMBench ein, einen multimodalen Benchmark, der speziell entwickelt wurde, um die kreativen Fähigkeiten von MLLMs in realen, bildbasierten Aufgaben zu bewerten. Der Benchmark umfasst 765 Testfälle, die 51 fein abgestufte Aufgaben abdecken. Um eine rigorose Bewertung zu gewährleisten, definieren wir für jeden Testfall instanzspezifische Bewertungskriterien, die die Beurteilung sowohl der allgemeinen Antwortqualität als auch der faktischen Konsistenz mit visuellen Eingaben leiten. Experimentelle Ergebnisse zeigen, dass aktuelle Open-Source-MLLMs in kreativen Aufgaben deutlich schlechter abschneiden als proprietäre Modelle. Darüber hinaus zeigt unsere Analyse, dass visuelles Fine-Tuning die kreativen Fähigkeiten des Basis-LLMs negativ beeinflussen kann. Creation-MMBench liefert wertvolle Erkenntnisse für die Weiterentwicklung der Kreativität von MLLMs und schafft eine Grundlage für zukünftige Verbesserungen in der multimodalen generativen Intelligenz. Vollständige Daten und Evaluationscode werden unter https://github.com/open-compass/Creation-MMBench veröffentlicht.
Großformatige, hochwertige artikulierte Objekte werden dringend für zahlreiche Aufgaben im Bereich der verkörperten KI benötigt. Die meisten bestehenden Methoden zur Erstellung artikulierter Objekte sind entweder datengetrieben oder simulationsbasiert, was durch den Umfang und die Qualität der Trainingsdaten oder die Genauigkeit und den hohen Arbeitsaufwand der Simulation begrenzt ist. In diesem Artikel stellen wir Infinite Mobility vor, eine neuartige Methode zur Synthese hochwertiger artikulierter Objekte durch prozedurale Generierung. Benutzerstudien und quantitative Auswertungen zeigen, dass unsere Methode Ergebnisse liefern kann, die den aktuellen Stand der Technik übertreffen und in Bezug auf physikalische Eigenschaften und Netzqualität mit von Menschen annotierten Datensätzen vergleichbar sind. Darüber hinaus demonstrieren wir, dass unsere synthetischen Daten als Trainingsdaten für generative Modelle verwendet werden können, was eine weitere Skalierung ermöglicht. Der Code ist verfügbar unter https://github.com/Intern-Nexus/Infinite-Mobility.
Menschliche Experten zeichnen sich durch feinkörnige visuelle Unterscheidungsfähigkeit aus, indem sie Domänenwissen nutzen, um Wahrnehmungsmerkmale zu verfeinern – eine Fähigkeit, die in aktuellen Multimodalen Großen Sprachmodellen (MLLMs) noch unterentwickelt ist. Obwohl MLLMs über umfangreiches Expertenwissen verfügen, haben sie Schwierigkeiten, logisches Denken in die visuelle Wahrnehmung zu integrieren, und liefern oft direkte Antworten ohne tiefergehende Analyse. Um diese Lücke zu schließen, führen wir die wissensintensive visuelle Verankerung (Knowledge-Intensive Visual Grounding, KVG) ein, eine neuartige visuelle Verankerungsaufgabe, die sowohl feinkörnige Wahrnehmung als auch die Integration von domänenspezifischem Wissen erfordert. Um die Herausforderungen von KVG zu bewältigen, schlagen wir DeepPerception vor, ein MLLM, das mit kognitiven visuellen Wahrnehmungsfähigkeiten erweitert wurde. Unser Ansatz besteht aus (1) einer automatisierten Daten-Synthese-Pipeline, die hochwertige, wissensausgerichtete Trainingsdaten generiert, und (2) einem zweistufigen Trainingsframework, das überwachtes Feintuning für kognitive Denkstrukturen und Verstärkungslernen zur Optimierung der Wahrnehmungs-Kognitions-Synergie kombiniert. Um die Leistung zu bewerten, stellen wir KVG-Bench vor, einen umfassenden Datensatz, der 10 Domänen mit 1,3K manuell kuratierten Testfällen abdeckt. Experimentelle Ergebnisse zeigen, dass DeepPerception das direkte Feintuning deutlich übertrifft, mit einer Genauigkeitssteigerung von +8,08 % auf KVG-Bench und einer um +4,60 % besseren domänenübergreifenden Generalisierung im Vergleich zu Baseline-Ansätzen. Unsere Ergebnisse unterstreichen die Bedeutung der Integration kognitiver Prozesse in MLLMs für eine menschenähnliche visuelle Wahrnehmung und eröffnen neue Richtungen für die multimodale Denkforschung. Die Daten, Codes und Modelle sind unter https://github.com/thunlp/DeepPerception veröffentlicht.
Die Erzeugung von Audio und Musik hat sich als entscheidende Aufgabe in vielen Anwendungen herauskristallisiert, doch bestehende Ansätze stoßen auf erhebliche Einschränkungen: Sie arbeiten isoliert ohne einheitliche Fähigkeiten über verschiedene Modalitäten hinweg, leiden unter einem Mangel an hochwertigen, multimodalen Trainingsdaten und haben Schwierigkeiten, diverse Eingaben effektiv zu integrieren. In dieser Arbeit stellen wir AudioX vor, ein einheitliches Diffusion-Transformer-Modell für Anything-to-Audio und Musikgenerierung. Im Gegensatz zu früheren domänenspezifischen Modellen kann AudioX sowohl allgemeine Audiodateien als auch Musik in hoher Qualität erzeugen und bietet dabei flexible Steuerung über natürliche Sprache sowie nahtlose Verarbeitung verschiedener Modalitäten, einschließlich Text, Video, Bild, Musik und Audio. Die zentrale Innovation besteht in einer multimodalen Maskierungstrainingsstrategie, die Eingaben über verschiedene Modalitäten hinweg maskiert und das Modell zwingt, aus maskierten Eingaben zu lernen, wodurch robuste und einheitliche cross-modale Repräsentationen entstehen. Um den Datenmangel zu beheben, haben wir zwei umfassende Datensätze zusammengestellt: vggsound-caps mit 190.000 Audio-Beschreibungen basierend auf dem VGGSound-Datensatz und V2M-caps mit 6 Millionen Musikbeschreibungen, die aus dem V2M-Datensatz abgeleitet wurden. Umfangreiche Experimente zeigen, dass AudioX nicht nur mit state-of-the-art spezialisierten Modellen mithalten oder diese übertreffen kann, sondern auch eine bemerkenswerte Vielseitigkeit bei der Handhabung verschiedener Eingabemodalitäten und Generierungsaufgaben innerhalb einer einheitlichen Architektur bietet. Der Code und die Datensätze werden unter https://zeyuet.github.io/AudioX/ verfügbar sein.
Große Sprachmodelle (LLMs) können eine Vielzahl allgemeiner Aufgaben mit einfachen Prompts bewältigen, ohne dass eine aufgabenspezifische Schulung erforderlich ist. Multimodale Große Sprachmodelle (MLLMs), die auf LLMs aufbauen, haben beeindruckendes Potenzial bei der Bewältigung komplexer Aufgaben gezeigt, die visuelle, auditive und textuelle Daten umfassen. Kritische Fragen im Zusammenhang mit Wahrhaftigkeit, Sicherheit, o1-ähnlichem Denken und der Ausrichtung an menschlichen Präferenzen bleiben jedoch unzureichend behandelt. Diese Lücke hat die Entstehung verschiedener Alignment-Algorithmen vorangetrieben, die jeweils unterschiedliche Anwendungsszenarien und Optimierungsziele verfolgen. Jüngste Studien haben gezeigt, dass Alignment-Algorithmen ein wirksamer Ansatz zur Bewältigung der genannten Herausforderungen sind. In diesem Artikel streben wir eine umfassende und systematische Übersicht über Alignment-Algorithmen für MLLMs an. Insbesondere untersuchen wir vier Schlüsselaspekte: (1) die Anwendungsszenarien, die von Alignment-Algorithmen abgedeckt werden, einschließlich allgemeinem Bildverständnis, Multi-Bild-, Video- und Audioanwendungen sowie erweiterten multimodalen Anwendungen; (2) die Kernfaktoren bei der Erstellung von Alignment-Datensätzen, einschließlich Datenquellen, Modellantworten und Präferenzannotationen; (3) die Benchmarks, die zur Bewertung von Alignment-Algorithmen verwendet werden; und (4) eine Diskussion potenzieller zukünftiger Entwicklungsrichtungen für Alignment-Algorithmen. Diese Arbeit soll Forschern helfen, die aktuellen Fortschritte auf diesem Gebiet zu strukturieren und bessere Alignment-Methoden zu inspirieren. Die Projektseite dieses Artikels ist verfügbar unter https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment.
Die Bildbeschreibung stellt seit langem eine Herausforderung in der Vision-Language-Forschung dar. Mit dem Aufstieg von LLMs (Large Language Models) generieren moderne Vision-Language-Modelle (VLMs) detaillierte und umfassende Bildbeschreibungen. Die Bewertung der Qualität solcher Beschreibungen bleibt jedoch ungelöst. Diese Arbeit behandelt zwei zentrale Fragen: (1) Wie gut schneiden aktuelle VLMs bei der Bildbeschreibung tatsächlich ab, insbesondere im Vergleich zu Menschen? Wir haben CapArena entwickelt, eine Plattform mit über 6000 paarweisen Beschreibungsvergleichen und hochwertigen menschlichen Präferenzbewertungen. Unsere Arena-artige Bewertung markiert einen Meilenstein und zeigt, dass führende Modelle wie GPT-4o die menschliche Leistung erreichen oder sogar übertreffen, während die meisten Open-Source-Modelle zurückbleiben. (2) Können automatisierte Metriken die Qualität detaillierter Beschreibungen zuverlässig bewerten? Unter Verwendung menschlicher Annotationen aus CapArena evaluieren wir traditionelle und neuere Beschreibungsmetriken sowie VLM-as-a-Judge. Unsere Analyse zeigt, dass einige Metriken (z. B. METEOR) eine akzeptable Übereinstimmung mit menschlichen Bewertungen auf Beschreibungsebene aufweisen, ihre systematischen Verzerrungen jedoch zu Inkonsistenzen in der Modellrangfolge führen. Im Gegensatz dazu zeigt VLM-as-a-Judge eine robuste Unterscheidungsfähigkeit sowohl auf Beschreibungs- als auch auf Modellebene. Aufbauend auf diesen Erkenntnissen veröffentlichen wir CapArena-Auto, einen präzisen und effizienten automatisierten Benchmark für detaillierte Bildbeschreibungen, der eine Korrelation von 94,3 % mit menschlichen Rangfolgen bei nur 4 US-Dollar pro Test erreicht. Daten und Ressourcen werden unter https://caparena.github.io open-source bereitgestellt.
Residual Connections sind zentral für moderne Deep-Learning-Architekturen, da sie das Training sehr tiefer Netzwerke ermöglichen, indem sie das Verschwinden von Gradienten abschwächen. Hyper-Connections haben kürzlich Residual Connections verallgemeinert, indem sie mehrere Verbindungsstärken auf verschiedenen Tiefen eingeführt haben, wodurch der Seesaw-Effekt zwischen Gradientenverschwinden und Repräsentationskollaps adressiert wird. Allerdings erhöhen Hyper-Connections die Speicherzugriffskosten, indem sie die Breite der verborgenen Zustände erweitern. In diesem Artikel schlagen wir Frac-Connections vor, einen neuartigen Ansatz, der verborgene Zustände in mehrere Teile aufteilt, anstatt ihre Breite zu erweitern. Frac-Connections behalten teilweise die Vorteile von Hyper-Connections bei, reduzieren jedoch den Speicherverbrauch. Um ihre Wirksamkeit zu validieren, führen wir umfangreiche Experimente zu Sprachaufgaben durch, wobei das größte ein 7B-MoE-Modell ist, das mit bis zu 3T Tokens trainiert wurde. Die Ergebnisse zeigen, dass Frac-Connections Residual Connections deutlich übertreffen.
Wir stellen Cosmos-Transfer vor, ein bedingtes Weltgenerierungsmodell, das Weltsimulationen basierend auf mehreren räumlichen Steuereingaben verschiedener Modalitäten wie Segmentierung, Tiefe und Kanten erzeugen kann. Im Design ist das räumliche Bedingungsschema adaptiv und anpassbar. Es ermöglicht die unterschiedliche Gewichtung verschiedener Bedingungseingaben an verschiedenen räumlichen Positionen. Dies ermöglicht eine hochgradig kontrollierbare Weltgenerierung und findet Anwendung in verschiedenen Welt-zu-Welt-Transfer-Anwendungsfällen, einschließlich Sim2Real. Wir führen umfangreiche Evaluierungen durch, um das vorgeschlagene Modell zu analysieren und seine Anwendungen für Physical AI zu demonstrieren, einschließlich Robotics Sim2Real und der Datenanreicherung für autonome Fahrzeuge. Darüber hinaus demonstrieren wir eine Inferenz-Skalierungsstrategie, um Echtzeit-Weltgenerierung mit einem NVIDIA GB200 NVL72-Rack zu erreichen. Um die Forschungsentwicklung in diesem Bereich zu beschleunigen, stellen wir unsere Modelle und unseren Code unter https://github.com/nvidia-cosmos/cosmos-transfer1 als Open Source zur Verfügung.
Die Erzeugung flexibler 3D-Szenen mit 360°-Rotation und Zoom aus einzelnen Bildern ist aufgrund fehlender 3D-Daten eine Herausforderung. Zu diesem Zweck stellen wir FlexWorld vor, ein neuartiges Framework, das aus zwei Schlüsselkomponenten besteht: (1) ein leistungsstarkes Video-zu-Video (V2V)-Diffusionsmodell zur Generierung hochwertiger neuartiger Ansichtsbilder aus unvollständigen Eingaben, die aus einer groben Szene gerendert wurden, und (2) ein progressiver Erweiterungsprozess zur Konstruktion einer vollständigen 3D-Szene. Insbesondere kann unser V2V-Modell, das auf einem fortschrittlichen vortrainierten Videomodell und präzisen, tiefengeschätzten Trainingspaaren basiert, neuartige Ansichten unter großen Kamerapositionsvariationen erzeugen. Darauf aufbauend generiert FlexWorld schrittweise neuen 3D-Inhalt und integriert ihn durch geometrie-bewusste Szenenfusion in die globale Szene. Umfangreiche Experimente demonstrieren die Effektivität von FlexWorld bei der Generierung hochwertiger neuartiger Ansichtsvideos und flexibler 3D-Szenen aus einzelnen Bildern, wobei es im Vergleich zu bestehenden state-of-the-art Methoden eine überlegene visuelle Qualität unter mehreren gängigen Metriken und Datensätzen erreicht. Qualitativ heben wir hervor, dass FlexWorld hochfidèle Szenen mit flexiblen Ansichten wie 360°-Rotationen und Zoomen erzeugen kann. Projektseite: https://ml-gsai.github.io/FlexWorld.
Die effiziente Modellierung von massiven Bildern stellt eine langjährige Herausforderung im Bereich des maschinellen Lernens dar. Zu diesem Zweck führen wir Multi-Scale Attention (MSA) ein. MSA basiert auf zwei zentralen Ideen: (i) Mehrskalenrepräsentationen und (ii) bidirektionale Kommunikation zwischen Skalen. MSA erzeugt O(log N) Skalen, um das Bild über zunehmend gröbere Merkmale darzustellen, und nutzt Cross-Attention, um Informationen zwischen den Skalen zu propagieren. Anschließend stellen wir Atlas vor, eine neuartige neuronale Netzwerkarchitektur, die auf MSA basiert. Wir zeigen, dass Atlas den Kompromiss zwischen Rechenleistung und Modellierungsqualität bei langen Kontexten in einer hochauflösenden Variante von ImageNet 100 erheblich verbessert. Bei einer Auflösung von 1024px erreicht Atlas-B eine Genauigkeit von 91,04 %, was vergleichbar mit ConvNext-B (91,92 %) ist, während es 4,3-mal schneller ist. Atlas ist 2,95-mal schneller und 7,38 % besser als FasterViT sowie 2,25-mal schneller und 4,96 % besser als LongViT. Im Vergleich zu MambaVision-S erzielt Atlas-S bei 1024px, 2048px und 4096px eine um 5 %, 16 % bzw. 32 % höhere Genauigkeit, bei ähnlichen Laufzeiten. Der Code zur Reproduktion unserer Experimente sowie vortrainierte Modelle sind unter https://github.com/yalalab/atlas verfügbar.
Trotz rasanter Fortschritte bei KI-Benchmarks bleibt die reale Bedeutung der Benchmark-Leistung unklar. Um die Fähigkeiten von KI-Systemen in Bezug auf menschliche Fähigkeiten zu quantifizieren, schlagen wir eine neue Metrik vor: den 50%-Aufgabenabschluss-Zeithorizont. Dies ist die Zeit, die Menschen typischerweise benötigen, um Aufgaben zu erledigen, die KI-Modelle mit einer Erfolgsquote von 50 % bewältigen können. Zunächst haben wir die Zeit gemessen, die Menschen mit relevanter Domänenexpertise für eine Kombination aus RE-Bench, HCAST und 66 neuen kürzeren Aufgaben benötigen. Bei diesen Aufgaben liegt der 50%-Zeithorizont aktueller Spitzen-KI-Modelle wie Claude 3.7 Sonnet bei etwa 50 Minuten. Darüber hinaus hat sich der Zeithorizont von Spitzen-KI-Modellen seit 2019 ungefähr alle sieben Monate verdoppelt, wobei sich dieser Trend im Jahr 2024 möglicherweise beschleunigt hat. Die Zunahme der Zeithorizonte von KI-Modellen scheint hauptsächlich durch eine größere Zuverlässigkeit und die Fähigkeit, sich an Fehler anzupassen, sowie durch bessere logische Denkfähigkeiten und Werkzeugnutzungskompetenzen getrieben zu sein. Wir diskutieren die Grenzen unserer Ergebnisse – einschließlich ihres Grades an externer Validität – und die Implikationen einer zunehmenden Autonomie für gefährliche Fähigkeiten. Wenn sich diese Ergebnisse auf reale Softwareaufgaben übertragen lassen, sagt die Extrapolation dieses Trends voraus, dass KI-Systeme innerhalb von 5 Jahren in der Lage sein werden, viele Softwareaufgaben zu automatisieren, die derzeit einen Monat in Anspruch nehmen.
Die Verifikation ist entscheidend für effektives mathematisches Denken. Wir stellen eine neue Methode zur zeitlichen Konsistenz vor, bei der Verifizierer ihre Urteile iterativ auf der Grundlage der vorherigen Bewertung verfeinern. Im Gegensatz zu Ein-Runden-Verifikationen oder Multi-Modell-Debattenansätzen nutzt unsere Methode die Konsistenz in einer Abfolge von Selbstreflexionsaktionen, um die Verifikationsgenauigkeit zu verbessern. Empirische Auswertungen über verschiedene Benchmarks zur Identifikation von Fehlern in mathematischen Prozessen (Mathcheck, ProcessBench und PRM800K) zeigen durchgängige Leistungsverbesserungen gegenüber Baseline-Methoden. Bei der Anwendung auf die kürzlich destillierten DeepSeek-R1-Modelle demonstriert unsere Methode eine starke Leistung, wodurch destillierte 7B/8B-Modelle alle 70B/72B-Modelle und GPT-4o auf ProcessBench übertreffen. Bemerkenswerterweise erreicht das destillierte 14B-Modell mit unserer Methode eine Leistung, die mit DeepSeek-R1 vergleichbar ist. Unsere Codes sind verfügbar unter https://github.com/jcguo123/Temporal-Consistency.
Wir präsentieren Concat-ID, ein einheitliches Framework für die identitätserhaltende Videogenerierung. Concat-ID nutzt Variational Autoencoders, um Bildmerkmale zu extrahieren, die entlang der Sequenzdimension mit Video-Latents verkettet werden, wobei ausschließlich 3D-Selbstaufmerksamkeitsmechanismen ohne zusätzliche Module eingesetzt werden. Eine neuartige Cross-Video-Pairing-Strategie und ein mehrstufiges Trainingsregime werden eingeführt, um die Identitätskonsistenz und die Gesichtseditierbarkeit auszugleichen und gleichzeitig die Natürlichkeit des Videos zu verbessern. Umfangreiche Experimente demonstrieren die Überlegenheit von Concat-ID gegenüber bestehenden Methoden sowohl bei der Einzel- als auch bei der Multi-Identitätsgenerierung sowie seine nahtlose Skalierbarkeit auf Multi-Subjekt-Szenarien, einschließlich virtuellem Anprobieren und hintergrundkontrollierter Generierung. Concat-ID setzt einen neuen Maßstab für die identitätserhaltende Videosynthese und bietet eine vielseitige und skalierbare Lösung für eine breite Palette von Anwendungen.
Das logische Denken ist eine wesentliche Fähigkeit für große Sprachmodelle (LLMs), um komplexe Aufgaben zu bewältigen, wobei die Identifizierung von Prozessfehlern entscheidend für die Verbesserung dieser Fähigkeit ist. Kürzlich wurden prozessbasierte Belohnungsmodelle (PRMs) vorgeschlagen, die schrittweise Belohnungen bieten, die das bestärkende Lernen und die Datenerzeugung während des Trainings erleichtern und LLMs während der Inferenz zu korrekten Schritten führen, wodurch die Genauigkeit des logischen Denkens verbessert wird. Allerdings konzentrieren sich bestehende Benchmarks für PRMs auf textbasierte Fehlererkennung und vernachlässigen andere Szenarien wie die Suche nach logischen Schlussfolgerungen. Um diese Lücke zu schließen, führen wir MPBench ein, einen umfassenden, multidisziplinären und multimodalen Benchmark, der systematisch die Effektivität von PRMs in verschiedenen Szenarien bewertet. MPBench verwendet drei Evaluierungsparadigmen, die jeweils eine spezifische Rolle von PRMs im logischen Denkprozess adressieren: (1) Schrittkorrektheit, die die Korrektheit jedes Zwischenschritts im logischen Denken bewertet; (2) Antwortaggregation, die mehrere Lösungen zusammenfasst und die beste auswählt; und (3) Suche nach dem logischen Denkprozess, die die Suche nach optimalen Denkschritten während der Inferenz leitet. Durch diese Paradigmen ermöglicht MPBench umfassende Bewertungen und liefert Einblicke in die Entwicklung multimodaler PRMs.
Der vorherrschende Ansatz zur Weiterentwicklung der Text-zu-Bild-Generierung war das Skalieren während des Trainings, bei dem größere Modelle mit mehr Daten und unter Einsatz größerer Rechenressourcen trainiert werden. Obwohl dieser Ansatz effektiv ist, ist er rechenintensiv, was zu einem wachsenden Interesse am Skalieren während der Inferenz führt, um die Leistung zu verbessern. Derzeit beschränkt sich das Skalieren während der Inferenz für Text-zu-Bild-Diffusionsmodelle weitgehend auf das Best-of-N-Sampling, bei dem mehrere Bilder pro Prompt generiert werden und ein Auswahlmodell die beste Ausgabe auswählt. Inspiriert durch den jüngsten Erfolg von Reasoning-Modellen wie DeepSeek-R1 im Sprachbereich, führen wir eine Alternative zum naiven Best-of-N-Sampling ein, indem wir Text-zu-Bild-Diffusion-Transformer mit Fähigkeiten zur In-Kontext-Reflexion ausstatten. Wir schlagen Reflect-DiT vor, eine Methode, die es Diffusion-Transformern ermöglicht, ihre Generierungen mithilfe von In-Kontext-Beispielen zuvor generierter Bilder sowie textuellen Rückmeldungen, die notwendige Verbesserungen beschreiben, zu verfeinern. Anstatt sich passiv auf zufälliges Sampling zu verlassen und auf ein besseres Ergebnis in einer zukünftigen Generation zu hoffen, passt Reflect-DiT seine Generierungen explizit an, um spezifische Aspekte zu verbessern, die einer Optimierung bedürfen. Experimentelle Ergebnisse zeigen, dass Reflect-DiT die Leistung auf dem GenEval-Benchmark (+0,19) verbessert, wobei SANA-1.0-1.6B als Basismodell verwendet wird. Zudem erreicht es einen neuen State-of-the-art-Score von 0,81 auf GenEval, während nur 20 Samples pro Prompt generiert werden, und übertrifft damit den bisherigen Bestwert von 0,80, der mit einem deutlich größeren Modell (SANA-1.5-4.8B) und 2048 Samples unter dem Best-of-N-Ansatz erzielt wurde.
Multimodale große Sprachmodelle (MLLMs) zeichnen sich durch ihr Verständnis von 2D-Bildern aus, sind jedoch in ihrer Fähigkeit, 3D-Räume zu erfassen, noch begrenzt. In dieser Arbeit nutzen wir umfangreiche, hochwertige 3D-Szenendaten mit offenen Annotationen, um 1) einen neuartigen, überwachten Feinabstimmungsdatensatz und 2) einen neuen Evaluierungsbenchmark zu entwickeln, der sich auf Innenraumszenen konzentriert. Unser Cubify Anything VQA (CA-VQA)-Datensatz deckt vielfältige räumliche Aufgaben ab, einschließlich der Vorhersage räumlicher Beziehungen, der Schätzung metrischer Größen und Entfernungen sowie der 3D-Verankerung. Wir zeigen, dass CA-VQA es uns ermöglicht, MM-Spatial zu trainieren, ein leistungsstarkes generalistisches MLLM, das auch Spitzenleistungen auf 3D-räumlichen Verständnisbenchmarks, einschließlich unseres eigenen, erzielt. Wir demonstrieren, wie die Einbindung metrischer Tiefe und multiviewer Eingaben (bereitgestellt in CA-VQA) das 3D-Verständnis weiter verbessern kann, und zeigen, dass allein die Daten unserem Modell Tiefenwahrnehmungsfähigkeiten verleihen, die mit dedizierten monokularen Tiefenschätzmodellen vergleichbar sind. Wir werden unseren SFT-Datensatz und Benchmark veröffentlichen.
Trotz ihrer beeindruckenden Fähigkeiten stehen Multimodale Große Sprachmodelle (MLLMs) vor Herausforderungen bei der feingranularen Wahrnehmung und komplexen Schlussfolgerung. Vorherrschende multimodale Vortrainierungsansätze konzentrieren sich darauf, die Wahrnehmung durch das Training anhand hochwertiger Bildbeschreibungen zu verbessern, da die Sammlung von Chain-of-Thought (CoT)-Schlussfolgerungsdaten zur Verbesserung der Schlussfolgerung extrem kostspielig ist. Während die Nutzung fortschrittlicher MLLMs zur Generierung von Bildbeschreibungen die Skalierbarkeit erhöht, mangelt es den Ausgaben oft an Vollständigkeit und Genauigkeit. In diesem Artikel stellen wir Self-Improving Cognition (SIcog) vor, ein selbstlernendes Framework, das darauf abzielt, nächste Generationen von Foundation-MLLMs zu konstruieren, indem es deren systematische kognitive Fähigkeiten durch multimodales Vortraining mit selbstgenerierten Daten verbessert. Konkret schlagen wir Chain-of-Description vor, einen Ansatz, der die systematische Wahrnehmung eines MLLMs durch schrittweises visuelles Verständnis verbessert und so größere Vollständigkeit und Genauigkeit gewährleistet. Zusätzlich verwenden wir eine strukturierte CoT-Schlussfolgerungstechnik, um MLLMs zu befähigen, tiefgehende multimodale Schlussfolgerungen zu integrieren. Um ein Foundation-MLLM der nächsten Generation mit selbstverbesserter Kognition zu konstruieren, stattet SIcog zunächst ein MLLM mit systematischer Wahrnehmung und Schlussfolgerungsfähigkeiten unter Verwendung minimaler externer Annotationen aus. Die verbesserten Modelle generieren dann detaillierte Bildbeschreibungen und CoT-Schlussfolgerungsdaten, die durch Selbstkonsistenz weiter kuratiert werden. Diese kuratierten Daten werden schließlich für das multimodale Vortraining verwendet, um Foundation-Modelle der nächsten Generation zu entwickeln. Umfangreiche Experimente mit MLLMs sowohl in niedriger als auch in hoher Auflösung über diverse Benchmarks zeigen, dass SIcog mit lediglich 213K selbstgenerierten Vortrainingsdaten Foundation-MLLMs der nächsten Generation mit deutlich verbesserter Kognition erzeugt, die im Vergleich zu vorherrschenden Vortrainingsansätzen führende Benchmark-Leistungen erzielen.
Cross-lingualer Transfer ermöglicht es Vision-Sprache-Modellen (VLMs), Vision-Aufgaben in verschiedenen Sprachen auszuführen, obwohl sie nur mit Trainingsdaten in einer Sprache trainiert wurden. Aktuelle Ansätze stützen sich auf große, vortrainierte mehrsprachige Sprachmodelle. Diese stehen jedoch vor dem Fluch der Mehrsprachigkeit, bei dem die Leistung bei nachgelagerten Aufgaben zugunsten mehrsprachiger Fähigkeiten geopfert wird, mit lexikalischen Mehrdeutigkeiten kämpfen und hinter den jüngsten Fortschritten zurückbleiben. In dieser Arbeit untersuchen wir die Skalierungsgesetze der systematischen Generalisierung mit monolingualen VLMs für mehrsprachige Aufgaben, wobei wir den Einfluss der Modellgröße und der gesehenen Trainingsdaten betrachten. Wir stellen Florenz vor, ein monolinguales Encoder-Decoder-VLM mit 0,4 bis 11,2 Milliarden Parametern, das das vortrainierte VLM Florence-2 und das große Sprachmodell Gemma-2 kombiniert. Florenz wird mit variierenden Rechenbudgets auf einem synthetischen Datensatz trainiert, der bewusst unvollständige Sprachabdeckung für Bildbeschreibungen aufweist, wodurch die Generalisierung von der vollständig abgedeckten Übersetzungsaufgabe getestet wird. Wir zeigen, dass nicht nur das indirekte Lernen von unbekannten Aufgaben-Sprach-Paaren einem Skalierungsgesetz folgt, sondern auch, dass mit unserer Daten-Generierungspipeline und der vorgeschlagenen Florenz-Modellfamilie Bildbeschreibungsfähigkeiten in einer bestimmten Sprache entstehen können, selbst wenn nur Daten für die Übersetzungsaufgabe verfügbar sind. Das Feinabstimmen auf einer Mischung von nachgelagerten Datensätzen erzielt wettbewerbsfähige Leistungen und zeigt vielversprechende Skalierungstrends in der multimodalen maschinellen Übersetzung (Multi30K, CoMMuTE), lexikalischen Disambiguierung (CoMMuTE) und Bildbeschreibung (Multi30K, XM3600, COCO Karpathy).
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten in verschiedenen Aufgaben der natürlichen Sprachverarbeitung gezeigt. Um jedoch eine starke Leistung in spezialisierten Domänen wie mathematischem Denken und nicht-englischen Sprachen zu erreichen, ist oft ein umfangreiches Training auf massiven Datensätzen erforderlich. Dieses Papier untersucht einen kontrastierenden Ansatz: das strategische Feinabstimmen auf einem kleinen, hochwertigen, zweisprachigen (Englisch-Französisch) Datensatz, um sowohl die Denkfähigkeiten als auch die Französischkenntnisse eines großen Sprachmodells zu verbessern. Anstatt uns auf die Größe zu verlassen, untersuchen wir die Hypothese, dass gezielte Datenkuratierung und optimiertes Training eine wettbewerbsfähige oder sogar überlegene Leistung erzielen können. Wir zeigen durch gezieltes überwachtes Feinabstimmen (SFT) auf nur 2.000 sorgfältig ausgewählten Proben signifikante Verbesserungen im mathematischen Denken. Insbesondere weist Pensez 7B eine Steigerung der Genauigkeit des Basismodells um bis zu 20 % auf dem AIME25 und eine 12 %ige Steigerung auf einem französischen MATH-Level-5-Benchmark auf. Diese Ergebnisse stellen die vorherrschende Annahme in Frage, dass massive Datensätze eine Voraussetzung für eine starke Denkleistung in LLMs sind, und heben das Potenzial der strategischen Datenkuratierung und des optimierten Feinabstimmens zur Verbesserung sowohl spezialisierter Fähigkeiten als auch mehrsprachiger Kompetenzen hervor. Unsere Erkenntnisse haben Implikationen für die effiziente Entwicklung von leistungsstarken, mehrsprachigen LLMs, insbesondere in ressourcenbeschränkten Szenarien.
In den letzten Jahren haben Multimodale Große Sprachmodelle (MLLMs) bemerkenswerte Fortschritte in Aufgaben wie visueller Fragebeantwortung, visuellem Verständnis und logischem Schlussfolgern gezeigt. Dieser beeindruckende Fortschritt beruht jedoch auf großen Datenmengen, die aus dem Internet gesammelt wurden, was erhebliche Bedenken hinsichtlich Datenschutz und Sicherheit aufwirft. Um diese Probleme zu adressieren, hat sich das maschinelle Verlernen (Machine Unlearning, MU) als vielversprechende Lösung etabliert, das die Entfernung spezifischen Wissens aus einem bereits trainierten Modell ermöglicht, ohne dass eine Neuanpassung von Grund auf erforderlich ist. Obwohl MU für MLLMs zunehmend Aufmerksamkeit erregt, bleiben aktuelle Bewertungen seiner Wirksamkeit unvollständig, und das zugrunde liegende Problem ist oft unzureichend definiert, was die Entwicklung von Strategien zur Schaffung sichererer und vertrauenswürdigerer Systeme behindert. Um diese Lücke zu schließen, stellen wir einen Benchmark namens PEBench vor, der einen Datensatz von persönlichen Entitäten und entsprechenden allgemeinen Ereignisszenarien umfasst, der darauf abzielt, die Leistung von MU für MLLMs umfassend zu bewerten. Mit PEBench streben wir an, einen standardisierten und robusten Rahmen zu schaffen, um die Forschung in sicheren und datenschutzbewahrenden multimodalen Modellen voranzutreiben. Wir haben 6 MU-Methoden getestet, um ihre Stärken und Schwächen aufzuzeigen und wichtige Herausforderungen sowie Chancen für MU in MLLMs zu beleuchten.
Eine ideale Modellbewertung sollte zwei Ziele erreichen: die Identifizierung von Schwachstellen des Modells und die Bereitstellung von umsetzbaren Verbesserungsempfehlungen. Um diese Ziele für die Bewertung von Sprachmodellen (Language Models, LMs) zu erreichen, formulieren wir das Problem der Erstellung eines Schwachstellenprofils, einer Sammlung von Schwachstellen, die in natürlicher Sprache ausgedrückt werden, basierend auf der Leistung eines LMs bei jedem einzelnen Instanz eines Benchmarks. Wir führen eine Reihe von quantitativen Bewertungen ein, um verschiedene Methoden zur Erstellung von Schwachstellenprofilen zu vergleichen. Zudem schlagen wir eine Methode zur Schwachstellenprofilierung vor, EvalTree. Diese konstruiert einen Fähigkeitsbaum, bei dem jeder Knoten eine in natürlicher Sprache beschriebene Fähigkeit repräsentiert und mit einer Teilmenge von Benchmark-Instanzen verknüpft ist, die speziell diese Fähigkeit bewerten; anschließend extrahiert sie Knoten, bei denen das LM schlecht abschneidet, um ein Schwachstellenprofil zu erstellen. Auf den Benchmarks MATH und WildChat zeigen wir, dass EvalTree Baseline-Methoden zur Schwachstellenprofilierung übertrifft, indem es Schwachstellen präziser und umfassender identifiziert. Die Schwachstellenprofilierung ermöglicht zudem eine schwachengeleitete Datensammlung, und die durch EvalTree identifizierten Schwachstellen geleitete Sammlung von Trainingsdaten verbessert die Leistung des LMs stärker als andere Datensammlungsstrategien. Wir zeigen auch, wie EvalTree Schwächen in der auf menschlichen Bewertungen basierenden Praxis von Chatbot Arena aufdeckt. Um zukünftige Arbeiten zu erleichtern, veröffentlichen wir unseren Code und eine Schnittstelle, die es Praktikern ermöglicht, die von EvalTree erstellten Fähigkeitsbäume interaktiv zu erkunden.
Multimodale Large Language Models (MLLMs) haben beeindruckende Fähigkeiten im Bereich des logischen Denkens gezeigt, sind jedoch mit erheblichen Rechenkosten verbunden, was ihren Einsatz in ressourcenbeschränkten Umgebungen einschränkt. Trotz jüngster Bemühungen zur Verbesserung der Effizienz von MLLMs reichen bisherige Lösungen nicht aus, um auf variable Laufzeitbedingungen zu reagieren, insbesondere bei sich ändernder Ressourcenverfügbarkeit (z. B. durch die Ausführung anderer Programme auf dem Gerät verursachte Konkurrenz). Um diese Lücke zu schließen, stellen wir AdaLLaVA vor, ein adaptives Inferenz-Framework, das lernt, die Operationen eines MLLMs während der Inferenz dynamisch neu zu konfigurieren, wobei sowohl die Eingabedaten als auch ein Latenzbudget berücksichtigt werden. Wir führen umfangreiche Experimente über Benchmarks durch, die Fragenbeantwortung, logisches Denken und Halluzinationen umfassen. Unsere Ergebnisse zeigen, dass AdaLLaVA effektiv an das vorgegebene Latenzbudget der Eingabe angepasst wird und dabei verschiedene Kompromisse zwischen Genauigkeit und Latenz zur Laufzeit erreicht. Darüber hinaus demonstrieren wir, dass AdaLLaVA sowohl an die Eingabelatenz als auch an den Inhalt angepasst werden kann, mit Token-Auswahl für eine verbesserte Effizienz integriert werden kann und sich über verschiedene MLLMs verallgemeinern lässt. Unsere Projektwebseite mit Code-Veröffentlichung finden Sie unter https://zhuoyan-xu.github.io/ada-llava/.
Graph Domain Adaptation hat sich als vielversprechender Ansatz etabliert, um Wissenstransfer über verschiedene Domänen hinweg zu ermöglichen. In jüngster Zeit wurden zahlreiche Modelle vorgeschlagen, um die Generalisierungsfähigkeiten in diesem Bereich zu verbessern. Dennoch gibt es noch keine einheitliche Bibliothek, die bestehende Techniken zusammenführt und deren Implementierung vereinfacht. Um diese Lücke zu schließen, stellen wir PyGDA vor, eine Open-Source-Python-Bibliothek, die speziell für Graph Domain Adaptation entwickelt wurde. Als erste umfassende Bibliothek in diesem Bereich deckt PyGDA mehr als 20 weit verbreitete Methoden zur Graph Domain Adaptation ab, zusammen mit verschiedenen Arten von Graph-Datensätzen. Insbesondere bietet PyGDA modulare Komponenten, die es Benutzern ermöglichen, nahtlos benutzerdefinierte Modelle mit einer Vielzahl von häufig verwendeten Hilfsfunktionen zu erstellen. Um große Graphen zu verarbeiten, unterstützt PyGDA Funktionen wie Sampling und Mini-Batch-Verarbeitung, um eine effiziente Berechnung zu gewährleisten. Darüber hinaus enthält PyGDA umfassende Leistungsbenchmarks und eine gut dokumentierte, benutzerfreundliche API für Forscher und Praktiker. Um eine bequeme Zugänglichkeit zu fördern, wird PyGDA unter der MIT-Lizenz unter https://github.com/pygda-team/pygda veröffentlicht, und die API-Dokumentation ist unter https://pygda.readthedocs.io/en/stable/ verfügbar.
Generative Modelle haben in letzter Zeit bemerkenswerte Fortschritte im Bereich der 3D-Objekte erzielt. Ihre praktische Anwendung in Bereichen wie dem Ingenieurwesen bleibt jedoch begrenzt, da sie die für domänenspezifische Aufgaben erforderliche Genauigkeit, Qualität und Steuerbarkeit nicht liefern können. Das Feinabstimmen großer generativer Modelle stellt eine vielversprechende Perspektive dar, um diese Modelle in diesen Bereichen nutzbar zu machen. Die Erstellung hochwertiger, domänenspezifischer 3D-Datensätze ist entscheidend für das Feinabstimmen großer generativer Modelle, doch der Prozess der Datenfilterung und Annotation bleibt ein erheblicher Engpass. Wir präsentieren MeshFleet, einen gefilterten und annotierten 3D-Fahrzeugdatensatz, der aus Objaverse-XL, der umfangreichsten öffentlich verfügbaren Sammlung von 3D-Objekten, extrahiert wurde. Unser Ansatz schlägt eine Pipeline für die automatisierte Datenfilterung basierend auf einem Qualitätsklassifikator vor. Dieser Klassifikator wird auf einem manuell beschrifteten Teil von Objaverse trainiert, wobei DINOv2- und SigLIP-Einbettungen verwendet werden, die durch eine beschreibungsbasierte Analyse und Unsicherheitsschätzung verfeinert werden. Wir demonstrieren die Wirksamkeit unserer Filtermethode durch eine vergleichende Analyse gegenüber Techniken, die auf Beschreibungen und ästhetischen Bildbewertungen basieren, sowie durch Feinabstimmungsexperimente mit SV3D, und unterstreichen die Bedeutung einer gezielten Datenauswahl für die domänenspezifische 3D-Generierungsmodellierung.
Die Bewältigung der Herausforderung, unsichere Inhalte aus Vision-Sprache-Modellen wie CLIP abzurufen, ist ein wichtiger Schritt hin zur Integration in die reale Welt. Bisherige Bemühungen haben sich auf Unlearning-Techniken gestützt, die versuchen, das Wissen des Modells über unsichere Konzepte zu löschen. Obwohl diese Techniken effektiv darin sind, unerwünschte Ausgaben zu reduzieren, schränken sie die Fähigkeit des Modells ein, zwischen sicheren und unsicheren Inhalten zu unterscheiden. In dieser Arbeit führen wir einen neuartigen Ansatz ein, der vom Unlearning zu einem Bewusstseinsparadigma übergeht, indem die inhärenten hierarchischen Eigenschaften des hyperbolischen Raums genutzt werden. Wir schlagen vor, sichere und unsichere Inhalte als eine Hierarchie der Implikation zu kodieren, wobei beide in verschiedenen Regionen des hyperbolischen Raums platziert werden. Unser HySAC, Hyperbolic Safety-Aware CLIP, verwendet Implikationsverlustfunktionen, um die hierarchischen und asymmetrischen Beziehungen zwischen sicheren und unsicheren Bild-Text-Paaren zu modellieren. Diese Modellierung, die in Standard-Vision-Sprache-Modellen aufgrund ihrer Abhängigkeit von euklidischen Einbettungen unwirksam ist, verleiht dem Modell ein Bewusstsein für unsichere Inhalte, wodurch es sowohl als multimodaler unsicherer Klassifikator als auch als flexibler Inhaltsabrufer dienen kann, mit der Möglichkeit, unsichere Anfragen dynamisch auf sicherere Alternativen umzuleiten oder die ursprüngliche Ausgabe beizubehalten. Umfangreiche Experimente zeigen, dass unser Ansatz nicht nur die Sicherheitserkennung verbessert, sondern auch ein anpassungsfähigeres und interpretierbareres Rahmenwerk für die Inhaltsmoderation in Vision-Sprache-Modellen etabliert. Unser Quellcode ist verfügbar unter https://github.com/aimagelab/HySAC.
Mit dem rasanten Fortschritt großer Sprachmodelle (LLMs) und visuell-sprachlicher Modelle (VLMs) wurden bedeutende Fortschritte bei der Entwicklung offener Vokabular-Robotermanipulationssysteme erzielt. Viele bestehende Ansätze übersehen jedoch die Bedeutung der Objektdynamik, was ihre Anwendbarkeit auf komplexere, dynamische Aufgaben einschränkt. In dieser Arbeit stellen wir KUDA vor, ein offenes Vokabular-Manipulationssystem, das Dynamiklernen und visuelle Prompting durch Keypoints integriert und dabei sowohl VLMs als auch lernbasierte neuronale Dynamikmodelle nutzt. Unsere zentrale Erkenntnis ist, dass eine keypoint-basierte Zielangabe sowohl von VLMs interpretierbar ist als auch effizient in Kostenfunktionen für modellbasierte Planung übersetzt werden kann. Bei gegebenen Sprachanweisungen und visuellen Beobachtungen weist KUDA zunächst Keypoints dem RGB-Bild zu und befragt das VLM, um Zielangaben zu generieren. Diese abstrakten keypoint-basierten Darstellungen werden dann in Kostenfunktionen umgewandelt, die mithilfe eines gelernten Dynamikmodells optimiert werden, um Robotertrajektorien zu erzeugen. Wir evaluieren KUDA in einer Reihe von Manipulationsaufgaben, darunter freie Sprachanweisungen über diverse Objektkategorien, Multi-Objekt-Interaktionen sowie deformierbare oder granulare Objekte, und demonstrieren die Effektivität unseres Frameworks. Die Projektseite ist unter http://kuda-dynamics.github.io verfügbar.
Roadside Collaborative Perception bezeichnet ein System, bei dem mehrere Straßeneinheiten zusammenarbeiten, um ihre Wahrnehmungsdaten zu bündeln und Fahrzeuge bei der Verbesserung ihrer Umgebungswahrnehmung zu unterstützen. Bisherige Methoden zur Straßenwahrnehmung konzentrieren sich auf das Modelldesign, vernachlässigen jedoch Datenprobleme wie Kalibrierungsfehler, spärliche Informationen und Multi-View-Konsistenz, was zu schlechten Leistungen in kürzlich veröffentlichten Datensätzen führt. Um die Straßenkollaborationswahrnehmung erheblich zu verbessern und kritische Datenprobleme zu lösen, präsentieren wir das erste Simulationsframework RoCo-Sim für die Straßenkollaborationswahrnehmung. RoCo-Sim ist in der Lage, vielfältige, multi-view-konsistente simulierte Straßendaten durch dynamische Vordergrundbearbeitung und vollständige Szenenstilübertragung eines einzelnen Bildes zu generieren. RoCo-Sim besteht aus vier Komponenten: (1) Die Camera Extrinsic Optimization stellt eine genaue 3D-zu-2D-Projektion für Straßenkameras sicher; (2) Ein neuartiger Multi-View Occlusion-Aware Sampler (MOAS) bestimmt die Platzierung verschiedener digitaler Assets im 3D-Raum; (3) DepthSAM modelliert innovativ Vordergrund-Hintergrund-Beziehungen aus Einzelbildern mit festem Blickwinkel und gewährleistet die Multi-View-Konsistenz des Vordergrunds; und (4) Ein skalierbares Nachbearbeitungstoolkit erzeugt durch Stilübertragung und andere Verbesserungen realistischere und angereicherte Szenen. RoCo-Sim verbessert die 3D-Objekterkennung an Straßen erheblich und übertrifft SOTA-Methoden um 83,74 auf Rcooper-Intersection und 83,12 auf TUMTraf-V2X für AP70. RoCo-Sim schließt eine kritische Lücke in der Simulation der Straßenwahrnehmung. Code und vortrainierte Modelle werden bald veröffentlicht: https://github.com/duyuwen-duen/RoCo-Sim
Fahrzeug-zu-Fahrzeug (V2V) kooperatives autonomes Fahren birgt großes Potenzial, die Sicherheit zu verbessern, indem es die Wahrnehmungs- und Vorhersageunsicherheiten adressiert, die in Einzelagentensystemen inhärent sind. Traditionelle kooperative Methoden sind jedoch durch starre Zusammenarbeitsprotokolle und begrenzte Generalisierungsfähigkeit auf unbekannte interaktive Szenarien eingeschränkt. Während LLM-basierte Ansätze generalisierte Fähigkeiten zur Schlussfolgerung bieten, behindern ihre Herausforderungen in der räumlichen Planung und die instabile Inferenzlatenz ihre direkte Anwendung im kooperativen Fahren. Um diese Einschränkungen zu überwinden, schlagen wir CoLMDriver vor, das erste vollständige LLM-basierte kooperative Fahrersystem, das eine effektive sprachbasierte Verhandlung und Echtzeit-Fahrkontrolle ermöglicht. CoLMDriver verfügt über eine parallele Fahrpipeline mit zwei Schlüsselkomponenten: (i) ein LLM-basiertes Verhandlungsmodul unter einem Actor-Critic-Paradigma, das kontinuierlich Kooperationsrichtlinien durch Feedback aus früheren Entscheidungen aller Fahrzeuge verfeinert; und (ii) ein intentionsgesteuerter Wegpunktgenerator, der Verhandlungsergebnisse in ausführbare Wegpunkte übersetzt. Zusätzlich stellen wir InterDrive vor, einen CARLA-basierten Simulationsbenchmark, der 10 herausfordernde interaktive Fahrszenarien zur Bewertung der V2V-Kooperation umfasst. Experimentelle Ergebnisse zeigen, dass CoLMDriver bestehende Ansätze deutlich übertrifft und eine um 11 % höhere Erfolgsrate in verschiedenen hochinteraktiven V2V-Fahrszenarien erreicht. Der Code wird auf https://github.com/cxliu0314/CoLMDriver veröffentlicht.