Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Obwohl reasoning-basierte große Sprachmodelle (LLMs) in Mathematik und Programmierung hervorragende Leistungen erbracht haben, sind ihre Fähigkeiten im Bereich der wissensintensiven medizinischen Fragebeantwortung noch weitgehend unerforscht. Um dies zu adressieren, stellen wir ReasonMed vor, den größten medizinischen Reasoning-Datensatz, der 370.000 hochwertige Beispiele umfasst, die aus 1,7 Millionen initialen Reasoning-Pfaden destilliert wurden, die von verschiedenen LLMs generiert wurden. ReasonMed wird durch einen Multi-Agenten-Verifizierungs- und Verfeinerungsprozess konstruiert, bei dem wir einen Error Refiner entwerfen, um die Reasoning-Pfade zu verbessern, indem fehleranfällige Schritte identifiziert und korrigiert werden, die von einem Verifizierer markiert wurden. Durch die Nutzung von ReasonMed untersuchen wir systematisch Best Practices für das Training von medizinischen Reasoning-Modellen und stellen fest, dass die Kombination von detailliertem Chain-of-Thought (CoT) Reasoning mit prägnanten Antwortzusammenfassungen die effektivste Feinabstimmungsstrategie darstellt. Basierend auf dieser Strategie trainieren wir ReasonMed-7B, das einen neuen Maßstab für Modelle unter 10B setzt und das bisher beste Modell um 4,17 % übertrifft und sogar LLaMA3.1-70B auf PubMedQA um 4,60 % übertrifft.
Die Erstellung groß angelegter Datensätze für die Aufgabe der GitHub-Issue-Behebung ist entscheidend für das Training und die Bewertung der Softwareentwicklungsfähigkeiten von Large Language Models (LLMs). Der traditionelle Prozess zur Erstellung solcher Benchmarks ist jedoch bekanntlich herausfordernd und arbeitsintensiv, insbesondere in den Phasen der Einrichtung von Evaluierungsumgebungen, der Bewertung von Testergebnissen und der Validierung von Aufgabeninstanzen. In diesem Artikel stellen wir SWE-Factory vor, eine automatisierte Pipeline, die entwickelt wurde, um diese Herausforderungen zu bewältigen. Um diese Probleme anzugehen, integriert unsere Pipeline drei Kernkomponenten der Automatisierung. Zunächst führen wir SWE-Builder ein, ein Multi-Agenten-System, das die Konstruktion von Evaluierungsumgebungen automatisiert. Es verwendet vier spezialisierte Agenten, die in einer kollaborativen, iterativen Schleife arbeiten und einen Umgebungsspeicherpool nutzen, um die Effizienz zu steigern. Zweitens führen wir eine standardisierte, exitcode-basierte Bewertungsmethode ein, die den manuellen Schreibaufwand für benutzerdefinierte Parser überflüssig macht. Schließlich automatisieren wir den Fail2Pass-Validierungsprozess mithilfe dieser zuverlässigen Exitcode-Signale. Experimente mit 671 Issues in vier Programmiersprachen zeigen, dass unsere Pipeline effektiv gültige Aufgabeninstanzen konstruieren kann; zum Beispiel konstruiert unser SWE-Builder mit GPT-4.1-mini 269 gültige Instanzen zu einem Preis von 0,045 pro Instanz, während er mit Gemini-2.5-flash eine vergleichbare Leistung zum niedrigsten Preis von 0,024 pro Instanz erzielt. Wir zeigen auch, dass unsere exitcode-basierte Bewertung im Vergleich zur manuellen Überprüfung eine Genauigkeit von 100 % erreicht und unsere automatisierte Fail2Pass-Validierung eine Präzision von 0,92 und einen Recall von 1,00 erzielt. Wir hoffen, dass unsere automatisierte Pipeline die Sammlung groß angelegter, hochwertiger GitHub-Issue-Behebungsdatensätze für Training und Bewertung beschleunigen wird. Unser Code und unsere Datensätze sind unter https://github.com/DeepSoftwareAnalytics/swe-factory veröffentlicht.
Die Bildrestauration zielt darauf ab, degradierte Bilder wiederherzustellen. Allerdings haben bestehende, auf Diffusion basierende Restaurationsmethoden, trotz großer Erfolge bei der Restauration natürlicher Bilder, oft Schwierigkeiten, Textbereiche in degradierten Bildern treu zu rekonstruieren. Diese Methoden erzeugen häufig plausible, aber falsche textähnliche Muster, ein Phänomen, das wir als Text-Bild-Halluzination bezeichnen. In diesem Artikel führen wir die Text-Aware Image Restoration (TAIR) ein, eine neuartige Restaurationsaufgabe, die die gleichzeitige Wiederherstellung visueller Inhalte und textlicher Genauigkeit erfordert. Um diese Aufgabe zu bewältigen, präsentieren wir SA-Text, einen groß angelegten Benchmark mit 100K hochwertigen Szenenbildern, die dicht mit vielfältigen und komplexen Textinstanzen annotiert sind. Darüber hinaus schlagen wir ein Multi-Task-Diffusionsframework namens TeReDiff vor, das interne Merkmale von Diffusionsmodellen in ein Text-Spotting-Modul integriert, wodurch beide Komponenten von einem gemeinsamen Training profitieren können. Dies ermöglicht die Extraktion reichhaltiger Textrepräsentationen, die als Prompts in nachfolgenden Denoising-Schritten verwendet werden. Umfangreiche Experimente zeigen, dass unser Ansatz durchweg state-of-the-art Restaurationsmethoden übertrifft und signifikante Verbesserungen in der Texterkennungsgenauigkeit erzielt. Besuchen Sie unsere Projektseite: https://cvlab-kaist.github.io/TAIR/
Wir stellen Magistral vor, Mistrals erstes Reasoning-Modell und unsere eigene skalierbare Reinforcement Learning (RL)-Pipeline. Anstatt auf bestehende Implementierungen und RL-Traces zurückzugreifen, die aus früheren Modellen destilliert wurden, verfolgen wir einen Bottom-up-Ansatz und verlassen uns ausschließlich auf unsere eigenen Modelle und Infrastruktur. Insbesondere demonstrieren wir einen Stack, der es uns ermöglichte, die Grenzen des reinen RL-Trainings von LLMs zu erkunden, präsentieren eine einfache Methode, um die Reasoning-Sprache des Modells zu steuern, und zeigen, dass RL auf Textdaten allein die meisten Fähigkeiten des Ausgangs-Checkpoints beibehält. Wir stellen fest, dass RL auf Text das multimodale Verständnis, die Befolgung von Anweisungen und den Funktionsaufruf erhält oder sogar verbessert. Wir präsentieren Magistral Medium, das ausschließlich mit RL auf Basis von Mistral Medium 3 für Reasoning trainiert wurde, und veröffentlichen Magistral Small (Apache 2.0) als Open-Source, das zusätzlich Cold-Start-Daten von Magistral Medium enthält.
Trotz rasanter Fortschritte bei Videogenerierungsmodellen bleibt die Erzeugung kohärenter erzählerischer Videos, die mehrere Szenen und Charaktere umfassen, eine Herausforderung. Aktuelle Methoden konvertieren oft vorgefertigte Keyframes starr in Clips fester Länge, was zu zusammenhanglosen Erzählungen und Tempoproblemen führt. Darüber hinaus bedeutet die inhärente Instabilität von Videogenerierungsmodellen, dass bereits ein einziger qualitativ minderwertiger Clip die logische Kohärenz und visuelle Kontinuität der gesamten Ausgabeanimation erheblich beeinträchtigen kann. Um diese Hindernisse zu überwinden, stellen wir AniMaker vor, ein Multi-Agenten-Framework, das eine effiziente Generierung mehrerer Clip-Kandidaten und eine erzählungsbewusste Clip-Auswahl ermöglicht und somit global konsistente und erzählerisch kohärente Animationen allein aus Texteingaben erzeugt. Das Framework ist um spezialisierte Agenten strukturiert, darunter den Director Agent für die Erstellung von Storyboards, den Photography Agent für die Generierung von Videoclips, den Reviewer Agent für die Bewertung und den Post-Production Agent für die Bearbeitung und Sprachaufnahmen. Zentral für den Ansatz von AniMaker sind zwei Schlüsselkomponenten: MCTS-Gen im Photography Agent, eine effiziente, vom Monte-Carlo-Baumsuchverfahren (MCTS) inspirierte Strategie, die den Kandidatenraum intelligent durchsucht, um Clips mit hohem Potenzial zu generieren und dabei die Ressourcennutzung zu optimieren; und AniEval im Reviewer Agent, das erste Framework, das speziell für die Bewertung von Mehrschussanimationen entwickelt wurde und kritische Aspekte wie konsistente Erzählung, Handlungsabschluss und animationsspezifische Merkmale bewertet, indem jeder Clip im Kontext seiner vorhergehenden und nachfolgenden Clips betrachtet wird. Experimente zeigen, dass AniMaker eine überlegene Qualität gemessen an gängigen Metriken wie VBench und unserem vorgeschlagenen AniEval-Framework erreicht, während es die Effizienz der Generierung mehrerer Kandidaten erheblich verbessert und damit KI-generierte erzählerische Animationen näher an Produktionsstandards heranführt.
Wir präsentieren VRBench, den ersten Benchmark für lange narrative Videos, der speziell zur Bewertung der mehrstufigen Denkfähigkeiten großer Modelle entwickelt wurde. Er adressiert die Einschränkungen bestehender Evaluierungen, die zeitliches Denken und prozedurale Gültigkeit vernachlässigen. VRBench umfasst 1.010 lange Videos (mit einer durchschnittlichen Dauer von 1,6 Stunden) sowie 9.468 von Menschen annotierte mehrstufige Frage-Antwort-Paare und 30.292 Denkschritte mit Zeitstempeln. Diese Videos wurden durch einen mehrstufigen Filterprozess kuratiert, der eine Expertenbewertung zur Sicherstellung der Handlungskohärenz beinhaltet. Wir entwickeln ein Mensch-KI-Kollaborationsframework, das kohärente Denkketten erzeugt, die jeweils mehrere zeitlich verankerte Schritte erfordern und sieben Kategorien (z. B. Ereigniszuschreibung, implizite Schlussfolgerung) abdecken. VRBench entwirft eine mehrphasige Evaluationspipeline, die Modelle sowohl auf Ergebnis- als auch auf Prozessebene bewertet. Neben Multiple-Choice-Fragen (MCQs) für die Endergebnisse schlagen wir eine Fortschrittsbewertung vor, die durch ein LLM gesteuert wird, um die Qualität der Denkkette aus mehreren Dimensionen umfassend zu bewerten. Durch umfangreiche Evaluierungen von 12 LLMs und 16 VLMs auf VRBench führen wir eine detaillierte Analyse durch und liefern wertvolle Erkenntnisse, die das Feld des mehrstufigen Denkens voranbringen.
Diskrete Audio-Token sind kompakte Darstellungen, die darauf abzielen, die wahrgenommene Qualität, den phonetischen Inhalt und die Sprechermerkmale zu bewahren, während sie gleichzeitig eine effiziente Speicherung und Inferenz sowie eine wettbewerbsfähige Leistung über verschiedene nachgelagerte Aufgaben hinweg ermöglichen. Sie bieten eine praktische Alternative zu kontinuierlichen Merkmalen und ermöglichen die Integration von Sprache und Audio in moderne große Sprachmodelle (LLMs). Mit dem wachsenden Interesse an token-basierter Audioverarbeitung sind verschiedene Tokenisierungsmethoden entstanden, und mehrere Übersichtsarbeiten haben die neuesten Fortschritte auf diesem Gebiet zusammengefasst. Bestehende Studien konzentrieren sich jedoch oft auf spezifische Domänen oder Aufgaben und fehlt ein einheitlicher Vergleich über verschiedene Benchmarks hinweg. Diese Arbeit präsentiert eine systematische Übersicht und einen Benchmark von diskreten Audio-Tokenizern, die drei Domänen abdecken: Sprache, Musik und allgemeines Audio. Wir schlagen eine Taxonomie von Tokenisierungsansätzen vor, die auf Encoder-Decoder, Quantisierungstechniken, Trainingsparadigma, Streamability und Anwendungsdomänen basiert. Wir bewerten Tokenizer anhand mehrerer Benchmarks für Rekonstruktion, nachgelagerte Leistung und akustische Sprachmodellierung und analysieren Kompromisse durch kontrollierte Ablationsstudien. Unsere Ergebnisse heben wichtige Einschränkungen, praktische Überlegungen und offene Herausforderungen hervor und bieten Einblicke und Leitlinien für zukünftige Forschungen in diesem sich schnell entwickelnden Bereich. Für weitere Informationen, einschließlich unserer Hauptergebnisse und der Tokenizer-Datenbank, besuchen Sie bitte unsere Website: https://poonehmousavi.github.io/dates-website/.
Wir stellen~Domain2Vec vor, einen neuartigen Ansatz, der jeden Datensatz in eine lineare Kombination mehrerer Meta-Domänen zerlegt, ein neues Konzept, das entwickelt wurde, um die wesentlichen zugrunde liegenden Merkmale von Datensätzen zu erfassen. Domain2Vec verwaltet ein Vokabular von Meta-Domänen und verwendet einen Klassifikator, um einen gegebenen Datensatz in einen Domänenvektor zu zerlegen, der einer Verteilung über dieses Vokabular entspricht. Diese Domänenvektoren ermöglichen die Identifizierung der optimalen Datenmischung für das Vortraining von Sprachmodellen (LM) auf trainingsfreie Weise unter der \textbf{Verteilungsausrichtungsannahme} (DA^{2}), die besagt, dass bei besserer Ausrichtung der Datenverteilungen des Trainings- und Validierungssatzes ein geringerer Validierungsverlust erreicht wird. Darüber hinaus kann Domain2Vec nahtlos in frühere Arbeiten integriert werden, um die Beziehung zwischen Domänenvektoren und der Leistung von Sprachmodellen zu modellieren, wodurch die Effizienz und Skalierbarkeit früherer Methoden erheblich verbessert wird. Umfangreiche Experimente zeigen, dass Domain2Vec die Datenmischung findet, die die Leistung bei nachgelagerten Aufgaben mit minimalem Rechenaufwand verbessert. Insbesondere erreicht Domain2Vec denselben Validierungsverlust auf Pile-CC mit nur 51,5 % des Rechenaufwands, der beim Training auf der ursprünglichen Mischung des Pile-Datensatzes erforderlich ist. Bei gleichem Rechenbudget verbessert Domain2Vec die nachgelagerte Leistung im Durchschnitt um 2,83 %.
Aktuelle Steuerungsmethoden in Diffusionsmodellen lenken das umgekehrte Sampling, indem sie das Modell stören, um ein implizites schwaches Modell zu konstruieren und die Generierung davon wegzuführen. Unter diesen Ansätzen hat die Aufmerksamkeitsstörung in unkonditionierten Szenarien, in denen eine klassifikatorfreie Steuerung nicht anwendbar ist, starke empirische Leistung gezeigt. Allerdings fehlt es bestehenden Methoden zur Aufmerksamkeitsstörung an prinzipiellen Ansätzen zur Bestimmung, wo Störungen angewendet werden sollten, insbesondere in Diffusion Transformer (DiT)-Architekturen, bei denen qualitätsrelevante Berechnungen über Schichten verteilt sind. In diesem Artikel untersuchen wir die Granularität von Aufmerksamkeitsstörungen, von der Schichtebene bis hin zu einzelnen Aufmerksamkeitsköpfen, und entdecken, dass bestimmte Köpfe unterschiedliche visuelle Konzepte wie Struktur, Stil und Texturqualität steuern. Aufbauend auf dieser Erkenntnis schlagen wir "HeadHunter" vor, ein systematisches Framework zur iterativen Auswahl von Aufmerksamkeitsköpfen, die mit benutzerzentrierten Zielen übereinstimmen und eine fein abgestimmte Kontrolle über die Generierungsqualität und visuelle Attribute ermöglichen. Zusätzlich führen wir SoftPAG ein, das die Aufmerksamkeitskarte jedes ausgewählten Kopfes linear in Richtung einer Identitätsmatrix interpoliert und somit einen kontinuierlichen Regler zur Einstellung der Störstärke und Unterdrückung von Artefakten bietet. Unser Ansatz mildert nicht nur die Überglättungsprobleme bestehender Schichtebenenstörungen, sondern ermöglicht auch die gezielte Manipulation spezifischer visueller Stile durch kompositionelle Kopfauswahl. Wir validieren unsere Methode an modernen großskaligen DiT-basierten Text-zu-Bild-Modellen, einschließlich Stable Diffusion 3 und FLUX.1, und demonstrieren überlegene Leistung sowohl bei der allgemeinen Qualitätsverbesserung als auch bei der stilspezifischen Steuerung. Unsere Arbeit bietet die erste Kopfebenenanalyse von Aufmerksamkeitsstörungen in Diffusionsmodellen, deckt interpretierbare Spezialisierungen innerhalb von Aufmerksamkeitsschichten auf und ermöglicht die praktische Gestaltung effektiver Störstrategien.
Kürzlich haben Agenten, die auf multimodalen großen Sprachmodellen (MLLMs) basieren, bemerkenswerte Fortschritte in verschiedenen Domänen erzielt. Dennoch bleibt die Entwicklung eines Generalisten-Agenten mit Fähigkeiten wie Wahrnehmung, Planung, Handlung, Verankerung und Reflexion in offenen Welten wie Minecraft eine Herausforderung: unzureichende domänenspezifische Daten, Interferenzen zwischen heterogenen Aufgaben und visuelle Vielfalt in offenen Weltszenarien. In diesem Papier gehen wir diese Herausforderungen durch drei wesentliche Beiträge an. 1) Wir schlagen eine wissensbasierte Daten-Generierungspipeline vor, um skalierbare und hochwertige Trainingsdaten für die Agentenentwicklung bereitzustellen. 2) Um Interferenzen zwischen heterogenen Aufgaben zu minimieren, führen wir eine Mixture-of-Experts (MoE)-Architektur mit Aufgabenebenen-Routing ein. 3) Wir entwickeln einen Multimodal Reasoning-Augmented Reinforcement Learning-Ansatz, um die Fähigkeit des Agenten zur Bewältigung visueller Vielfalt in Minecraft zu verbessern. Aufbauend auf diesen Innovationen präsentieren wir Optimus-3, einen universellen Agenten für Minecraft. Umfangreiche experimentelle Ergebnisse zeigen, dass Optimus-3 sowohl allgemeine multimodale große Sprachmodelle als auch bestehende state-of-the-art Agenten in einer Vielzahl von Aufgaben in der Minecraft-Umgebung übertrifft. Projektseite: https://cybertronagent.github.io/Optimus-3.github.io/
Wir stellen Ming-Omni vor, ein einheitliches multimodales Modell, das in der Lage ist, Bilder, Text, Audio und Video zu verarbeiten und dabei eine hohe Kompetenz sowohl in der Sprach- als auch in der Bildgenerierung zeigt. Ming-Omni verwendet spezialisierte Encoder, um Tokens aus verschiedenen Modalitäten zu extrahieren, die anschließend von Ling, einer MoE-Architektur mit neu vorgeschlagenen modalitätsspezifischen Routern, verarbeitet werden. Dieser Entwurf ermöglicht es einem einzelnen Modell, multimodale Eingaben effizient zu verarbeiten und innerhalb eines einheitlichen Frameworks zu fusionieren, wodurch vielfältige Aufgaben ohne separate Modelle, aufgabenspezifische Feinabstimmung oder strukturelle Neugestaltung erleichtert werden. Besonders hervorzuheben ist, dass Ming-Omni über konventionelle multimodale Modelle hinausgeht, indem es Audio- und Bildgenerierung unterstützt. Dies wird durch die Integration eines fortschrittlichen Audio-Decoders für natürlich klingende Sprache und Ming-Lite-Uni für hochwertige Bildgenerierung erreicht, was es dem Modell auch ermöglicht, kontextbewusstes Chatten durchzuführen, Text-zu-Sprache-Konvertierung zu realisieren und vielseitige Bildbearbeitung zu betreiben. Unsere experimentellen Ergebnisse zeigen, dass Ming-Omni eine leistungsstarke Lösung für einheitliche Wahrnehmung und Generierung über alle Modalitäten hinweg bietet. Bemerkenswert ist, dass unser vorgeschlagenes Ming-Omni das erste Open-Source-Modell ist, das unserer Kenntnis nach GPT-4o in der Modalitätsunterstützung entspricht, und wir veröffentlichen den gesamten Code und die Modellgewichte, um weitere Forschung und Entwicklung in der Gemeinschaft zu fördern.
Das Erstellen ästhetischer Poster ist anspruchsvoller als das Gestalten einfacher Designbilder: Es erfordert nicht nur präzises Text-Rendering, sondern auch die nahtlose Integration von abstraktem künstlerischem Inhalt, auffälligen Layouts und einer insgesamt stilistischen Harmonie. Um dies zu bewältigen, schlagen wir PosterCraft vor, ein einheitliches Framework, das vorherige modulare Pipelines und starre, vordefinierte Layouts aufgibt und es dem Modell ermöglicht, frei zusammenhängende, visuell ansprechende Kompositionen zu erkunden. PosterCraft verwendet einen sorgfältig gestalteten, kaskadierten Workflow, um die Erstellung hochästhetischer Poster zu optimieren: (i) groß angelegte Text-Rendering-Optimierung auf unserem neu eingeführten Text-Render-2M-Datensatz; (ii) regionsbewusste, überwachte Feinabstimmung auf HQ-Poster100K; (iii) ästhetische Text-Verstärkung durch Best-of-n-Präferenzoptimierung; und (iv) gemeinsame Vision-Sprache-Feedback-Verfeinerung. Jede Stufe wird durch eine vollautomatische Datenkonstruktionspipeline unterstützt, die auf ihre spezifischen Anforderungen zugeschnitten ist, was ein robustes Training ohne komplexe architektonische Modifikationen ermöglicht. In mehreren Experimenten bewertet, übertrifft PosterCraft Open-Source-Baselines deutlich in Bezug auf Rendering-Genauigkeit, Layout-Kohärenz und Gesamtvisueller Anziehungskraft – und nähert sich dabei der Qualität von SOTA-Kommerzialsystemen. Unser Code, Modelle und Datensätze finden Sie auf der Projektseite: https://ephemeral182.github.io/PosterCraft.
Wie kosteneffektiv können wir starke Argumentationsfähigkeiten in Sprachmodellen durch die Nutzung ihrer zugrunde liegenden Repräsentationen hervorrufen? Wir beantworten diese Frage mit Resa, einer Familie von 1,5B-Argumentationsmodellen, die durch ein neuartiges und effizientes Sparse-Autoencoder-Tuning-Verfahren (SAE-Tuning) trainiert wurden. Diese Methode trainiert zunächst einen SAE, um Argumentationsfähigkeiten aus einem Quellmodell zu erfassen, und verwendet dann den trainierten SAE, um einen standardmäßigen überwachten Feinabstimmungsprozess zu leiten, um solche Fähigkeiten in einem Zielmodell hervorzurufen – alles unter Verwendung von verifizierten Frage-Antwort-Daten ohne jegliche Argumentationsspuren. Bemerkenswerterweise behält SAE-Tuning, wenn es auf bestimmte Basismodelle vor weiterem RL-Nachtraining angewendet wird, >97 % der Argumentationsleistung seines RL-trainierten Gegenstücks bei, während die Trainingskosten um >2000x auf etwa \1 und die Trainingszeit um >450x auf rund 20 Minuten reduziert werden. Darüber hinaus ermöglicht es, wenn es auf leicht RL-trainierte Modelle angewendet wird (z. B. innerhalb von 1 Stunde auf 2 GPUs), eine Argumentationsleistung wie 43,33 % Pass@1 auf AIME24 und 90 % Pass@1 auf AMC23 für nur etwa 1 zusätzlichen Kostenaufwand. Überraschenderweise sind die durch SAEs extrahierten Argumentationsfähigkeiten potenziell sowohl verallgemeinerbar als auch modular. Verallgemeinerbarkeit bedeutet, dass Fähigkeiten, die aus einem Datensatz extrahiert wurden, die Leistung auf einem größeren und überlappenden Korpus weiterhin steigern. Modularität bedeutet, dass Fähigkeiten, die aus Qwen oder Qwen-Math extrahiert wurden, zur Testzeit ohne erneutes Training an das R1-Distill-Modell angehängt werden können und vergleichbare Gewinne erzielen. Umfangreiche Ablationen validieren diese Ergebnisse, und alle Artefakte sind vollständig quelloffen.
Jüngste Fortschritte bei Large Language Models (LLMs) und ihren multimodalen Gegenstücken haben ein erhebliches Interesse an der Entwicklung von Web-Agenten geweckt – KI-Systemen, die in der Lage sind, autonom in Webumgebungen zu navigieren und Aufgaben zu erledigen. Obwohl sie ein enormes Potenzial für die Automatisierung komplexer Webinteraktionen bieten, stehen aktuelle Ansätze vor erheblichen Herausforderungen aufgrund der grundlegenden Diskrepanz zwischen menschengestalteten Schnittstellen und den Fähigkeiten von LLMs. Aktuelle Methoden kämpfen mit der inhärenten Komplexität von Web-Eingaben, sei es bei der Verarbeitung umfangreicher DOM-Bäume, der Nutzung von Screenshots, die mit zusätzlichen Informationen angereichert sind, oder dem vollständigen Umgehen der Benutzeroberfläche durch API-Interaktionen. Dieses Positionspapier plädiert für einen Paradigmenwechsel in der Forschung zu Web-Agenten: Anstatt Web-Agenten an Schnittstellen anzupassen, die für Menschen entwickelt wurden, sollten wir ein neues Interaktionsparadigma schaffen, das speziell für agentische Fähigkeiten optimiert ist. Zu diesem Zweck führen wir das Konzept einer Agentic Web Interface (AWI) ein, einer Schnittstelle, die speziell für die Navigation von Agenten auf einer Website entwickelt wurde. Wir legen sechs Leitprinzipien für das AWI-Design fest, die Sicherheit, Effizienz und Standardisierung betonen, um die Interessen aller primären Stakeholder zu berücksichtigen. Diese Neugestaltung zielt darauf ab, grundlegende Einschränkungen bestehender Schnittstellen zu überwinden und den Weg für effizientere, zuverlässigere und transparentere Web-Agenten-Designs zu ebnen, was eine gemeinsame Anstrengung der breiteren ML-Community erfordern wird.
Große Sprachmodell (LLM)-Agenten haben großes Potenzial bei der Bewältigung realer Datenwissenschaftsprobleme gezeigt. LLM-gesteuerte Datenwissenschaftsagenten versprechen, den gesamten maschinellen Lernprozess zu automatisieren, doch ihre reale Effektivität bleibt begrenzt. Bestehende Frameworks basieren auf starren, vordefinierten Workflows und unflexiblen Codierungsstrategien; folglich glänzen sie nur bei relativ einfachen, klassischen Problemen und scheitern daran, die empirische Expertise menschlicher Praktiker bei komplexen, innovativen Aufgaben zu erfassen. In dieser Arbeit stellen wir AutoMind vor, ein adaptives, wissensbasiertes LLM-Agenten-Framework, das diese Mängel durch drei wesentliche Fortschritte überwindet: (1) eine kuratierte Expertenwissensbasis, die den Agenten in domänenspezifischem Expertenwissen verankert, (2) einen agentenbasierten, wissensgestützten Baum-Suchalgorithmus, der strategisch mögliche Lösungen erkundet, und (3) eine selbstadaptive Codierungsstrategie, die die Codegenerierung dynamisch an die Aufgabenkomplexität anpasst. Evaluierungen an zwei automatisierten Datenwissenschafts-Benchmarks zeigen, dass AutoMind eine überlegene Leistung gegenüber modernsten Baselines erzielt. Zusätzliche Analysen bestätigen eine günstige Effektivität, Effizienz und qualitative Lösungsqualität, was AutoMind als einen effizienten und robusten Schritt hin zur vollständig automatisierten Datenwissenschaft hervorhebt.
Das Verständnis langer Videos (Long Video Understanding, LVU) stellt eine erhebliche Herausforderung für aktuelle multimodale große Sprachmodelle (Multi-Modal Large Language Models, MLLMs) dar, bedingt durch die inhärente Komplexität der Aufgabe und die Beschränkungen des Kontextfensters. Es wird allgemein angenommen, dass die Bewältigung von LVU-Aufgaben MLLMs mit erweiterten Kontextfenstern, starken visuellen Wahrnehmungsfähigkeiten und fundiertem Domänenwissen erfordert. In dieser Arbeit stellen wir diese verbreitete Annahme in Frage, indem wir VideoDeepResearch vorstellen, ein neuartiges agentenbasiertes Framework für das Verständnis langer Videos. Unser Ansatz stützt sich ausschließlich auf ein textbasiertes großes Reasoning-Modell (Large Reasoning Model, LRM) in Kombination mit einem modularen multimodalen Toolkit, das multimodale Retriever und visuelle Perceiver umfasst, die in der Praxis leicht verfügbar sind. Für jede LVU-Aufgabe formuliert das System eine Problemlösungsstrategie durch Reasoning, während es selektiv auf wesentliche Videoinhalte zugreift und diese durch den Einsatz von Tools nutzt. Wir führen umfangreiche Experimente auf gängigen LVU-Benchmarks durch, darunter MLVU, Video-MME und LVBench. Unsere Ergebnisse zeigen, dass VideoDeepResearch erhebliche Verbesserungen gegenüber bestehenden MLLM-Baselines erzielt und den bisherigen State-of-the-Art um 9,6 %, 6,6 % bzw. 3,9 % auf MLVU (Test), LVBench und LongVideoBench übertrifft. Diese Ergebnisse unterstreichen das Potenzial agentenbasierter Systeme, zentrale Herausforderungen bei LVU-Problemen zu bewältigen.
Shojaee et al. (2025) berichten, dass Large Reasoning Models (LRMs) bei Planungsrätseln jenseits bestimmter Komplexitätsschwellen einen „Genauigkeitsverfall“ zeigen. Wir zeigen, dass ihre Ergebnisse hauptsächlich auf Einschränkungen im experimentellen Design zurückzuführen sind und nicht auf grundlegende Schwächen im logischen Denken. Unsere Analyse deckt drei kritische Probleme auf: (1) Die Experimente zum Turm von Hanoi überschreiten systematisch die Token-Grenzen der Modellausgaben an den berichteten Fehlerpunkten, wobei die Modelle diese Einschränkungen explizit in ihren Ausgaben anerkennen; (2) Das automatisierte Bewertungsframework der Autoren unterscheidet nicht zwischen Denkfehlern und praktischen Einschränkungen, was zu einer Fehlklassifizierung der Modellfähigkeiten führt; (3) Am besorgniserregendsten ist, dass ihre River-Crossing-Benchmarks für N > 5 mathematisch unmögliche Instanzen aufgrund unzureichender Bootskapazität enthalten, die Modelle jedoch als gescheitert bewertet werden, weil sie diese unlösbaren Probleme nicht lösen. Wenn wir diese experimentellen Artefakte kontrollieren, indem wir anstelle von umfassenden Zuglisten erzeugende Funktionen anfordern, zeigen vorläufige Experimente mit mehreren Modellen eine hohe Genauigkeit bei Turm-von-Hanoi-Instanzen, die zuvor als vollständige Fehler gemeldet wurden. Diese Ergebnisse unterstreichen die Bedeutung eines sorgfältigen experimentellen Designs bei der Bewertung von KI-Fähigkeiten im logischen Denken.
Grafikdesign spielt sowohl im kommerziellen als auch im persönlichen Kontext eine entscheidende Rolle, doch die Erstellung hochwertiger, bearbeitbarer und ästhetisch ansprechender Grafikkompositionen bleibt eine zeitaufwändige und fachkundige Aufgabe, insbesondere für Anfänger. Aktuelle KI-Tools automatisieren Teile des Workflows, haben jedoch Schwierigkeiten, benutzerspezifische Assets präzise einzubinden, die Bearbeitbarkeit zu gewährleisten und professionelle visuelle Anziehungskraft zu erreichen. Kommerzielle Systeme wie Canva Magic Design setzen auf umfangreiche Template-Bibliotheken, die jedoch schwer zu replizieren sind. In diesem Artikel stellen wir CreatiPoster vor, ein Framework, das bearbeitbare, mehrschichtige Kompositionen aus optionalen natürlichen Sprachanweisungen oder Assets generiert. Ein Protokollmodell, ein RGBA-großes multimodales Modell, erstellt zunächst eine JSON-Spezifikation, die jede Ebene (Text oder Asset) mit präziser Layout-, Hierarchie-, Inhalts- und Stilangabe sowie einem prägnanten Hintergrund-Prompt detailliert beschreibt. Ein bedingtes Hintergrundmodell synthetisiert dann einen kohärenten Hintergrund, der auf diesen gerenderten Vordergrundebenen basiert. Wir erstellen einen Benchmark mit automatisierten Metriken für die Grafikdesign-Generierung und zeigen, dass CreatiPoster führende Open-Source-Ansätze sowie proprietäre kommerzielle Systeme übertrifft. Um weitere Forschungen zu fördern, veröffentlichen wir ein urheberrechtsfreies Korpus von 100.000 mehrschichtigen Designs. CreatiPoster unterstützt vielfältige Anwendungen wie Canvas-Bearbeitung, Textüberlagerung, responsives Skalieren, mehrsprachige Anpassung und animierte Poster und trägt so zur Demokratisierung von KI-gestütztem Grafikdesign bei. Projekt-Homepage: https://github.com/graphic-design-ai/creatiposter
Große Sprachmodelle (LLMs) werden zunehmend für automatisierte Aufgaben zur Erkennung schädlicher Inhalte eingesetzt, um Moderatoren bei der Identifizierung von Richtlinienverstößen zu unterstützen und die Gesamteffizienz und Genauigkeit der Inhaltsüberprüfung zu verbessern. Allerdings konzentrieren sich die bestehenden Ressourcen zur Erkennung schädlicher Inhalte überwiegend auf Englisch, während chinesische Datensätze nach wie vor rar und oft in ihrem Umfang begrenzt sind. Wir präsentieren einen umfassenden, professionell annotierten Benchmark für die Erkennung schädlicher Inhalte in chinesischer Sprache, der sechs repräsentative Kategorien abdeckt und vollständig aus realen Daten konstruiert wurde. Unser Annotationsprozess liefert darüber hinaus eine Wissensregelbasis, die explizites Expertenwissen bereitstellt, um LLMs bei der Erkennung schädlicher Inhalte in chinesischer Sprache zu unterstützen. Zusätzlich schlagen wir eine wissensbasierte Baseline vor, die sowohl von Menschen annotierte Wissensregeln als auch implizites Wissen aus großen Sprachmodellen integriert und es kleineren Modellen ermöglicht, eine Leistung zu erzielen, die mit der von state-of-the-art LLMs vergleichbar ist. Code und Daten sind unter https://github.com/zjunlp/ChineseHarm-bench verfügbar.
Jüngste Fortschritte in multimodalen Basismodellen, die Bildverständnis und -generierung vereinen, haben spannende Möglichkeiten eröffnet, um eine Vielzahl von Vision-Sprache-Aufgaben innerhalb eines einzigen Frameworks zu bewältigen. Trotz der Fortschritte benötigen bestehende vereinheitlichte Modelle in der Regel umfangreiches Vorabtraining und erreichen oft nicht das gleiche Leistungsniveau wie Modelle, die speziell für jede Aufgabe entwickelt wurden. Darüber hinaus leiden viele dieser Modelle unter langsamen Bildgenerierungsgeschwindigkeiten, was ihre praktische Anwendung in Echtzeit- oder ressourcenbeschränkten Umgebungen einschränkt. In dieser Arbeit schlagen wir Layerwise Timestep-Expert Flow-based Transformer (LaTtE-Flow) vor, eine neuartige und effiziente Architektur, die Bildverständnis und -generierung innerhalb eines einzigen multimodalen Modells vereint. LaTtE-Flow baut auf leistungsstarken vortrainierten Vision-Language-Modellen (VLMs) auf, um starke multimodale Verständnisfähigkeiten zu erben, und erweitert diese mit einer neuartigen Layerwise Timestep Experts Flow-basierten Architektur für effiziente Bildgenerierung. LaTtE-Flow verteilt den Flow-Matching-Prozess auf spezialisierte Gruppen von Transformer-Schichten, die jeweils für eine bestimmte Teilmenge von Zeitschritten verantwortlich sind. Dieser Entwurf verbessert die Sampling-Effizienz erheblich, indem nur eine kleine Teilmenge der Schichten bei jedem Sampling-Zeitschritt aktiviert wird. Um die Leistung weiter zu steigern, schlagen wir einen Timestep-Conditioned Residual Attention-Mechanismus für die effiziente Wiederverwendung von Informationen über Schichten hinweg vor. Experimente zeigen, dass LaTtE-Flow eine starke Leistung bei multimodalen Verständnisaufgaben erzielt und dabei eine wettbewerbsfähige Bildgenerierungsqualität mit etwa 6-fach schnellerer Inferenzgeschwindigkeit im Vergleich zu aktuellen vereinheitlichten multimodalen Modellen erreicht.
Da das Fine-Tuning (FT) mit zunehmender Skalierung immer unpraktischer wird, etabliert sich das Probing als bevorzugtes Evaluierungsprotokoll für selbstüberwachtes Lernen (SSL). Dennoch scheitert das Standard-Linear-Probing (LP) daran, das Potenzial von Modellen, die mit Masked Image Modeling (MIM) trainiert wurden, angemessen widerzuspiegeln, was auf die verteilte Natur von Patch-Tokens zurückzuführen ist. Dies motiviert die Notwendigkeit von Attentive Probing, einer Alternative, die Aufmerksamkeit nutzt, um Patch-Level-Features selektiv zu aggregieren. Trotz zunehmender Verbreitung bleibt Attentive Probing untererforscht, wobei bestehende Methoden unter übermäßiger Parametrisierung und schlechter Recheneffizienz leiden. In dieser Arbeit betrachten wir Attentive Probing neu durch die Linse des Genauigkeits-Effizienz-Kompromisses. Wir führen eine systematische Studie bestehender Methoden durch, analysieren deren Mechanismen und benchmarken ihre Leistung. Wir stellen Efficient Probing (EP) vor, einen Multi-Query-Cross-Attention-Mechanismus, der redundante Projektionen eliminiert, die Anzahl der trainierbaren Parameter reduziert und eine bis zu 10-fache Beschleunigung gegenüber herkömmlicher Multi-Head-Attention erreicht. Trotz seiner Einfachheit übertrifft EP LP und frühere Attentive-Probing-Ansätze über sieben Benchmarks hinweg, generalisiert gut über MIM hinaus auf diverse Vortrainingsparadigmen, erzeugt interpretierbare Aufmerksamkeitskarten und erzielt starke Gewinne in Low-Shot- und Layer-wise-Szenarien. Code verfügbar unter https://github.com/billpsomas/efficient-probing.
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich zu einer Schlüsseltechnik für die Verbesserung großer Sprachmodelle (LLMs) entwickelt, wobei die Verifizierungstechnik eine zentrale Rolle spielt. Dennoch sind bewährte Verfahren für RL in der Befolgung von Anweisungen noch unzureichend erforscht. In dieser Arbeit untersuchen wir die Herausforderung der Verifizierung in RL für die Befolgung von Anweisungen und schlagen VerIF vor, eine Verifizierungsmethode, die regelbasierte Code-Verifizierung mit LLM-basierter Verifizierung durch ein großes Reasoning-Modell (z. B. QwQ-32B) kombiniert. Um diesen Ansatz zu unterstützen, erstellen wir einen hochwertigen Datensatz für die Befolgung von Anweisungen, VerInstruct, der etwa 22.000 Instanzen mit zugehörigen Verifizierungssignalen enthält. Wir wenden RL-Training mit VerIF auf zwei Modelle an und erzielen signifikante Verbesserungen in mehreren repräsentativen Benchmarks für die Befolgung von Anweisungen. Die trainierten Modelle erreichen state-of-the-art Leistungen unter Modellen vergleichbarer Größe und generalisieren gut auf unbekannte Einschränkungen. Weiterhin stellen wir fest, dass ihre allgemeinen Fähigkeiten unbeeinträchtigt bleiben, was darauf hindeutet, dass RL mit VerIF in bestehende RL-Rezepte integriert werden kann, um die Gesamtleistung des Modells zu steigern. Wir haben unsere Datensätze, Codes und Modelle unter https://github.com/THU-KEG/VerIF veröffentlicht, um zukünftige Forschung zu erleichtern.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) und KI-Systemen haben zu einem Paradigmenwechsel in der Gestaltung und Optimierung komplexer KI-Workflows geführt. Durch die Integration mehrerer Komponenten sind zusammengesetzte KI-Systeme zunehmend in der Lage, anspruchsvolle Aufgaben zu bewältigen. Mit der wachsenden Komplexität dieser Systeme ergeben sich jedoch neue Herausforderungen, nicht nur bei der Optimierung einzelner Komponenten, sondern auch bei der Abstimmung ihrer Interaktionen. Während traditionelle Optimierungsmethoden wie überwachtes Feinabstimmen (SFT) und bestärkendes Lernen (RL) weiterhin grundlegend bleiben, eröffnet der Einsatz von natürlichem Sprachfeedback vielversprechende neue Ansätze, insbesondere für die Optimierung nicht-differenzierbarer Systeme. Dieses Papier bietet einen systematischen Überblick über die jüngsten Fortschritte bei der Optimierung zusammengesetzter KI-Systeme, der sowohl numerische als auch sprachbasierte Techniken umfasst. Wir formalisieren das Konzept der Optimierung zusammengesetzter KI-Systeme, klassifizieren bestehende Methoden entlang mehrerer Schlüsseldimensionen und beleuchten offene Forschungsherausforderungen sowie zukünftige Richtungen in diesem sich schnell entwickelnden Feld. Eine Liste der untersuchten Arbeiten ist öffentlich unter https://github.com/MiuLab/AISysOpt-Survey verfügbar.
Große Sprachmodelle haben die natürliche Sprachverarbeitung revolutioniert, doch das überwachte Feinabstimmen (Supervised Fine-Tuning, SFT) bleibt rechenintensiv. Diese Arbeit beweist formal, dass die durch SFT erworbenen Fähigkeiten durch ein Basistransformermodell mit Inferenzzeit-Techniken, insbesondere In-Context-Lernen (In-Context Learning, ICL), ohne Änderung der Modellparameter unter idealisierten Annahmen, einschließlich unbegrenzter Rechenressourcen und Zugriff auf den Feinabstimmungsdatensatz, approximiert werden können. Wir erweitern diese Ergebnisse auf praktische Szenarien mit begrenzten Kontextlängen und teilweisem Zugriff auf den Datensatz. Für Textgenerierungsaufgaben mit fester Ausgabelänge l genügen Datensätze der Größe \(O\left( \frac{m V}{\varepsilon^2} \log \frac{m}{\delta} \right)\) oder, bei begrenztem Kontext, \(O\left( l \log \frac{V}{\varepsilon^2} \log \frac{1}{\delta} \right)\), um das feinabgestimmte Verhalten über m Kontexte innerhalb eines Fehlers \(\varepsilon\) zu approximieren, wobei V die Vokabulargröße und \(\delta\) die Ausfallwahrscheinlichkeit ist. Für lineare Klassifikation genügen Datensätze der Größe \(O\left( \frac{d}{\varepsilon} \right)\) oder, bei festem Kontext, \(O\left( \frac{1}{\varepsilon^2} \log \frac{1}{\delta} \right)\), wobei d die Eingabedimension ist. Basierend auf der Turing-Vollständigkeit von Transformern bieten diese Ergebnisse eine theoretische Grundlage für den ressourceneffizienten Einsatz großer Sprachmodelle, wobei praktische Techniken wie retrieval-augmented generation die Brücke von der Theorie zu realen Anwendungen schlagen.
Da große Sprachmodelle (LLMs) Fortschritte in Richtung menschenähnlicher Kommunikation gemacht haben und die Interaktion zwischen Mensch und KI weit verbreitet ist, hat sich das Prompting als entscheidende Komponente herausgestellt. Es besteht jedoch nur begrenzte konzeptionelle Übereinstimmung darüber, was genau natürliche Sprachprompts ausmacht. Wir versuchen, diese Frage zu beantworten, indem wir eine Metaanalyse durchführen, die mehr als 150 Prompting-bezogene Artikel aus führenden NLP- und KI-Konferenzen von 2022 bis 2025 sowie Blogs untersucht. Wir schlagen ein eigenschafts- und menschenzentriertes Framework zur Bewertung der Prompt-Qualität vor, das 21 Eigenschaften umfasst, die in sechs Dimensionen kategorisiert sind. Anschließend untersuchen wir, wie bestehende Studien deren Einfluss auf LLMs bewerten, und zeigen deren unausgewogene Unterstützung über Modelle und Aufgaben hinweg sowie erhebliche Forschungslücken auf. Darüber hinaus analysieren wir Korrelationen zwischen Eigenschaften in hochwertigen natürlichen Sprachprompts und leiten daraus Empfehlungen für das Prompting ab. Wir untersuchen empirisch die Verbesserung von Prompts mit mehreren Eigenschaften in Reasoning-Aufgaben und stellen fest, dass Verbesserungen einzelner Eigenschaften oft den größten Einfluss haben. Schließlich entdecken wir, dass Instruction-Tuning mit eigenschaftsverbesserten Prompts zu besseren Reasoning-Modellen führen kann. Unsere Ergebnisse legen eine Grundlage für die eigenschaftszentrierte Bewertung und Optimierung von Prompts, schließen die Lücken in der Mensch-KI-Kommunikation und eröffnen neue Forschungsrichtungen im Bereich des Promptings.
Im E-Commerce und im digitalen Marketing ist die Erstellung hochwertiger Mensch-Produkt-Demonstrationsvideos entscheidend für eine effektive Produktpräsentation. Die meisten bestehenden Frameworks bewahren jedoch entweder nicht die Identitäten von Menschen und Produkten oder verstehen die räumlichen Beziehungen zwischen Mensch und Produkt nicht, was zu unrealistischen Darstellungen und unnatürlichen Interaktionen führt. Um diese Herausforderungen zu bewältigen, schlagen wir ein auf Diffusion Transformer (DiT) basierendes Framework vor. Unsere Methode bewahrt gleichzeitig die Identitäten der Menschen und produktspezifische Details wie Logos und Texturen, indem gepaarte Mensch-Produkt-Referenzinformationen injiziert und ein zusätzlicher maskierter Cross-Attention-Mechanismus genutzt wird. Wir verwenden eine 3D-Körpernetz-Vorlage und Produktbegrenzungsrahmen, um präzise Bewegungsanleitungen zu bieten und so eine intuitive Ausrichtung von Handgesten mit Produktplatzierungen zu ermöglichen. Zusätzlich wird strukturierte Textkodierung verwendet, um kategoriebezogene Semantik einzubeziehen, was die 3D-Konsistenz bei kleinen Rotationsänderungen über die Frames hinweg verbessert. Unser Ansatz, der auf einem hybriden Datensatz mit umfangreichen Datenaugmentationsstrategien trainiert wurde, übertrifft state-of-the-art-Techniken in der Wahrung der Identitätsintegrität von Menschen und Produkten sowie in der Erzeugung realistischer Demonstrationsbewegungen. Projektseite: https://submit2025-dream.github.io/DreamActor-H1/.
Die Skalenvielfalt von Punktwolkendaten stellt erhebliche Herausforderungen bei der Entwicklung einheitlicher Repräsentationslernverfahren für die 3D-Vision dar. Derzeit gibt es nur wenige einheitliche 3D-Modelle, und keine bestehende Vorverarbeitungsmethode ist gleichermaßen effektiv für sowohl Objekt- als auch Szenenebenen-Punktwolken. In diesem Artikel stellen wir UniPre3D vor, die erste einheitliche Vorverarbeitungsmethode, die nahtlos auf Punktwolken jeglicher Skala und 3D-Modelle jeglicher Architektur angewendet werden kann. Unser Ansatz sagt Gaußsche Primitiven als Vorverarbeitungsaufgabe voraus und verwendet differenzierbares Gaußsches Splatting zur Bilddarstellung, wodurch präzise pixelgenaue Überwachung und end-to-end-Optimierung ermöglicht wird. Um die Komplexität der Vorverarbeitungsaufgabe weiter zu regulieren und den Fokus des Modells auf geometrische Strukturen zu lenken, integrieren wir 2D-Features aus vortrainierten Bildmodellen, um etabliertes Texturwissen einzubeziehen. Wir validieren die universelle Wirksamkeit unserer vorgeschlagenen Methode durch umfangreiche Experimente über eine Vielzahl von Objekt- und Szenenebenen-Aufgaben unter Verwendung verschiedener Punktwolkenmodelle als Backbones. Der Code ist verfügbar unter https://github.com/wangzy22/UniPre3D.
Ein zentrales Ziel der mechanistischen Interpretierbarkeit war es, die richtigen Analyseeinheiten in großen Sprachmodellen (LLMs) zu identifizieren, die deren Ausgaben kausal erklären. Während sich frühere Arbeiten auf einzelne Neuronen konzentrierten, hat die Erkenntnis, dass Neuronen oft mehrere Konzepte kodieren, eine Verschiebung hin zur Analyse von Richtungen im Aktivierungsraum motiviert. Eine Schlüsselfrage ist, wie man Richtungen finden kann, die interpretierbare Merkmale auf unüberwachte Weise erfassen. Aktuelle Methoden stützen sich auf Wörterbuchlernen mit spärlichen Autoencodern (SAEs), die üblicherweise über Residualstrom-Aktivierungen trainiert werden, um Richtungen von Grund auf zu lernen. Allerdings haben SAEs oft Schwierigkeiten bei kausalen Bewertungen und mangelt es ihnen an intrinsischer Interpretierbarkeit, da ihr Lernen nicht explizit an die Berechnungen des Modells gebunden ist. Hier gehen wir diese Einschränkungen an, indem wir MLP-Aktivierungen direkt mit semi-nichtnegativer Matrixfaktorisierung (SNMF) zerlegen, sodass die gelernten Merkmale (a) spärliche lineare Kombinationen von koaktivierten Neuronen sind und (b) ihren aktivierenden Eingaben zugeordnet werden, was sie direkt interpretierbar macht. Experimente mit Llama 3.1, Gemma 2 und GPT-2 zeigen, dass SNMF-abgeleitete Merkmale SAEs und eine starke überwachte Baseline (Differenz-in-Mittelwerten) bei der kausalen Steuerung übertreffen, während sie mit menschlich interpretierbaren Konzepten übereinstimmen. Weitere Analysen zeigen, dass spezifische Neuronkombinationen über semantisch verwandte Merkmale hinweg wiederverwendet werden, was eine hierarchische Struktur im Aktivierungsraum des MLPs offenlegt. Zusammen positionieren diese Ergebnisse SNMF als ein einfaches und effektives Werkzeug zur Identifizierung interpretierbarer Merkmale und zur Zerlegung von Konzeptdarstellungen in LLMs.
Das Training großer Sprachmodelle erfolgt in der Regel über Optimierungsmethoden auf Clustern, die Zehntausende von Beschleunigern enthalten und über eine Hochbandbreitenverbindung kommunizieren. Die Skalierung dieser Cluster ist kostspielig und kann unpraktisch werden, wodurch Grenzen für die Größe der trainierbaren Modelle gesetzt werden. Mehrere aktuelle Studien haben Trainingsmethoden vorgeschlagen, die weniger kommunikationsintensiv sind und somit den Bedarf an einem hochvernetzten Rechencluster vermeiden. Diese modernen Methoden mit geringer Kommunikation verwenden jedoch weiterhin einen Synchronisationsschritt für Modellparameter, der, wenn er über alle Modellreplikate hinweg durchgeführt wird, in einem Netzwerk mit geringer Bandbreite kostspielig werden kann. In dieser Arbeit schlagen wir eine neuartige Optimierungsmethode, NoLoCo, vor, die nicht explizit alle Modellparameter während des Trainings synchronisiert und somit keine kollektive Kommunikation erfordert. NoLoCo synchronisiert Modellgewichte implizit über eine neuartige Variante des Nesterov-Momentum-Optimierers, indem es Modellgewichte teilweise mit einem zufällig ausgewählten anderen mittelt. Wir liefern sowohl eine theoretische Konvergenzanalyse für unseren vorgeschlagenen Optimierer als auch empirische Ergebnisse aus dem Training von Sprachmodellen. Wir benchmarken NoLoCo über eine breite Palette von Beschleunigeranzahlen und Modellgrößen, zwischen 125M und 6,8B Parametern. Unsere Methode erfordert deutlich weniger Kommunikationsaufwand als vollständig fragmentiertes datenparalleles Training oder sogar die weit verbreitete Methode mit geringer Kommunikation, DiLoCo. Der Synchronisationsschritt selbst wird auf eine Größenordnung schneller geschätzt als der All-Reduce, der in DiLoCo für einige hundert Beschleuniger, die über das Internet trainieren, verwendet wird. Wir haben auch keine globale blockierende Kommunikation, die die Leerlaufzeit der Beschleuniger reduziert. Im Vergleich zu DiLoCo beobachten wir auch eine bis zu 4 % schnellere Konvergenzrate bei einer breiten Palette von Modellgrößen und Beschleunigeranzahlen.
Die zunehmende Einführung von künstlicher Intelligenz in der Telekommunikation hat das Interesse an der Fähigkeit von Large Language Models (LLMs) geweckt, domänenspezifische, mathematisch anspruchsvolle Aufgaben zu bewältigen. Obwohl jüngste Fortschritte die Leistung von LLMs im Bereich des allgemeinen mathematischen Denkens verbessert haben, bleibt ihre Effektivität in spezialisierten Domänen wie Signalverarbeitung, Netzwerkoptimierung und Leistungsanalyse weitgehend unerforscht. Um diese Lücke zu schließen, stellen wir TeleMath vor, den ersten Benchmark-Datensatz, der speziell entwickelt wurde, um die Leistung von LLMs bei der Lösung mathematischer Probleme mit numerischen Lösungen im Bereich der Telekommunikation zu bewerten. TeleMath umfasst 500 Frage-Antwort-Paare (QnA) und deckt ein breites Spektrum von Themen im Telekommunikationsbereich ab. Dieses Papier skizziert den vorgeschlagenen QnA-Generierungsprozess, beginnend mit einem ausgewählten Ausgangspunkt von Problemen, die von Fachexperten erstellt wurden. Die Bewertung einer Vielzahl von Open-Source-LLMs zeigt, dass die beste Leistung auf TeleMath von neueren Modellen erzielt wird, die explizit für mathematisches oder logisches Denken entwickelt wurden. Im Gegensatz dazu haben allgemeine Modelle, selbst solche mit einer großen Anzahl von Parametern, oft Schwierigkeiten mit diesen Herausforderungen. Wir haben den Datensatz und den Evaluationscode veröffentlicht, um die Reproduzierbarkeit der Ergebnisse zu erleichtern und zukünftige Forschung zu unterstützen.
Classifier-free Guidance (CFG) hat sich zu einem wesentlichen Bestandteil moderner Diffusionsmodelle entwickelt, um sowohl die Generierungsqualität als auch die Ausrichtung an Eingabebedingungen zu verbessern. CFG erfordert jedoch spezifische Trainingsverfahren und ist auf die bedingte Generierung beschränkt. Um diese Einschränkungen zu überwinden, schlagen wir Token Perturbation Guidance (TPG) vor, eine neuartige Methode, die Perturbationsmatrizen direkt auf intermediäre Token-Repräsentationen innerhalb des Diffusionsnetzwerks anwendet. TPG nutzt eine normerhaltende Shuffle-Operation, um effektive und stabile Führungssignale bereitzustellen, die die Generierungsqualität ohne architektonische Änderungen verbessern. Dadurch ist TPG trainingsfrei und unabhängig von Eingabebedingungen, was es sowohl für die bedingte als auch für die unbedingte Generierung anwendbar macht. Wir analysieren weiterhin den von TPG bereitgestellten Führungsterm und zeigen, dass seine Wirkung auf das Sampling im Vergleich zu bestehenden trainingsfreien Führungstechniken CFG stärker ähnelt. Umfangreiche Experimente mit SDXL und Stable Diffusion 2.1 zeigen, dass TPG eine nahezu zweifache Verbesserung des FID-Werts für die unbedingte Generierung gegenüber der SDXL-Baseline erreicht, während es CFG in der Prompt-Ausrichtung nahezu entspricht. Diese Ergebnisse etablieren TPG als eine allgemeine, bedingungsunabhängige Führungsmethode, die CFG-ähnliche Vorteile für eine breitere Klasse von Diffusionsmodellen bietet. Der Code ist verfügbar unter https://github.com/TaatiTeam/Token-Perturbation-Guidance.
Die Optimierung der Inferenz für Large Language Models (LLMs) mit langem Kontext wird zunehmend wichtiger, da Transformers eine quadratische Rechenkomplexität und eine lineare Speicherkomplexität aufweisen. Bestehende Approximationsmethoden, wie das Weglassen des Key-Value (KV)-Caches, sparsame Aufmerksamkeit und Prompt-Kompression, basieren typischerweise auf groben Vorhersagen der Bedeutung von Tokens oder KV-Paaren. Wir schlagen ein neuartiges Framework für die approximative LLM-Inferenz vor, das kleine Draft-Modelle nutzt, um die Bedeutung von Tokens und KV-Paaren genauer vorherzusagen. Konkret führen wir zwei Instanzen unseres vorgeschlagenen Frameworks ein: (i) SpecKV, das einen Draft-Output verwendet, um die Bedeutung jedes KV-Paares genau zu bewerten und so das Weglassen des KV-Caches effektiver zu gestalten, und (ii) SpecPC, das die Aufmerksamkeitsaktivitäten des Draft-Modells nutzt, um unwichtige Prompt-Tokens zu identifizieren und zu verwerfen. Unseres Wissens ist dies die erste Arbeit, die Draft-Modelle für die Beschleunigung der approximativen LLM-Inferenz verwendet und damit ihren Nutzen über das traditionelle verlustfreie spekulative Decodieren hinaus erweitert. Wir untermauern unsere Methoden mit theoretischen und empirischen Analysen und zeigen eine starke Korrelation zwischen den Aufmerksamkeitsmustern von Draft- und Zielmodellen. Umfangreiche Experimente auf Benchmarks mit langem Kontext zeigen, dass unsere Methoden durchweg eine höhere Genauigkeit als bestehende Baselines erreichen, während die gleichen Verbesserungen in Bezug auf Speicherverbrauch, Latenz und Durchsatz erhalten bleiben. Unser Code ist verfügbar unter https://github.com/furiosa-ai/draft-based-approx-llm.
Das Verlernen (Unlearning) bei großen Sprachmodellen (Large Language Models, LLMs) zielt darauf ab, unerwünschtes Wissen innerhalb des Modells zu löschen oder zu unterdrücken, was Potenzial bietet, schädliche oder private Informationen zu kontrollieren, um Missbrauch zu verhindern. Jüngste Studien zeigen jedoch, dass die Wirksamkeit in realen Anwendungen begrenzt ist, was die praktische Nutzung behindert. In dieser Studie identifizieren wir ein weit verbreitetes Problem, das vielen nachgelagerten Fehlern zugrunde liegt: Die Effektivität bestehender Verlernmethoden hängt stark von der Form der Trainingsdaten ab und scheitert häufig daran, auf alternative Ausdrücke desselben Wissens zu verallgemeinern. Wir charakterisieren dieses Problem formal als Formabhängige Verzerrung (Form-Dependent Bias) und untersuchen systematisch seine spezifischen Manifestationsmuster in verschiedenen nachgelagerten Aufgaben. Um seine Verbreitung zu quantifizieren und zukünftige Forschung zu unterstützen, führen wir ORT ein, einen neuartigen Benchmark, der die Robustheit von Verlernmethoden gegenüber Variationen in der Wissensdarstellung bewertet. Die Ergebnisse zeigen, dass Formabhängige Verzerrung unter den aktuellen Techniken weit verbreitet und schwerwiegend ist. Wir argumentieren, dass das Verlernen bei LLMs formunabhängig sein sollte, um die unendlichen Formen nachgelagerter Aufgaben in realen sicherheitskritischen Szenarien zu bewältigen. In Richtung dieses Ziels stellen wir Rank-one Concept Redirection (ROCR) vor, eine neuartige trainingsfreie Methode, die einen vielversprechenden Lösungsansatz darstellt. ROCR führt das Verlernen durch, indem es die Invarianten in nachgelagerten Aufgaben anvisiert, insbesondere die aktivierten gefährlichen Konzepte. Es ist in der Lage, Modellparameter innerhalb von Sekunden zu modifizieren, um die Wahrnehmung des Modells von einem spezifischen Verlernzielkonzept auf ein harmloses Konzept umzuleiten. Umfangreiche Experimente zeigen, dass ROCR die Effektivität des Verlernens im Vergleich zu traditionellen Methoden signifikant verbessert und dabei hochgradig natürliche Ausgaben erzeugt.
Die rasche Entwicklung wissenschaftlicher Disziplinen stellt Herausforderungen bei der Organisation und dem Abruf wissenschaftlicher Literatur dar. Während traditionell von Experten kuratierte Taxonomien diesen Bedarf deckten, ist dieser Prozess zeitaufwendig und kostspielig. Darüber hinaus verlassen sich aktuelle automatische Methoden zur Taxonomieerstellung entweder (1) übermäßig auf ein spezifisches Korpus, wodurch die Allgemeingültigkeit beeinträchtigt wird, oder (2) stark auf das allgemeine Wissen großer Sprachmodelle (LLMs), das in ihren vortrainierten Datensätzen enthalten ist, wobei oft die dynamische Natur sich entwickelnder wissenschaftlicher Bereiche übersehen wird. Zusätzlich berücksichtigen diese Ansätze nicht die vielschichtige Natur wissenschaftlicher Literatur, bei der ein einzelnes Forschungspapier mehrere Dimensionen (z. B. Methodik, neue Aufgaben, Bewertungsmetriken, Benchmarks) abdecken kann. Um diese Lücken zu schließen, schlagen wir TaxoAdapt vor, ein Framework, das eine von einem LLM generierte Taxonomie dynamisch an ein gegebenes Korpus über mehrere Dimensionen anpasst. TaxoAdapt führt eine iterative hierarchische Klassifizierung durch und erweitert sowohl die Breite als auch die Tiefe der Taxonomie basierend auf der thematischen Verteilung des Korpus. Wir demonstrieren seine state-of-the-art-Leistung über eine Vielzahl von Informatikkonferenzen hinweg, um seine Fähigkeit zur Strukturierung und Erfassung der Entwicklung wissenschaftlicher Felder zu zeigen. Als multidimensionales Verfahren erzeugt TaxoAdapt Taxonomien, die 26,51 % besser die Granularität bewahren und 50,41 % kohärenter sind als die konkurrenzfähigsten Baselines, gemessen durch LLMs.
Aussagen von Einzelpersonen oder Organisationen sind oft nuanciert und können nicht eindeutig als vollständig „wahr“ oder „falsch“ klassifiziert werden – wie dies häufig bei wissenschaftlichen und politischen Behauptungen der Fall ist. Eine Aussage (z. B. „Impfstoff A ist besser als Impfstoff B“) kann jedoch in ihre integralen Aspekte und Unteraspekte (z. B. Wirksamkeit, Sicherheit, Verteilung) zerlegt werden, die einzeln leichter zu validieren sind. Dies ermöglicht eine umfassendere, strukturierte Antwort, die eine ausgewogene Perspektive auf ein gegebenes Problem bietet und gleichzeitig dem Leser erlaubt, spezifische Interessensschwerpunkte innerhalb der Aussage zu priorisieren (z. B. Sicherheit gegenüber Kindern). Daher schlagen wir ClaimSpect vor, ein auf retrieval-augmentierter Generierung basierendes Framework, das automatisch eine Hierarchie von Aspekten erstellt, die typischerweise bei der Betrachtung einer Aussage berücksichtigt werden, und diese mit korpusspezifischen Perspektiven anreichert. Diese Struktur unterteilt ein Eingabekorpus hierarchisch, um relevante Segmente zu extrahieren, die bei der Entdeckung neuer Unteraspekte helfen. Darüber hinaus ermöglichen diese Segmente die Identifizierung unterschiedlicher Perspektiven zu einem Aspekt der Aussage (z. B. Unterstützung, Neutralität oder Ablehnung) und deren jeweiliger Verbreitung (z. B. „Wie viele biomedizinische Publikationen glauben, dass Impfstoff A transportabler ist als B?“). Wir wenden ClaimSpect auf eine Vielzahl realer wissenschaftlicher und politischer Aussagen an, die in unserem erstellten Datensatz enthalten sind, und demonstrieren seine Robustheit und Genauigkeit bei der Dekonstruktion einer nuancierten Aussage sowie der Darstellung von Perspektiven innerhalb eines Korpus. Durch reale Fallstudien und menschliche Bewertung validieren wir seine Effektivität im Vergleich zu mehreren Baseline-Methoden.
Foundation Models haben Bereiche wie die natürliche Sprachverarbeitung und Computer Vision revolutioniert, indem sie allgemeingültiges Lernen über verschiedene Aufgaben und Datensätze hinweg ermöglichen. Die Entwicklung analoger Modelle für die menschliche Mobilität bleibt jedoch aufgrund der sensiblen Natur von Mobilitätsdaten und der daraus resultierenden Datensilos zwischen Institutionen eine Herausforderung. Um diese Lücke zu schließen, schlagen wir MoveGCL vor, ein skalierbares und datenschutzfreundliches Framework für das Training von Mobilitäts-Foundation-Modellen durch generatives kontinuierliches Lernen. Ohne Rohdaten zu teilen, ermöglicht MoveGCL eine dezentrale und progressive Modellentwicklung, indem synthetische Trajektorien, die von einem eingefrorenen Lehrer-Modell generiert werden, wiedergegeben werden. Es stärkt die Wissensbewahrung durch eine maßgeschneiderte Destillationsstrategie, die katastrophales Vergessen verhindert. Um die Heterogenität von Mobilitätsmustern zu berücksichtigen, integriert MoveGCL einen Mixture-of-Experts-Transformer mit einem mobilitätsbewussten Expert-Routing-Mechanismus und verwendet eine schrittweise Anpassungsstrategie auf Ebene der Schichten, um kontinuierliche Updates zu stabilisieren. Experimente mit sechs realen urbanen Datensätzen zeigen, dass MoveGCL eine Leistung erzielt, die mit gemeinsamem Training vergleichbar ist und federierte Lernbaselines deutlich übertrifft, während es gleichzeitig starken Datenschutz bietet. MoveGCL markiert einen entscheidenden Schritt hin zur Erschließung von Foundation-Modellen für die Mobilität und bietet einen praktischen Leitfaden für offene, skalierbare und datenschutzfreundliche Modellentwicklung im Zeitalter der Foundation-Modelle.
Die Konstruktion einer physikalisch realistischen und maßstabsgetreuen simulierten 3D-Welt ist entscheidend für das Training und die Bewertung von Aufgaben der verkörperten Intelligenz. Die Vielfalt, der Realismus, die niedrigen Kosten, die Zugänglichkeit und die Erschwinglichkeit von 3D-Datenressourcen sind von zentraler Bedeutung, um Generalisierung und Skalierbarkeit in der verkörperten KI zu erreichen. Dennoch stützen sich die meisten aktuellen Aufgaben der verkörperten Intelligenz stark auf traditionelle 3D-Computergrafikressourcen, die manuell erstellt und annotiert werden und unter hohen Produktionskosten sowie begrenztem Realismus leiden. Diese Einschränkungen behindern die Skalierbarkeit datengetriebener Ansätze erheblich. Wir präsentieren EmbodiedGen, eine grundlegende Plattform für die interaktive 3D-Weltgenerierung. Sie ermöglicht die skalierbare Erzeugung hochwertiger, kontrollierbarer und fotorealistischer 3D-Ressourcen mit präzisen physikalischen Eigenschaften und realistischem Maßstab im Unified Robotics Description Format (URDF) zu geringen Kosten. Diese Ressourcen können direkt in verschiedene Physik-Simulations-Engines importiert werden, um eine fein abgestimmte physikalische Steuerung zu ermöglichen und nachgelagerte Aufgaben in Training und Bewertung zu unterstützen. EmbodiedGen ist ein benutzerfreundliches, vollständig ausgestattetes Toolkit, das aus sechs Schlüsselmodulen besteht: Bild-zu-3D, Text-zu-3D, Texturgenerierung, Generierung artikulierter Objekte, Szenengenerierung und Layoutgenerierung. EmbodiedGen erzeugt vielfältige und interaktive 3D-Welten, die aus generativen 3D-Ressourcen bestehen, und nutzt generative KI, um die Herausforderungen der Generalisierung und Bewertung im Hinblick auf die Anforderungen der verkörperten Intelligenzforschung zu bewältigen. Der Code ist verfügbar unter https://horizonrobotics.github.io/robot_lab/embodied_gen/index.html.
Eine zuverlässige Bewertung der Fähigkeiten von Sprachmodellen ist entscheidend, um umsetzbare Erkenntnisse zu gewinnen, die die Modellentwicklung informieren können. Allerdings stehen rigorose kausale Bewertungen in diesem Bereich vor erheblichen methodischen Herausforderungen, darunter komplexe Störfaktoren und prohibitive Rechenkosten, die mit umfangreichen Neuberechnungen verbunden sind. Um diese Herausforderungen zu bewältigen, schlagen wir ein kausales Repräsentationslernframework vor, bei dem die beobachtete Benchmark-Leistung als lineare Transformation einiger latenter Fähigkeitsfaktoren modelliert wird. Entscheidend ist, dass diese latenten Faktoren als kausal miteinander verbunden identifiziert werden, nachdem das Basismodell als gemeinsamer Störfaktor angemessen kontrolliert wurde. Durch die Anwendung dieses Ansatzes auf einen umfassenden Datensatz, der über 1500 Modelle umfasst, die über sechs Benchmarks des Open LLM Leaderboards bewertet wurden, identifizieren wir eine prägnante dreiknotige lineare Kausalstruktur, die die beobachteten Leistungsvariationen zuverlässig erklärt. Die weitere Interpretation dieser Kausalstruktur liefert erhebliche wissenschaftliche Erkenntnisse, die über einfache numerische Rangfolgen hinausgehen: Insbesondere zeigen wir eine klare kausale Richtung auf, die von allgemeinen Problemlösungsfähigkeiten ausgeht, über die Fähigkeit zur Befolgung von Anweisungen fortschreitet und in mathematischem Denkvermögen gipfelt. Unsere Ergebnisse unterstreichen die wesentliche Rolle der sorgfältigen Kontrolle von Basismodellvariationen während der Bewertung, ein Schritt, der entscheidend ist, um die zugrunde liegenden kausalen Beziehungen zwischen den latenten Modellfähigkeiten genau aufzudecken.
Bildunterschriften sind entscheidend, um Lesern zu helfen, die Kernaussage einer Abbildung zu verstehen und sich daran zu erinnern. Viele Modelle wurden entwickelt, um solche Unterschriften zu generieren, wodurch Autoren unterstützt werden, qualitativ hochwertigere Unterschriften leichter zu erstellen. Dennoch müssen Autoren generische, KI-generierte Unterschriften fast immer überarbeiten, um sie an ihren Schreibstil und den Stil des Fachgebiets anzupassen, was den Bedarf an Personalisierung unterstreicht. Trotz Fortschritten bei der Personalisierung von Sprachmodellen (LaMP) konzentrieren sich diese Technologien oft auf rein textbasierte Szenarien und behandeln selten Fälle, in denen sowohl Eingaben als auch Profile multimodal sind. Dieses Papier stellt LaMP-Cap vor, einen Datensatz für die personalisierte Generierung von Bildunterschriften mit multimodalen Abbildungsprofilen. Für jede Zielabbildung bietet LaMP-Cap nicht nur die erforderlichen Eingaben, wie Abbildungsbilder, sondern auch bis zu drei weitere Abbildungen aus demselben Dokument – jeweils mit ihrem Bild, ihrer Unterschrift und den Absätzen, die die Abbildung erwähnen – als Profil, um den Kontext zu charakterisieren. Experimente mit vier LLMs zeigen, dass die Verwendung von Profilinformationen konsequent dazu beiträgt, Unterschriften zu generieren, die näher an den ursprünglich vom Autor verfassten liegen. Ablationsstudien zeigen, dass Bilder im Profil hilfreicher sind als Absätze, die die Abbildung erwähnen, was den Vorteil der Verwendung multimodaler Profile gegenüber rein textbasierten Profilen unterstreicht.
Während sich automatisierte Angriffstechniken rasant weiterentwickeln, bleiben CAPTCHAs ein entscheidendes Abwehrmechanismus gegen bösartige Bots. Allerdings umfassen bestehende CAPTCHA-Schemata eine Vielzahl von Modalitäten – von statischem verzerrtem Text und verschleierten Bildern bis hin zu interaktiven Klicks, Schiebe-Puzzles und logikbasierten Fragen – doch der Community fehlt nach wie vor ein einheitlicher, groß angelegter, multimodaler Benchmark, um deren Sicherheitsrobustheit rigoros zu bewerten. Um diese Lücke zu schließen, stellen wir MCA-Bench vor, eine umfassende und reproduzierbare Benchmarking-Suite, die heterogene CAPTCHA-Typen in ein einheitliches Bewertungsprotokoll integriert. Mithilfe eines gemeinsamen Vision-Language-Modell-Backbones feintunen wir spezialisierte Cracking-Agenten für jede CAPTCHA-Kategorie, wodurch konsistente, cross-modale Bewertungen ermöglicht werden. Umfangreiche Experimente zeigen, dass MCA-Bench effektiv das Schwachstellenspektrum moderner CAPTCHA-Designs unter verschiedenen Angriffsszenarien abbildet und erstmals eine quantitative Analyse bietet, wie Herausforderungskomplexität, Interaktionstiefe und Modelllösbarkeit zusammenhängen. Basierend auf diesen Erkenntnissen schlagen wir drei umsetzbare Designprinzipien vor und identifizieren zentrale offene Herausforderungen, wodurch die Grundlage für systematische CAPTCHA-Härtung, faires Benchmarking und breitere Community-Zusammenarbeit gelegt wird. Datensätze und Code sind online verfügbar.
Die Echtzeit-Rekonstruktion dynamischer 3D-Szenen aus unkalibrierten Videoströmen ist für zahlreiche reale Anwendungen von entscheidender Bedeutung. Bestehende Methoden haben jedoch Schwierigkeiten, drei zentrale Herausforderungen gleichzeitig zu bewältigen: 1) die Verarbeitung unkalibrierter Eingaben in Echtzeit, 2) die präzise Modellierung der dynamischen Szenenentwicklung und 3) die Aufrechterhaltung von Langzeitstabilität und Recheneffizienz. Vor diesem Hintergrund stellen wir StreamSplat vor, das erste vollständig vorwärtsgerichtete Framework, das unkalibrierte Videoströme beliebiger Länge in Echtzeit in dynamische 3D-Gaussian-Splatting (3DGS)-Darstellungen umwandelt und dabei in der Lage ist, Szenendynamiken aus zeitlich begrenzten Beobachtungen zu rekonstruieren. Wir präsentieren zwei wesentliche technische Innovationen: einen probabilistischen Sampling-Mechanismus im statischen Encoder für die 3DGS-Positionsvorhersage und ein bidirektionales Deformationsfeld im dynamischen Decoder, das eine robuste und effiziente dynamische Modellierung ermöglicht. Umfangreiche Experimente auf statischen und dynamischen Benchmarks zeigen, dass StreamSplat bestehende Arbeiten sowohl in der Rekonstruktionsqualität als auch in der Modellierung dynamischer Szenen konsequent übertrifft und dabei als einziges Framework die Online-Rekonstruktion beliebig langer Videoströme unterstützt. Code und Modelle sind unter https://github.com/nickwzk/StreamSplat verfügbar.