papers.description
Die egozentrische Wahrnehmung ermöglicht es Menschen, die Welt direkt aus ihrer eigenen Perspektive zu erleben und zu verstehen. Die Übersetzung exozentrischer (Third-Person) Videos in egozentrische (First-Person) Videos eröffnet neue Möglichkeiten für immersives Verständnis, bleibt jedoch aufgrund extremer Kamerapositionsvariationen und minimaler Bildüberlappung äußerst herausfordernd. Diese Aufgabe erfordert die treue Bewahrung sichtbarer Inhalte bei gleichzeitiger Synthese unsichtbarer Bereiche auf geometrisch konsistente Weise. Um dies zu erreichen, präsentieren wir EgoX, ein neuartiges Framework zur Generierung egozentrischer Videos aus einer einzigen exozentrischen Eingabe. EgoX nutzt das vortrainierte raumzeitliche Wissen großskaliger Video-Diffusionsmodelle durch leichte LoRA-Adaptierung und führt eine vereinheitlichte Konditionierungsstrategie ein, die exozentrische und egozentrische Priors über Breiten- und Kanalverkettung kombiniert. Zusätzlich ermöglicht ein geometriegeführtes Self-Attention-Mechanismus die selektive Fokussierung auf räumlich relevante Regionen, wodurch geometrische Kohärenz und hohe visuelle Qualität sichergestellt werden. Unser Ansatz erreicht eine kohärente und realistische egozentrische Videogenerierung und zeigt gleichzeitig starke Skalierbarkeit und Robustheit gegenüber ungesehenen und unkontrollierten Videos.
Eine zuverlässige Interpretation multimodaler Daten in der Zahnmedizin ist entscheidend für automatisierte Mundgesundheitsversorgung, doch aktuelle multimodale Large Language Models (MLLMs) haben Schwierigkeiten, feingranulare zahnmedizinische visuelle Details zu erfassen und verfügen nicht über ausreichende Fähigkeiten zur präzisen Diagnose. Um diese Einschränkungen zu adressieren, präsentieren wir DentalGPT, ein spezialisiertes zahnmedizinisches MLLM, das durch hochwertige Domänenwissensintegration und bestärkendes Lernen entwickelt wurde. Konkret wurde der bisher größte annotierte multimodale Datensatz für die Zahnmedizin erstellt, indem über 120.000 Zahnbilder mit detaillierten Beschreibungen kombiniert wurden, die diagnostisch relevante visuelle Merkmale hervorheben. Dies macht ihn zum multimodalen Datensatz mit der umfangreichsten Sammlung zahnmedizinischer Bilder bis heute. Das Training auf diesem Datensatz verbessert signifikant das visuelle Verständnis des MLLMs für zahnmedizinische Zustände, während die anschließende Phase des bestärkenden Lernens seine Fähigkeit zum multimodalen komplexen Schlussfolgern weiter stärkt. Umfassende Evaluierungen auf Intraoral- und Panorama-Benchmarks sowie zahnmedizinischen Teilmengen medizinischer VQA-Benchmarks zeigen, dass DentalGPT bei Krankheitsklassifikation und dentalen VQA-Aufgaben überlegene Leistung erzielt und viele state-of-the-art MLLMs übertrifft, obwohl es nur 7B Parameter hat. Diese Ergebnisse demonstrieren, dass hochwertige zahnmedizinische Daten kombiniert mit abgestufter Anpassung einen effektiven Weg zur Entwicklung leistungsfähiger und domänenspezialisierter dentaler MLLMs bieten.
Visuelle Generierung auf Basis von Repräsentationen visueller Grundlagenmodelle (VFM) bietet einen vielversprechenden einheitlichen Ansatz zur Integration von visuellem Verständnis, Wahrnehmung und Generierung. Trotz dieses Potenzials ist das Training großskaliger Text-zu-Bild-Diffusionsmodelle vollständig im VFM-Repräsentationsraum weitgehend unerforscht. Um diese Lücke zu schließen, skalieren wir das SVG-Framework (Self-supervised representations for Visual Generation) und schlagen SVG-T2I vor, um hochwertige Text-zu-Bild-Synthese direkt im VFM-Merkmalsbereich zu ermöglichen. Durch die Nutzung einer standardmäßigen Text-zu-Bild-Diffusionspipeline erzielt SVG-T2I wettbewerbsfähige Leistungen, die 0,75 auf GenEval und 85,78 auf DPG-Bench erreichen. Diese Leistung bestätigt die intrinsische Repräsentationskraft von VFMs für generative Aufgaben. Wir stellen das Projekt vollständig als Open Source zur Verfügung, einschließlich Autoencoder, Generierungsmodell, deren Trainings-, Inferenz- und Evaluierungspipelines sowie vortrainierter Gewichte, um weitere Forschung in repräsentationsgesteuerter visueller Generierung zu fördern.
Große Videogenerierungsmodelle haben ein bemerkenswertes Potenzial bei der Modellierung fotorealistischer Erscheinung und Lichtinteraktionen in realen Szenen gezeigt. Ein geschlossenes Framework, das intrinsische Szeneneigenschaften (z.B. Albedo, Normale, Material und Bestrahlungsstärke) gemeinsam versteht, sie für die Videosynthese nutzt und editierbare intrinsische Repräsentationen unterstützt, wurde jedoch bisher nicht erforscht. Wir stellen V-RGBX vor, das erste End-to-End-Framework für intrinsisch-bewusste Videobearbeitung. V-RGBX vereint drei Schlüsselfähigkeiten: (1) inverses Rendering von Videos in intrinsische Kanäle, (2) fotorealistische Videosynthese aus diesen intrinsischen Repräsentationen und (3) keyframe-basierte Videobearbeitung auf Grundlage intrinsischer Kanäle. Kern von V-RGBX ist ein verschachtelter Konditionierungsmechanismus, der intuitive, physikalisch fundierte Videobearbeitung durch benutzerausgewählte Keyframes ermöglicht und flexible Manipulation beliebiger intrinsischer Modalitäten unterstützt. Umfangreiche qualitative und quantitative Ergebnisse zeigen, dass V-RGBX zeitlich konsistente, fotorealistische Videos erzeugt und gleichzeitig Keyframe-Bearbeitungen sequenzübergreifend auf physikalisch plausiblere Weise propagiert. Wir demonstrieren seine Wirksamkeit in diversen Anwendungen, einschließlich Objekterscheinungsbearbeitung und Szenenausleuchtung, wobei es die Leistung bisheriger Methoden übertrifft.
Aktuelle diffusionsbasierte Porträtanimationsmodelle konzentrieren sich hauptsächlich auf die Verbesserung der visuellen Qualität und des Ausdrucksrealismus, vernachlässigen dabei jedoch die Generierungslatenz und Echtzeitfähigkeit, was ihren Anwendungsbereich im Livestreaming-Szenario einschränkt. Wir stellen PersonaLive vor, ein neuartiges diffusionsbasiertes Framework für Echtzeit-Porträtanimation im Streaming mit mehrstufigen Trainingsrezepten. Konkret verwenden wir zunächst hybride implizite Signale – nämlich implizite Gesichtsrepräsentationen und 3D-implizite Keypoints – um eine ausdrucksstarke bildbasierte Bewegungssteuerung zu erreichen. Anschließend wird eine Fewer-Step-Appearance-Distillation-Strategie vorgeschlagen, um Redundanzen im Denoising-Prozess zu eliminieren und die Inferenzeffizienz erheblich zu steigern. Schließlich führen wir ein autoregressives Micro-Chunk-Streaming-Generierungsparadigma ein, das mit einer Sliding-Training-Strategie und einem historischen Keyframe-Mechanismus ausgestattet ist, um eine latenzarme und stabile Langzeitvideogenerierung zu ermöglichen. Umfangreiche Experimente belegen, dass PersonaLive state-of-the-art Leistung erzielt und dabei eine bis zu 7-22-fache Beschleunigung gegenüber bisherigen diffusionsbasierten Porträtanimationsmodellen erreicht.
Der Selbstaufmerksamkeitsmechanismus (Self-Attention) in Transformer-basierten Large Language Models (LLMs) skaliert quadratisch mit der Eingabelänge, was Inferenz mit langen Kontexten rechenintensiv macht. Sliding Window Attention (SWA) reduziert diese Kosten auf lineare Komplexität. Die naive Aktivierung einer vollständigen SWA zur Inferenzzeit bei Modellen, die mit Full Attention (FA) vortrainiert wurden, führt jedoch aufgrund eines Trainings-Inferenz-Mismatches zu erheblichen Leistungseinbußen bei langen Kontexten. Dies wirft die Frage auf: Können FA-vortrainierte LLMs gut an SWA angepasst werden, ohne erneut vortrainieren zu müssen? Wir untersuchen dies mit Sliding Window Attention Adaptation (SWAA), einer Sammlung praktischer Methoden, die fünf Ansätze für eine bessere Anpassung kombiniert: (1) Anwendung von SWA nur während des Prefillings; (2) Bewahrung von "Sink"-Tokens; (3) Verschachtelung von FA-/SWA-Schichten; (4) Chain-of-Thought (CoT); und (5) Fine-Tuning. Unsere Experimente zeigen, dass eine SWA-Adaption machbar, aber nicht trivial ist: Keine einzelne Methode genügt, doch spezifische synergetische Kombinationen stellen die ursprüngliche Leistung bei langen Kontexten effektiv wieder her. Wir analysieren weiterhin die Leistungs-Effizienz-Kompromisse verschiedener SWAA-Konfigurationen und geben empfohlene Vorgehensweisen für verschiedene Szenarien. Unser Code ist verfügbar unter https://github.com/yuyijiong/sliding-window-attention-adaptation.
Multimodales Lernen hat das visuelle Verständnis rapide vorangetrieben, hauptsächlich durch multimodale große Sprachmodelle (MLLMs), die leistungsstarke LLMs als kognitive Kerne nutzen. In der visuellen Generierung werden diese leistungsfähigen Kernmodelle jedoch typischerweise auf globale Text-Encoder für Diffusionsmodelle reduziert, wodurch der Großteil ihrer Fähigkeiten zum Schlussfolgern und Planen ungenutzt bleibt. Dies erzeugt eine Lücke: Aktuelle multimodale LLMs können komplexe Layouts, Attribute und wissensintensive Szenen analysieren, haben aber Schwierigkeiten, Bilder oder Videos mit ebenso präziser und strukturierter Steuerung zu generieren. Wir schlagen MetaCanvas vor, ein leichtgewichtiges Framework, das es MLLMs ermöglicht, direkt in räumlichen und raumzeitlichen latenten Räumen zu schlussfolgern und zu planen und eng mit Diffusions-Generatoren zu interagieren. Wir implementieren MetaCanvas empirisch auf drei verschiedenen Diffusions-Backbones und evaluieren es über sechs Aufgaben hinweg, einschließlich Text-zu-Bild-Generierung, Text-/Bild-zu-Video-Generierung, Bild-/Video-Bearbeitung und kontextbezogener Video-Generierung, wobei jede präzise Layouts, robuste Attributbindung und reasoning-intensive Steuerung erfordert. MetaCanvas übertrifft durchgängig Baseline-Methoden mit globaler Konditionierung, was darauf hindeutet, dass die Behandlung von MLLMs als Planer im latenten Raum eine vielversprechende Richtung ist, um die Lücke zwischen multimodalem Verständnis und Generierung zu schließen.
Primitivenbasierte Splatting-Verfahren wie 3D Gaussian Splatting haben die Synthese neuartiger Ansichten durch Echtzeit-Rendering revolutioniert. Ihre punktbasierten Repräsentationen sind jedoch nach wie vor inkompatibel mit meshbasierten Pipelines, die AR/VR- und Spiele-Engines antreiben. Wir stellen MeshSplatting vor, einen meshbasierten Rekonstruktionsansatz, der Geometrie und Erscheinungsbild gemeinsam durch differenzierbares Rendering optimiert. Durch die Erzwingung von Konnektivität mittels eingeschränkter Delaunay-Triangulierung und die Verfeinerung der Oberflächenkonsistenz erzeugt MeshSplatting end-to-end glatte, visuell hochwertige Meshes, die effizient in Echtzeit-3D-Engines gerendert werden können. Auf Mip-NeRF360 steigert es den PSNR-Wert um +0,69 dB gegenüber dem aktuellen State-of-the-Art-Verfahren MiLo für meshbasierte Neuansichtssynthese, bei gleichzeitig doppelt so schnellem Training und halbiertem Speicherbedarf. So überbrückt es neuronales Rendering und interaktive 3D-Grafik für nahtlose Echtzeit-Szeneninteraktion. Die Projektseite ist unter https://meshsplatting.github.io/ verfügbar.
Die Realität ist ein Wechselspiel zwischen starren Beschränkungen und verformbaren Strukturen. Für Videomodelle bedeutet dies, Bewegungen zu erzeugen, die sowohl die Detailtreue als auch die Struktur bewahren. Trotz Fortschritten bei Diffusionsmodellen bleibt die Erzeugung realistischer, strukturerhaltender Bewegungen eine Herausforderung, insbesondere bei artikulierten und verformbaren Objekten wie Menschen und Tieren. Die reine Skalierung von Trainingsdaten hat bisher physikalisch unplausible Übergänge nicht lösen können. Bestehende Ansätze stützen sich auf die Konditionierung mit verrauschten Bewegungsrepräsentationen, wie optischem Fluss oder Skeletten, die mit externen, unvollkommenen Modellen extrahiert werden. Um diese Herausforderungen zu bewältigen, stellen wir einen Algorithmus vor, um strukturerhaltende Bewegungs-Priors aus einem autoregressiven Video-Tracking-Modell (SAM2) in ein bidirektionales Video-Diffusionsmodell (CogVideoX) zu destillieren. Mit unserer Methode trainieren wir SAM2VideoX, das zwei Innovationen umfasst: (1) ein bidirektionales Feature-Fusion-Modul, das globale strukturerhaltende Bewegungs-Priors aus einem rekurrenten Modell wie SAM2 extrahiert; (2) einen Local-Gram-Flow-Loss, der die gemeinsame Bewegung lokaler Features ausrichtet. Experimente mit VBench und in Nutzerstudien zeigen, dass SAM2VideoX konsistente Verbesserungen (+2,60 % bei VBench, 21–22 % niedrigeres FVD und 71,4 % menschliche Präferenz) gegenüber früheren Baseline-Modellen erzielt. Konkret erreichen wir bei VBench 95,51 %, was REPA (92,91 %) um 2,60 % übertrifft, und senken das FVD auf 360,57, eine Verbesserung um 21,20 % bzw. 22,46 % gegenüber REPA- und LoRA-Finetuning. Die Projektwebsite ist unter https://sam2videox.github.io/ zu finden.
Wir stellen LEO-RobotAgent vor, ein allgemeines sprachgestütztes intelligentes Agenten-Framework für Roboter. Innerhalb dieses Frameworks können LLMs verschiedene Robotertypen steuern, um unvorhersehbare komplexe Aufgaben in unterschiedlichsten Szenarien zu bewältigen. Dieses Framework zeichnet sich durch hohe Generalisierungsfähigkeit, Robustheit und Effizienz aus. Das darauf aufbauende Anwendungssystem kann das bidirektionale Verständnis zwischen Mensch und Roboter vollständig verbessern und die Schwelle für die Mensch-Roboter-Interaktion senken. In Bezug auf die Roboteraufgabenplanung konzentrieren sich die meisten bestehenden Studien auf den Einsatz großer Modelle in Einzelszenarien und für einzelne Robotertypen. Diese Algorithmen weisen oft komplexe Strukturen auf und mangelt es an Generalisierbarkeit. Daher ist das vorgeschlagene LEO-RobotAgent-Framework möglichst schlank strukturiert, um großen Modellen zu ermöglichen, innerhalb dieses klaren Frameworks eigenständig zu denken, zu planen und zu handeln. Wir stellen ein modular aufgebautes und einfach registrierbares Toolset bereit, das großen Modellen erlaubt, flexibel verschiedene Werkzeuge aufzurufen, um unterschiedliche Anforderungen zu erfüllen. Gleichzeitig integriert das Framework einen Mensch-Roboter-Interaktionsmechanismus, der es dem Algorithmus ermöglicht, wie ein Partner mit Menschen zusammenzuarbeiten. Experimente haben bestätigt, dass dieses Framework problemlos an主流 Roboterplattformen einschließlich unbemannter Luftfahrzeuge (UAVs), Roboterarme und fahrwerksbasierter Roboter adaptiert werden kann und dabei verschiedenste, sorgfältig entworfene Aufgaben unterschiedlicher Komplexitätsgrade effizient ausführt. Unser Code ist verfügbar unter https://github.com/LegendLeoChen/LEO-RobotAgent.
Das moderne Pre-Training großer Sprachmodelle (LLM) erfordert enorme Rechenleistung und Trainingsdaten, wodurch das Skalierungsverhalten bzw. die Skalierungsgesetze verschiedener Modelle zu einem entscheidenden Unterscheidungsmerkmal werden. Diskrete Diffusions-Sprachmodelle (DLM) wurden als Alternative zu autoregressiven Sprachmodellen (ALM) vorgeschlagen. Deren Skalierungsverhalten wurde jedoch noch nicht vollständig erforscht, wobei frühere Arbeiten nahelegen, dass sie mehr Daten und Rechenleistung benötigen, um die Leistung von ALM zu erreichen. Wir untersuchen das Skalierungsverhalten von DLM bei verschiedenen Rauschtypen durch sanfte Interpolation zwischen maskierter und uniformer Diffusion unter besonderer Beachtung kritischer Hyperparameter wie Batch-Größe und Lernrate. Unsere Experimente zeigen, dass das Skalierungsverhalten von DLM stark vom Rauschtyp abhängt und sich erheblich von ALM unterscheidet. Während alle Rauschtypen bei rechengebundener Skalierung ähnliche Verlustwerte erreichen, stellen wir fest, dass uniforme Diffusion im Vergleich zu maskierter Diffusion mehr Parameter, aber weniger Daten für recheneffizientes Training benötigt, was sie zu einer vielversprechenden Option in datenbegrenzten Szenarien macht. Wir skalieren unser uniformes Diffusionsmodell auf bis zu 10 Mrd. Parameter, die mit 10²² FLOPs trainiert wurden, bestätigen das vorhergesagte Skalierungsverhalten und machen es damit zum größten öffentlich bekannten uniformen Diffusionsmodell bis dato.
Wir stellen SHARP vor, einen Ansatz zur photorealistischen Synthese von Ansichten aus einem einzelnen Bild. Ausgehend von einer einzelnen Fotografie regressiert SHARP die Parameter einer 3D-Gauß-Darstellung der dargestellten Szene. Dies geschieht in weniger als einer Sekunde auf einer Standard-GPU mittels eines einzelnen Vorwärtsdurchlaufs durch ein neuronales Netz. Die von SHARP erzeugte 3D-Gauß-Darstellung kann anschließend in Echtzeit gerendert werden und liefert hochauflösende photorealistische Bilder für benachbarte Blickwinkel. Die Darstellung ist metrisch, mit absolutem Maßstab, und unterstützt metrische Kamerabewegungen. Experimentelle Ergebnisse zeigen, dass SHARP eine robuste Zero-Shot-Generalisierung über Datensätze hinweg erreicht. Es setzt einen neuen State-of-the-Art auf mehreren Datensätzen, reduziert LPIPS um 25–34 % und DISTS um 21–43 % im Vergleich zum besten bisherigen Modell, während die Synthesezeit um drei Größenordnungen verringert wird. Code und Gewichte sind unter https://github.com/apple/ml-sharp verfügbar.
Große Sprachmodelle (LLMs) haben die künstliche Intelligenz revolutioniert, doch ihre enormen Speicher- und Rechenanforderungen erfordern eine aggressive Quantisierung, die Darstellungen zunehmend an die theoretische Grenze eines einzelnen Bits heranführt. Während komplexwertige LLMs wie iFairy im Vergleich zu reellwertigen Gegenstücken eine bessere Chance für eine Darstellung mit wenigen Bits bieten, müssen sie von Grund auf trainiert werden, was die Nutzung des riesigen Ökosystems vortrainierter reellwertiger Basismodelle verhindert. Hier präsentieren wir Fairy2i, einen universellen Rahmen, der vortrainierte reellwertige Schichten in eine äquivalente weitgehend-lineare komplexe Form umwandelt und so eine extrem niederbit-Quantisierung bei Wiederverwendung bestehender Checkpoints ermöglicht. Indem wir eine verlustfreie mathematische Äquivalenz zwischen reellen und weitgehend-linearen Abbildungen beweisen, konvertieren wir Standard-Transformer in den komplexen Bereich und wenden ein phasenbewusstes Quantisierungsschema mit einem hocheffizienten Codebook aus vierten Einheitswurzeln an. Darüber hinaus führen wir einen rekursiven residualen Quantisierungsmechanismus ein, der den Quantisierungsfehler iterativ minimiert und einen Inferenzvorgang durch effiziente multiplikationsfreie Akkumulation erlaubt. Wir zeigen, dass Fairy2i die Leistung von LLaMA-2 7B bei einer effektiven 2-Bit-Präzision auf ein Niveau nahezu vergleichbar mit Vollpräzisions-Baselines wiederherstellt und dabei state-of-the-art reellwertige Binär- und Ternärquantisierungsmethoden deutlich übertrifft. Diese Arbeit schließt die Lücke zwischen der Darstellungseffizienz komplexwertiger Arithmetik und dem praktischen Nutzen vortrainierter Modelle und ebnet einen neuen Weg für effiziente Inferenz auf Standardhardware.
Die Bewertung mit LLM-as-Judge hat sich zum De-facto-Standard für die Skalierung von Modellbewertungen entwickelt, doch die Methode ist statistisch unzuverlässig: unkalibrierte Scores können Präferenzen umkehren, naive Konfidenzintervalle für unkalibrierte Scores erreichen eine Abdeckung von fast 0%, und importance-weighted Schätzer brechen zusammen, wenn nur begrenzte Überlappung vorliegt – trotz hoher effektiver Stichprobengröße (ESS). Wir stellen Causal Judge Evaluation (CJE) vor, ein Framework, das alle drei Probleme behebt. Auf n=4.961 Chatbot Arena Prompts (nach Filterung aus 5k) erreicht CJE bei voller Stichprobengröße eine paarweise Ranking-Genauigkeit von 99% (im Durchschnitt über alle Konfigurationen 94%), was der Qualität eines Oracle entspricht, bei 14-fach geringeren Kosten (für das Ranking von 5 Policies), indem ein 16-fach günstigerer Judge mit nur 5% Oracle-Labels (~250 Labels) kalibriert wird. CJE kombiniert drei Komponenten: (i) AutoCal-R, Reward-Kalibrierung mittels mittelwerterhaltender isotoner Regression; (ii) SIMCal-W, Gewichtsstabilisierung durch Stacking von S-monotonen Kandidaten; und (iii) Oracle-Uncertainty Aware (OUA) Inferenz, die Kalibrierungsunsicherheit in Konfidenzintervalle propagiert. Wir formalisieren die Coverage-Limited Efficiency (CLE)-Diagnose, die erklärt, warum IPS-artige Schätzer versagen, selbst wenn die ESS 90% übersteigt: Der Logger besucht selten Regionen, in denen sich die Ziel-Policies konzentrieren. Wichtige Erkenntnisse: SNIPS kehrt Rankings selbst mit Reward-Kalibrierung um (38% paarweise, negativer Kendall's Tau) aufgrund von Gewichtsinstabilität; kalibriertes IPS bleibt trotz Gewichtsstabilisierung nahezu zufällig (47%), was mit CLE konsistent ist; OUA verbessert die Abdeckung von nahe 0% auf ~86% (Direct) und ~96% (stacked-DR), während naive Intervalle stark unterdecken.
Wir stellen Particulate vor, einen vorwärtsgerichteten Ansatz, der aus einem einzigen statischen 3D-Mesh eines alltäglichen Objekts direkt alle Attribute der zugrundeliegenden artikulierten Struktur ableitet, einschließlich ihrer 3D-Teile, kinematischen Struktur und Bewegungseinschränkungen. Kernstück ist ein Transformer-Netzwerk, der Part Articulation Transformer, der eine Punktwolke des Eingabe-Meshes mit einer flexiblen und skalierbaren Architektur verarbeitet, um alle genannten Attribute mit nativer Unterstützung für mehrere Gelenke vorherzusagen. Wir trainieren das Netzwerk end-to-end auf einer vielfältigen Sammlung artikulierter 3D-Assets aus öffentlichen Datensätzen. Während der Inferenz überträgt Particulate die vorwärtsgerichtete Vorhersage des Netzwerks auf das Eingabe-Mesh und liefert so innerhalb von Sekunden ein vollständig artikuliertes 3D-Modell – deutlich schneller als bisherige Ansätze, die eine Optimierung pro Objekt erfordern. Particulate kann die artikulierte Struktur von KI-generierten 3D-Assets ebenfalls präzise ableiten und ermöglicht so die vollständige Extraktion artikulierter 3D-Objekte aus einem einzigen (realen oder synthetischen) Bild, wenn es mit einem herkömmlichen Bild-zu-3D-Generator kombiniert wird. Darüber hinaus führen wir einen neuen anspruchsvollen Benchmark für die 3D-Artikulationsschätzung ein, der aus hochwertigen öffentlichen 3D-Assets kuratiert wurde, und gestalten das Auswertungsprotokoll konsistenter mit menschlichen Präferenzen. Quantitative und qualitative Ergebnisse zeigen, dass Particulate state-of-the-art Ansätze deutlich übertrifft.
Stereo-Foundation-Models erreichen eine starke Zero-Shot-Generalisierung, bleiben jedoch rechenintensiv und für Echtzeitanwendungen ungeeignet. Effiziente Stereo-Architekturen opfern hingegen Robustheit für Geschwindigkeit und erfordern kostspieliges domänenspezifisches Fine-Tuning. Um diese Lücke zu schließen, präsentieren wir Fast-FoundationStereo, eine Architekturfamilie, die erstmals eine starke Zero-Shot-Generalisierung bei Echtzeit-Bildraten erreicht. Wir verwenden eine Divide-and-Conquer-Beschleunigungsstrategie mit drei Komponenten: (1) Wissensdistillation zur Komprimierung des Hybrid-Backbones in einen einzigen effizienten Studenten; (2) blockweise neuronale Architektursuche zur automatischen Ermittlung optimaler Kostenfilter-Designs unter Latenzvorgaben, wodurch die Suchkomplexität exponentiell reduziert wird; und (3) strukturiertes Pruning zur Beseitigung von Redundanzen im iterativen Optimierungsmodul. Darüber hinaus führen wir eine automatische Pseudolabel-Pipeline ein, mit der 1,4M Stereo-Bildpaare aus realen Umgebungen kuratiert wurden, um synthetische Trainingsdaten zu ergänzen und die Wissensdistillation zu erleichtern. Das resultierende Modell kann über 10-mal schneller laufen als FoundationStereo, bei gleichzeitig vergleichbarer Zero-Shot-Genauigkeit, und setzt damit einen neuen State-of-the-Art unter Echtzeitmethoden. Projektseite: https://nvlabs.github.io/Fast-FoundationStereo/
Wir stellen eine Vision-Aktions-Policy vor, die den ersten Platz bei der BEHAVIOR Challenge 2025 gewann – einem umfangreichen Benchmark mit 50 verschiedenen Haushaltsaufgaben mit langem Planungshorizont in fotorealistischer Simulation, die bimanuelle Manipulation, Navigation und kontextbewusste Entscheidungsfindung erfordern. Aufbauend auf der Pi0.5-Architektur führen wir mehrere Innovationen ein. Unser Hauptbeitrag ist korreliertes Rauschen für Flow Matching, das die Trainingseffizienz verbessert und korrelationsbewusstes Inpainting für glatte Aktionssequenzen ermöglicht. Zusätzlich wenden wir lernbare Mixed-Layer-Attention und System-2-Stufen-Tracking zur Auflösung von Mehrdeutigkeiten an. Das Training nutzt Multi-Sample-Flow-Matching zur Reduzierung der Varianz, während für die Inferenz Aktionskompression und challengespezifische Korrekturregeln eingesetzt werden. Unser Ansatz erzielt einen Q-Score von 26 % über alle 50 Aufgaben hinweg, sowohl auf der öffentlichen als auch auf der privaten Bestenliste.
Die Integration von Sprachmodellen (LMs) in Gesundheitssysteme birgt großes Potenzial zur Verbesserung medizinischer Arbeitsabläufe und Entscheidungsfindung. Ein entscheidendes Hindernis für ihre praktische Anwendung ist jedoch der Mangel an zuverlässiger Bewertung ihrer Vertrauenswürdigkeit, insbesondere in mehrsprachigen Gesundheitskontexten. Bestehende Sprachmodelle werden überwiegend in Hochressourcensprachen trainiert, was sie ungeeignet macht, die Komplexität und Vielfalt von Gesundheitsanfragen in Mittel- und Niedrigressourcensprachen zu bewältigen. Dies stellt erhebliche Herausforderungen für ihren Einsatz in globalen Gesundheitssystemen dar, in denen sprachliche Diversität entscheidend ist. In dieser Arbeit stellen wir CLINIC vor, einen umfassenden mehrsprachigen Benchmark zur Bewertung der Vertrauenswürdigkeit von Sprachmodellen im Gesundheitswesen. CLINIC evaluiert Sprachmodelle systematisch in fünf Schlüsseldimensionen der Vertrauenswürdigkeit: Wahrhaftigkeit, Fairness, Sicherheit, Robustheit und Privatsphäre. Diese werden durch 18 verschiedene Aufgaben operationalisiert, die 15 Sprachen (unter Einbeziehung aller großen Kontinente) abdecken und ein breites Spektrum kritischer Gesundheitsthemen wie Krankheitsbilder, Präventionsmaßnahmen, Diagnosetests, Behandlungen, Operationen und Medikation umfassen. Unsere umfangreiche Auswertung zeigt, dass Sprachmodelle mit faktischer Korrektheit kämpfen, Verzerrungen über demografische und linguistische Gruppen hinweg aufweisen und anfällig für Datenschutzverletzungen und adversariale Angriffe sind. Indem CLINIC diese Mängel aufzeigt, legt es die Grundlage für die Verbesserung der globalen Reichweite und Sicherheit von Sprachmodellen im Gesundheitswesen über verschiedene Sprachen hinweg.
Menschen können komplexe Aktivitäten intuitiv parallelisieren, aber kann ein Modell dies durch die Beobachtung einer einzelnen Person erlernen? Ausgehend von einem egocentrischen Video führen wir das N-Body-Problem ein: wie N Individuen hypothetisch denselben Satz von Aufgaben ausführen könnten, der in diesem Video beobachtet wird. Das Ziel ist die Maximierung der Beschleunigung, aber eine naive Zuordnung von Videosegmenten zu Individuen verstößt oft gegen reale Randbedingungen und führt zu physikalisch unmöglichen Szenarien, wie z.B. zwei Personen, die denselben Gegenstand benutzen oder denselben Raum einnehmen. Um dies zu adressieren, formalisieren wir das N-Body-Problem und schlagen eine Reihe von Metriken vor, um sowohl die Leistung (Beschleunigung, Aufgabendeckung) als auch die Durchführbarkeit (räumliche Kollisionen, Objektkonflikte und kausale Abhängigkeiten) zu bewerten. Anschließend stellen wir eine strukturierte Prompting-Strategie vor, die ein Vision-Language-Model (VLM) anleitet, über die 3D-Umgebung, Objektnutzung und zeitliche Abhängigkeiten zu schlussfolgern, um eine praktikable parallele Ausführung zu erzeugen. Bei 100 Videos aus EPIC-Kitchens und HD-EPIC steigert unsere Methode für N = 2 die Aktionsabdeckung um 45 % gegenüber einem Baseline-Prompt für Gemini 2.5 Pro und reduziert gleichzeitig die Kollisionsraten sowie Objekt- und Kausalitätskonflikte um 55 %, 45 % bzw. 55 %.
Die Schätzung von Unsicherheit ist entscheidend für den sicheren klinischen Einsatz medizinischer Bildsegmentierungssysteme, da sie die Identifizierung unzuverlässiger Vorhersagen ermöglicht und die menschliche Überwachung unterstützt. Während sich frühere Arbeiten weitgehend auf pixelbezogene Unsicherheit konzentriert haben, bietet die land-markenbasierte Segmentierung inhärente topologische Garantien, wurde jedoch aus der Perspektive der Unsicherheit bisher wenig erforscht. In dieser Arbeit untersuchen wir die Unsicherheitsschätzung für die anatomische land-markenbasierte Segmentierung von Thorax-Röntgenaufnahmen. Inspiriert von hybriden neuronalen Netzwerkarchitekturen, die konventionelle bildbasierte Faltungs-Encoder mit graphenbasierten generativen Decodern kombinieren, und unter Nutzung ihres variationellen latenten Raums leiten wir zwei komplementäre Maße ab: (i) latente Unsicherheit, die direkt aus den gelernten Verteilungsparametern erfasst wird, und (ii) prädiktive Unsicherheit, die durch die Generierung multipler stochastischer Ausgabevorhersagen aus latenten Stichproben gewonnen wird. Durch kontrollierte Korruptionsexperimente zeigen wir, dass beide Unsicherheitsmaße mit der Stärke der Störung zunehmen und sowohl globale als auch lokale Bildverschlechterung widerspiegeln. Wir demonstrieren, dass diese Unsicherheitssignale unzuverlässige Vorhersagen durch Vergleich mit manuellen Ground-Truth-Daten identifizieren können und die Detektion von Out-of-Distribution-Daten im CheXmask-Datensatz unterstützen. Noch wichtiger ist, dass wir CheXmask-U (huggingface.co/datasets/mcosarinsky/CheXmask-U) veröffentlichen, einen groß angelegten Datensatz mit 657.566 Land-marken-Segmentierungen von Thorax-Röntgenaufnahmen, der Unsicherheitsschätzungen pro Knoten enthält. Dies ermöglicht Forschern, räumliche Variationen der Segmentierungsqualität bei der Verwendung dieser anatomischen Masken zu berücksichtigen. Unsere Ergebnisse etablieren die Unsicherheitsschätzung als vielversprechende Richtung zur Verbesserung der Robustheit und des sicheren Einsatzes land-markenbasierter anatomischer Segmentierungsmethoden in der Thorax-Röntgenbildgebung. Eine voll funktionsfähige interaktive Demo der Methode ist verfügbar unter huggingface.co/spaces/matiasky/CheXmask-U und der Quellcode unter github.com/mcosarinsky/CheXmask-U.
Die Analyse umfangreicher Textkorpora stellt eine zentrale Herausforderung im Maschinellen Lernen dar und ist entscheidend für Aufgaben wie die Identifizierung unerwünschter Modellverhaltensweisen oder Verzerrungen in Trainingsdaten. Bisherige Methoden stützen sich oft auf kostspielige, auf großen Sprachmodellen (LLMs) basierende Techniken (z.B. die Annotation von Datensatzunterschieden) oder auf Dense-Embedding-Modelle (z.B. für Clustering), bei denen die Kontrolle über die relevanten Eigenschaften fehlt. Wir schlagen die Verwendung von Sparse Autoencodern (SAEs) vor, um SAE-Embeddings zu erzeugen: Repräsentationen, deren Dimensionen auf interpretierbare Konzepte abgebildet werden. Anhand von vier Datenanalyseteufgaben zeigen wir, dass SAE-Embeddings kosteneffizienter und zuverlässiger als LLMs sowie kontrollierbarer als Dense-Embeddings sind. Durch die Nutzung des großen Hypothesenraums von SAEs können wir Erkenntnisse gewinnen, wie (1) semantische Unterschiede zwischen Datensätzen und (2) unerwartete Konzeptkorrelationen in Dokumenten. Beispielsweise stellen wir durch den Vergleich von Modellantworten fest, dass Grok-4 häufiger Ambiguitäten klärt als neun andere Frontier-Modelle. Im Vergleich zu LLMs decken SAE-Embeddings größere Unterschiede bei 2-8x geringeren Kosten auf und identifizieren Verzerrungen zuverlässiger. Zusätzlich sind SAE-Embeddings kontrollierbar: Durch das Filtern von Konzepten können wir (3) Dokumente entlang interessierender Achsen clustern und (4) Dense-Embeddings beim eigenschaftsbasierten Retrieval übertreffen. Mithilfe von SAE-Embeddings untersuchen wir das Modellverhalten in zwei Fallstudien: Wir analysieren, wie sich das Verhalten von OpenAI-Modellen über die Zeit verändert hat, und finden "Trigger"-Phrasen, die Tulu-3 (Lambert et al., 2024) aus seinen Trainingsdaten gelernt hat. Diese Ergebnisse positionieren SAEs als vielseitiges Werkzeug für die Analyse unstrukturierter Daten und unterstreichen die vernachlässigte Bedeutung der Modellinterpretation durch ihre Daten.