papers.description
Wir stellen Segment Anything Model (SAM) 3 vor, ein vereinheitlichtes Modell, das Objekte in Bildern und Videos auf der Grundlage von Konzeptprompts erkennt, segmentiert und verfolgt. Wir definieren diese Prompts entweder als kurze Nominalphrasen (z.B. "gelber Schulbus"), als Bildbeispiele oder als eine Kombination aus beidem. Promptable Concept Segmentation (PCS) verarbeitet solche Prompts und liefert Segmentierungsmasken sowie eindeutige Identitäten für alle übereinstimmenden Objektinstanzen. Um PCS voranzutreiben, haben wir eine skalierbare Daten-Engine entwickelt, die einen hochwertigen Datensatz mit 4M einzigartigen Konzeptlabels erzeugt, darunter auch schwierige Negative, über Bilder und Videos hinweg. Unser Modell besteht aus einem bildbasierten Detektor und einem speicherbasierten Video-Tracker, die sich ein gemeinsames Backbone teilen. Erkennung und Lokalisierung werden durch einen sogenannten Presence Head entkoppelt, was die Detektionsgenauigkeit steigert. SAM 3 verdoppelt die Genauigkeit bestehender Systeme sowohl bei der Bild- als auch bei der Video-PCS und verbessert die bisherigen SAM-Fähigkeiten bei visuellen Segmentierungsaufgaben. Wir veröffentlichen SAM 3 als Open Source zusammen mit unserem neuen Segment Anything with Concepts (SA-Co) Benchmark für die promptbare Konzeptsegmentierung.
Aktuelle Forschung zu agentenbasiertem visuellem Schließen ermöglicht ein tiefgreifendes multimodales Verständnis, konzentriert sich jedoch primär auf Bildbearbeitungswerkzeuge, was eine Lücke hin zu allgemeineren agentenbasierten Modellen offenlässt. In dieser Arbeit widmen wir uns erneut der Geolokalisierungsaufgabe, die nicht nur nuanciertes visuelles Grounding, sondern auch Websuche erfordert, um Hypothesen während des Schlussfolgerns zu bestätigen oder zu verfeinern. Da bestehende Geolokalisierungs-Benchmarks den Bedarf an hochauflösenden Bildern und die Lokalisierungsherausforderung für tiefgehendes agentenbasiertes Schließen nicht erfüllen, stellen wir GeoBench zusammen – einen Benchmark, der Fotos und Panoramen aus der ganzen Welt sowie einen Teilbestand an Satellitenbildern verschiedener Städte umfasst, um die Geolokalisierungsfähigkeit agentenbasierter Modelle rigoros zu evaluieren. Wir schlagen zudem GeoVista vor, ein agentenbasiertes Modell, das Werkzeugaufrufe nahtlos in die Schlussfolgerschleife integriert, einschließlich eines Bild-Zoom-Werkzeugs zur Vergrößerung relevanter Regionen und eines Web-Such-Werkzeugs zum Abruf relevanter Webinformationen. Wir entwickeln eine vollständige Trainingspipeline dafür, bestehend aus einer Cold-Start-Supervised-Fine-Tuning (SFT)-Phase zum Erlernen von Schlussfolgerungsmustern und Vorwissen zur Werkzeugnutzung, gefolgt von einer Reinforcement-Learning (RL)-Phase zur weiteren Steigerung der Schlussfolgerungsfähigkeit. Wir setzen einen hierarchischen Reward ein, um mehrstufige geografische Informationen zu nutzen und die gesamte Geolokalisierungsleistung zu verbessern. Experimentelle Ergebnisse zeigen, dass GeoVista andere Open-Source-agentenbasierte Modelle bei der Geolokalisierungsaufgabe deutlich übertrifft und bei den meisten Metriken eine mit Closed-Source-Modellen wie Gemini-2.5-Flash und GPT-5 vergleichbare Leistung erzielt.
Die intrinsische Dimension (ID) ist ein wichtiges Werkzeug in der modernen Analyse großer Sprachmodelle (LLM) und liefert Erkenntnisse für Studien zu Trainingsdynamiken, Skalierungsverhalten und Datenstruktur. Dennoch sind ihre textuellen Determinanten noch unzureichend erforscht. Wir präsentieren die erste umfassende Studie, die ID in interpretierbaren Texteigenschaften durch Cross-Encoder-Analyse, linguistische Merkmale und sparse Autoencoder (SAEs) verankert. In dieser Arbeit stellen wir drei zentrale Erkenntnisse vor. Erstens ist ID komplementär zu entropiebasierten Metriken: Nach Kontrolle der Textlänge sind die beiden Maße unkorreliert, wobei ID geometrische Komplexität erfasst, die orthogonal zur Vorhersagequalität steht. Zweitens zeigt ID eine robuste Genre-Schichtung: Wissenschaftliche Prosa weist eine niedrige ID (~8) auf, enzyklopädischer Inhalt eine mittlere ID (~9) und kreatives/Meinungs-basiertes Schreiben eine hohe ID (~10,5) – über alle getesteten Modelle hinweg. Dies zeigt, dass zeitgenössische LLMs wissenschaftliche Texte als "repräsentational einfach" erfassen, während Fiktion zusätzliche Freiheitsgrade erfordert. Drittens identifizieren wir mit SAEs kausale Merkmale: Wissenschaftliche Signale (formeller Ton, Berichtsvorlagen, Statistiken) reduzieren die ID; humanisierte Signale (Personalisierung, Emotion, Narrativ) erhöhen sie. Steering-Experimente bestätigen, dass diese Effekte kausal sind. Somit erscheint wissenschaftliches Schreiben für aktuelle Modelle vergleichsweise "einfach", wohingegen Fiktion, Meinungen und Emotionalität repräsentationale Freiheitsgrade hinzufügen. Unsere vielschichtige Analyse bietet praktische Leitlinien für den angemessenen Einsatz von ID und die fundierte Interpretation ID-basierter Ergebnisse.
Jüngste Fortschritte bei großen Reasoning-Modellen haben das zunehmende Interesse geweckt, solche Fähigkeiten auf multimodale Domänen auszudehnen. Trotz bemerkenswerter Fortschritte im Bereich des visuellen Reasonings bleibt der Mangel an transparenter und reproduzierbarer Datenkuratierung und Trainingsstrategien ein wesentliches Hindernis für skalierbare Forschung. In dieser Arbeit stellen wir OpenMMReasoner vor, ein vollständig transparentes zweistufiges Rezept für multimodales Reasoning, das überwachtes Fein-Tuning (SFT) und Reinforcement Learning (RL) umfasst. In der SFT-Phase konstruieren wir einen Cold-Start-Datensatz mit 874.000 Proben, der durch eine rigorose schrittweise Validierung gestützt wird und eine solide Grundlage für Reasoning-Fähigkeiten bietet. Die anschließende RL-Phase nutzt einen 74.000 Proben umfassenden Datensatz aus verschiedenen Domänen, um diese Fähigkeiten weiter zu schärfen und zu stabilisieren, was zu einem robusteren und effizienteren Lernprozess führt. Umfangreiche Evaluierungen zeigen, dass unser Trainingsrezept nicht nur starke Baselines übertrifft, sondern auch die entscheidende Rolle der Datenqualität und des Trainingsdesigns bei der Gestaltung der multimodalen Reasoning-Leistung hervorhebt. Bemerkenswerterweise erzielt unsere Methode eine Verbesserung von 11,6 % gegenüber der Qwen2.5-VL-7B-Instruct-Baseline über neun multimodale Reasoning-Benchmarks hinweg und legt damit eine solide empirische Grundlage für zukünftige groß angelegte multimodale Reasoning-Forschung. Wir haben alle unsere Codes, Pipelines und Daten unter https://github.com/EvolvingLMMs-Lab/OpenMMReasoner quelloffen zur Verfügung gestellt.
Wir stellen RynnVLA-002 vor, ein vereinheitlichtes Vision-Language-Action (VLA)- und Weltmodell. Das Weltmodell nutzt Aktions- und visuelle Eingaben, um zukünftige Bildzustände vorherzusagen, und erlernt dabei die zugrundeliegende Physik der Umgebung, um die Aktionsgenerierung zu verfeinern. Umgekehrt erzeugt das VLA-Modell aus Bildbeobachtungen nachfolgende Aktionen, verbessert dadurch das visuelle Verständnis und unterstützt die Bildgenerierung des Weltmodells. Der vereinheitlichte Rahmen von RynnVLA-002 ermöglicht ein gemeinsames Lernen von Umgebungsdynamik und Aktionsplanung. Unsere Experimente zeigen, dass RynnVLA-002 einzelne VLA- und Weltmodelle übertrifft und ihre gegenseitige Verstärkung demonstriert. Wir evaluieren RynnVLA-002 sowohl in Simulations- als auch in realen Robotertasks. RynnVLA-002 erreicht eine Erfolgsrate von 97,4 % auf dem LIBERO-Simulationsbenchmark ohne Vortraining, während in realen LeRobot-Experimenten das integrierte Weltmodell die Gesamterfolgsrate um 50 % steigert.
Jüngste Fortschritte bei agentenbasierten LLM-Systemen haben ein erhebliches Potenzial für die Generierung menschenähnlicher Antworten gezeigt; dennoch bestehen weiterhin Herausforderungen bei der Aufrechterhaltung langfristiger Interaktionen in komplexen Umgebungen, hauptsächlich aufgrund von Einschränkungen in der kontextuellen Konsistenz und dynamischen Personalisierung. Bestehende Gedächtnissysteme sind oft von semantischer Gruppierung vor dem Abruf abhängig, was semantisch irrelevante, aber kritische Benutzerinformationen übersehen und Abruffehler verursachen kann. In diesem Bericht stellen wir den initialen Entwurf von O-Mem vor, einem neuartigen Gedächtnisframework basierend auf aktiver Benutzerprofilierung, das dynamisch Benutzereigenschaften und Ereignisaufzeichnungen aus deren proaktiven Interaktionen mit Agenten extrahiert und aktualisiert. O-Mem unterstützt hierarchisches Abrufen von Personenattributen und themenbezogenem Kontext, was adaptivere und kohärentere personalisierte Antworten ermöglicht. O-Mem erzielt 51,67 % auf dem öffentlichen LoCoMo-Benchmark, eine Verbesserung von fast 3 % gegenüber LangMem, dem vorherigen State-of-the-Art, und erreicht 62,99 % auf PERSONAMEM, eine Steigerung von 3,5 % gegenüber A-Mem, dem vorherigen State-of-the-Art. O-Mem verbessert zudem die Token- und Interaktionsantwortzeiteffizienz im Vergleich zu früheren Gedächtnisframeworks. Unsere Arbeit eröffnet vielversprechende Richtungen für die Entwicklung effizienter und menschenähnlicher personalisierter KI-Assistenten in der Zukunft.
Das Verständnis von textreichen Videos erfordert das Lesen kleiner, flüchtiger Textinformationen, die oft wiederholte Betrachtung erfordern. Dennoch stützen sich die meisten Video-Frage-Antwort-Modelle auf eine Einmalwahrnehmung über feste Frames, was zu Halluzinationen und Fehlern bei feingranularen Beweisen führt. Inspiriert davon, wie Menschen kritische Bereiche anhalten, zoomen und erneut lesen, stellen wir Video-R4 (Reinforcing Text-Rich Video Reasoning with Visual Rumination) vor – ein Video-Reasoning-LMM, das visuelle Rumination durchführt: iteratives Auswählen von Frames, Zoomen in informative Regionen, Neuencodieren der erfassten Pixel und Aktualisieren seines Reasoning-Zustands. Wir konstruieren zwei Datensätze mit ausführbaren Ruminationstrajektorien: Video-R4-CoT-17k für überwachtes Üben und Video-R4-RL-30k für bestärkendes Lernen. Wir schlagen ein mehrstufiges Rumination-Lernframework vor, das schrittweise ein 7B-LMM feinabstimmt, um atomare und kombinierte visuelle Operationen via SFT und GRPO-basiertem RL zu erlernen. Video-R4-7B erzielt state-of-the-art Ergebnisse auf M4-ViteVQA und generalisiert zudem auf Multi-Page-Dokument-QA, Folien-QA und generische Video-QA, was demonstriert, dass iterative Rumination ein effektives Paradigma für pixelbasiertes multimodales Reasoning ist.
Wir stellen WorldGen vor, ein System zur automatischen Erstellung großflächiger, interaktiver 3D-Welten direkt aus Textprompts. Unser Ansatz verwandelt natürliche Sprachbeschreibungen in begehbare, vollständig texturierte Umgebungen, die sofort in Standard-Spiele-Engines erkundet oder bearbeitet werden können. Durch die Kombination von LLM-gesteuerter Szenenlayoutplanung, prozeduraler Generierung, diffusionsbasierter 3D-Generierung und objektbewusster Szenenzersetzung überbrückt WorldGen die Lücke zwischen kreativer Absicht und funktionalen virtuellen Räumen. Dies ermöglicht Entwicklern die Erstellung kohärenter, begehbarer Welten ohne manuelle Modellierung oder spezielle 3D-Expertise. Das System ist vollständig modular und unterstützt feingranulare Kontrolle über Layout, Skalierung und Stil, wodurch geometrisch konsistente, visuell reichhaltige Welten entstehen, die in Echtzeit effizient gerendert werden können. Diese Arbeit stellt einen Schritt hin zu zugänglicher, generativer Weltenerschaffung im großen Maßstab dar und erweitert die Grenzen der generativen 3D-KI für Anwendungen in Gaming, Simulation und immersiven sozialen Umgebungen.
Diese Studie stellt PARROT (Persuasion and Agreement Robustness Rating of Output Truth) vor, ein auf Robustheit fokussiertes Framework, das entwickelt wurde, um die Verschlechterung der Genauigkeit zu messen, die unter sozialem Druck auftritt, der auf Nutzer durch Autorität und Überzeugung in großen Sprachmodellen (LLMs) ausgeübt wird – das Phänomen der Sykophantie (übertriebene Konformität). PARROT (i) isoliert kausale Effekte, indem es die neutrale Version derselben Frage mit einer autoritativ falschen Version mittels einer doppelblinden Evaluation vergleicht, (ii) quantifiziert Konfidenzverschiebungen hin zu den korrekten und aufgezwungenen falschen Antworten unter Verwendung einer log-Likelihood-basierten Kalibrierungsverfolgung und (iii) klassifiziert systematisch Fehlermodi (z.B. robust korrekt, sykophantische Zustimmung, verstärkter Fehler, sturer Fehler, Selbstkorrektur etc.) anhand einer achtstufigen Verhaltenstaxonomie. Wir evaluierten 22 Modelle mit 1.302 MMLU-artigen Multiple-Choice-Fragen über 13 Domänen und domänenspezifischen Autoritätsvorlagen. Die Ergebnisse zeigen eine deutliche Heterogenität: Fortschrittliche Modelle (z.B. GPT-5, GPT-4.1, Claude Sonnet 4.5) weisen niedrige "Folgeraten" (≤ 11%, GPT-5: 4%) und minimalen Genauigkeitsverlust auf, während ältere/kleinere Modelle einen schwerwiegenden epistemischen Kollaps zeigen (GPT-4: 80%, Qwen 2.5-1.5B: 94%). Die Gefahr beschränkt sich nicht auf Antwortänderungen; schwache Modelle reduzieren die Konfidenz in die korrekte Antwort, während sie die Konfidenz in die aufgezwungene falsche Antwort erhöhen. Während internationales Recht und globales Wissen auf Domänenebene eine hohe Fragilität aufweisen, ist elementare Mathematik relativ resilient. Folglich argumentieren wir, dass das Ziel der "Widerstandsfähigkeit gegen Überzeugungsdruck" als primäres Ziel neben Genauigkeit, Schadensvermeidung und Privatsphäre für den sicheren Einsatz in der realen Welt behandelt werden sollte.
Schritt-für-Schritt-Maltutorials sind entscheidend für das Erlernen künstlerischer Techniken, doch bestehende Videoressourcen (z.B. YouTube) mangelt es an Interaktivität und Personalisierung. Während neuere generative Modelle die künstlerische Bildsynthese vorangetrieben haben, leiden sie unter mangelnder Generalisierbarkeit über verschiedene Medien hinweg und zeigen oft zeitliche oder strukturelle Inkonsistenzen, was die authentische Nachbildung menschlicher kreativer Arbeitsabläufe behindert. Um dies zu lösen, schlagen wir ein einheitliches Framework zur Erzeugung von Malprozessen über mehrere Medien hinweg vor, mit einem semantikgesteuerten Stilsteuerungsmechanismus, der mehrere Medien in den Konditionalraum von Diffusionsmodellen einbettet und cross-mediale Stilaugmentierung nutzt. Dies ermöglicht konsistente Texturentwicklung und Prozessübertragung zwischen Stilen. Eine Reverse-Painting-Trainingsstrategie gewährleistet zudem eine flüssige, menschenähnliche Generierung. Wir erstellen auch einen umfangreichen Datensatz realer Malprozesse und evaluieren cross-mediale Konsistenz, zeitliche Kohärenz und Finalbild-Treue, mit starken Ergebnissen bei LPIPS-, DINO- und CLIP-Metriken. Schließlich modelliert unsere Perceptual Distance Profile (PDP)-Kurve die kreative Abfolge – Komposition, Farbflächensetzung und Detailverfeinerung – quantitativ und spiegelt so den menschlichen künstlerischen Fortschritt wider.
Trotz der bemerkenswerten Erfolge von Vision-Sprach-Modellen (VLMs) wird ihre Leistung bei einer Reihe komplexer visueller Aufgaben häufig durch einen "visuellen Verarbeitungsengpass" beeinträchtigt: eine Tendenz, den Bezug zu visuellen Beweisen zu verlieren und einen Mangel an kontextualisierter visueller Erfahrung während längerer Generierungsprozesse zu zeigen. Inspiriert von der menschlichen Kognitionsgedächtnistheorie, die zwischen kurzfristigem, visuell-dominiertem Gedächtnis und langfristigem, semantisch-dominiertem Gedächtnis unterscheidet, schlagen wir VisMem vor, einen kognitiv ausgerichteten Rahmen, der VLMs mit dynamischen latenten Visuengedächtnissen ausstattet – ein Kurzzeitmodul zur feinkörnigen perzeptuellen Beibehaltung und ein Langzeitmodul zur abstrakten semantischen Konsolidierung. Diese Gedächtnisse werden während des Inferierens nahtlos abgerufen, was es VLMs ermöglicht, sowohl perzeptive Treue als auch semantische Konsistenz über Denken und Generierung hinweg aufrechtzuerhalten. Umfangreiche Experimente über diverse visuelle Benchmarks für Verstehen, Reasoning und Generierung zeigen, dass VisMem eine signifikante durchschnittliche Leistungssteigerung von 11,8 % gegenüber dem Basismodell erzielt und alle vergleichbaren Ansätze übertrifft, wodurch ein neues Paradigma für die Latent-Space-Gedächtnisverbesserung etabliert wird. Der Code wird verfügbar sein: https://github.com/YU-deep/VisMem.git.
Jüngste Fortschritte bei Vision-Language-Action (VLA)-Modellen zeigen, dass visuelle Signale spärliche Aktionssupervisionen effektiv ergänzen können. Wenn VLA-Modelle jedoch direkt hochdimensionale visuelle Zustände vorhersagen sollen, kann dies die Modellkapazität überlasten und untragbare Trainingskosten verursachen, während die Komprimierung visueller Zustände zu kompakteren Aufsichtssignalen unweigerlich Informationsengpässe mit sich bringt. Darüber hinaus leiden bestehende Methoden häufig unter schwachen Verstehens- und Reasoningfähigkeiten, da Sprachsupervision vernachlässigt wird. Diese Arbeit stellt Mantis vor, einen neuartigen Rahmen mit einer Disentangled Visual Foresight (DVF), um diese Probleme zu lösen. Konkret entkoppelt Mantis die Vorhersage visueller Vorausschau vom Backbone durch die Kombination von Meta-Queries und einem Diffusion Transformer (DiT)-Head. Indem der aktuelle visuelle Zustand dem DiT über eine Residualverbindung bereitgestellt wird, ermöglicht ein einfaches Next-State-Prediction-Ziel den Meta-Queries, automatisch latente Aktionen zu erfassen, die die visuelle Trajektorie beschreiben und somit das Lernen expliziter Aktionen verstärken. Die Entkopplung verringert die Belastung des VLA-Backbones, sodass dieser durch Sprachsupervision seine Verstehens- und Reasoningfähigkeiten bewahren kann. Empirisch erzielt Mantis, vortrainiert mit menschlichen Manipulationsvideos, Roboterdemonstrationen und Bild-Text-Paaren, nach dem Fine-Tuning eine Erfolgsquote von 96,7 % auf dem LIBERO-Benchmark und übertrifft damit leistungsstarke Baselines bei hoher Konvergenzgeschwindigkeit. Evaluationen in der realen Welt zeigen, dass Mantis π₀,₅, ein führendes Open-Source-VLA-Modell, insbesondere in der Befolgung von Anweisungen, der Generalisierung auf ungesehene Instruktionen und der Reasoningfähigkeit übertrifft. Code und Gewichte werden veröffentlicht, um die Open-Source-Community zu unterstützen.
Wir behandeln die Aufgabe der Bearbeitung von Multi-View-Bildern aus spärlichen Eingabeansichten, wobei die Eingaben als eine Mischung von Bildern betrachtet werden können, die die Szene aus verschiedenen Blickwinkeln erfassen. Das Ziel ist es, die Szene gemäß einer textuellen Anweisung zu modifizieren und dabei die Konsistenz über alle Ansichten hinweg zu bewahren. Bestehende Methoden, die auf szenenspezifischen neuronalen Feldern oder temporalen Aufmerksamkeitsmechanismen basieren, haben in diesem Szenario Schwierigkeiten und erzeugen oft Artefakte und inkohärente Bearbeitungen. Wir schlagen InstructMix2Mix (I-Mix2Mix) vor, ein Framework, das die Bearbeitungsfähigkeiten eines 2D-Diffusionsmodells in ein vortrainiertes Multi-View-Diffusionsmodell destilliert und dessen datengetriebene 3D-Priorität für die konsistente Darstellung über alle Ansichten hinweg nutzbar macht. Ein wesentlicher Beitrag ist der Ersatz des konventionellen neuronalen Feld-Konsolidierers im Score Distillation Sampling (SDS) durch einen Multi-View-Diffusions-Studenten, was neuartige Anpassungen erfordert: inkrementelle Studenten-Updates über Zeitschritte hinweg, einen spezialisierten Teacher-Noise-Scheduler zur Vermeidung von Degeneration und eine Aufmerksamkeitsmodifikation, die die konsistente Darstellung über die Ansichten hinweg ohne zusätzlichen Aufwand verbessert. Experimente zeigen, dass I-Mix2Mix die Multi-View-Konsistenz signifikant verbessert und gleichzeitig eine hohe Bearbeitungsqualität pro Einzelbild beibehält.
Die Skalierung multimodaler Modelle hat bemerkenswerte Fortschritte im visuellen Verständnis und Schlussfolgern ermöglicht, doch praktische Anforderungen erfordern kleinere, effiziente Systeme. In dieser Arbeit führen wir eine prinzipiengeleitete Analyse der Herunterskalierung von Intelligenz in multimodalen Modellen durch und untersuchen, wie sich eine reduzierte Kapazität großer Sprachmodelle (LLM) auf multimodale Fähigkeiten auswirkt. Unsere ersten Erkenntnisse zeigen einen interessanten Trend: Das Herunterskalieren der LLM beeinträchtigt visuelle Fähigkeiten unverhältnismäßig stärker als die vom LLM geerbten Fähigkeiten. Wir untersuchen dann, ob dieser Leistungseinbruch hauptsächlich den erwarteten Rückgang im visuellen Reasoning widerspiegelt oder einen grundlegenderen Verlust von Wahrnehmungsfähigkeiten darstellt. Bei Isolierung des Effekts der LLM-Skalierung auf die Wahrnehmung stellen wir fest, dass die Leistung dennoch stark abfällt, oftmals vergleichbar mit oder stärker als die Auswirkungen auf das Reasoning. Um diesen Engpass zu adressieren, führen wir visuelles Extraktionstuning ein, das das Modell explizit darauf trainiert, instruktionsrelevante visuelle Details konsistent über verschiedene Aufgaben hinweg zu extrahieren. Mit diesen extrahierten visuellen Details wenden wir dann schrittweises Reasoning an, um Antworten zu generieren. Zusammen bilden diese Komponenten unseren "Extract+Think"-Ansatz, der einen neuen Standard für Effizienz und Leistung in diesem Bereich setzt.
Die Modellierung genomischer Sequenzen steht vor zwei ungelösten Herausforderungen: Die Informationsdichte variiert stark zwischen verschiedenen Regionen, während es keine klar definierte minimale Vokabulareinheit gibt. Bestehende Ansätze, die sich auf entweder vier primitive Basen oder unabhängig entwickelte DNA-Tokenizer stützen und naive Masked Language Modeling Vorverarbeitung verwenden, scheitern oft daran, sich an die variierenden Komplexitäten genomischer Sequenzen anzupassen. Unter Nutzung von Token-Merging-Techniken stellt diese Arbeit eine hierarchische Architektur vor, die einen dynamischen genomischen Tokenizer und latente Transformer mit kontextsensiblen Vorverarbeitungsaufgaben gemeinsam optimiert. Bezüglich der Netzwerkstrukturen chunked das Tokenisierungsmodul automatisch benachbarte Basen zu Wörtern, indem mehrere Schichten differenzierbarer Token-Merging-Blöcke mit Lokal-Fenster-Beschränkungen gestapelt werden; anschließend erfasst ein Latent Encoder den globalen Kontext dieser zusammengeführten Wörter mittels Full-Attention-Blöcken. Durch symmetrische Verwendung eines Latent Decoders und eines Local Decoders lernt MergeDNA mit zwei Vorverarbeitungsaufgaben: Merged Token Reconstruction trainiert gleichzeitig das dynamische Tokenisierungsmodul und filtert adaptive wichtige Tokens heraus, während Adaptive Masked Token Modeling das Vorhersagen dieser gefilterten Tokens lernt, um informative Inhalte zu erfassen. Umfassende Experimente zeigen, dass MergeDNA auf drei verbreiteten DNA-Benchmarks und mehreren Multi-Omics-Aufgaben mittels Fine-Tuning oder Zero-Shot-Evaluation eine überlegene Leistung erzielt und dabei typische Tokenisierungsmethoden sowie großskalige DNA-Foundation-Modelle übertrifft.
Vision-Language-Action (VLA)-Modelle zeigen Potenzial für allgemeine robotische Aufgaben, bleiben jedoch bei räumlich-zeitlich kohärenter Manipulation eine Herausforderung, die feinkörnige Repräsentationen erfordert. Typischerweise integrieren bestehende Methoden 3D-Positionen in visuelle Repräsentationen, um die räumliche Präzision von Aktionen zu verbessern. Diese Methoden haben jedoch Schwierigkeiten, eine zeitlich kohärente Steuerung der Aktionsausführung zu erreichen. In dieser Arbeit schlagen wir VLA-4D vor, ein allgemeines VLA-Modell mit 4D-Bewusstsein für räumlich-zeitlich kohärente robotische Manipulation. Unser Modell wird von zwei zentralen Designs geleitet: 1) 4D-bewusste visuelle Repräsentation. Wir extrahieren visuelle Merkmale, betten 1D-Zeit in 3D-Positionen für 4D-Einbettungen ein und fusionieren sie über einen Cross-Attention-Mechanismus zu einer einheitlichen visuellen Repräsentation. 2) Räumlich-zeitliche Aktionsrepräsentation. Wir erweitern konventionelle räumliche Aktionsrepräsentationen um Zeitinformationen, um die räumlich-zeitliche Planung zu ermöglichen, und richten die multimodalen Repräsentationen im LLM für die räumlich-zeitliche Aktionsvorhersage aus. Innerhalb dieses einheitlichen Rahmens sorgen die gestalteten visuellen und Aktionsrepräsentationen gemeinsam für eine räumlich geschmeidige und zeitlich kohärente robotische Manipulation. Zusätzlich erweitern wir den VLA-Datensatz um zeitliche Aktionsannotationen zum Feinabstimmen unseres Modells. Umfangreiche Experimente wurden durchgeführt, um die Überlegenheit unserer Methode über verschiedene Aufgaben der robotischen Manipulation hinweg zu verifizieren.
Der Peer-Review ist ein Eckpfeiler des wissenschaftlichen Publikationswesens, auch bei führenden Konferenzen für maschinelles Lernen wie ICLR. Mit steigenden Einreichungszahlen ist das Verständnis der Art und Dynamik des Begutachtungsprozesses entscheidend, um dessen Effizienz, Wirksamkeit und die Qualität der veröffentlichten Arbeiten zu verbessern. Wir präsentieren eine groß angelegte Analyse der Peer-Review-Prozesse der ICLR 2024 und 2025, mit Fokus auf Bewertungen vor und nach der Replikation sowie auf Interaktionen zwischen Gutachtern und Autoren. Wir untersuchen Bewertungen, das Engagement zwischen Autoren und Gutachtern, zeitliche Muster bei der Einreichung von Gutachten und Einflüsse zwischen Ko-Gutachtern. Durch die Kombination quantitativer Analysen mit einer KI-basierten Kategorisierung von Gutachtentexten und Replikationsdiskussionen identifizieren wir häufige Stärken und Schwächen für jede Bewertungsgruppe sowie Trends bei Replikationsstrategien, die am stärksten mit Bewertungsänderungen verbunden sind. Unsere Ergebnisse zeigen, dass die initialen Bewertungen und die Ratings von Ko-Gutachtern die stärksten Prädiktoren für Bewertungsänderungen während der Replikation sind, was auf einen gewissen Einfluss zwischen Gutachtern hindeutet. Replikationen spielen eine wertvolle Rolle bei der Verbesserung der Ergebnisse für Grenzfälle, bei denen durchdachte Autorenantworten die Perspektive der Gutachter merklich verändern können. Weiter gefasst bietet unsere Studie evidenzbasierte Einblicke zur Verbesserung des Peer-Review-Prozesses, die Autoren bei effektiven Replikationsstrategien leiten und der Community helfen sollen, fairere und effizientere Begutachtungsprozesse zu gestalten. Unser Code und die Bewertungsänderungsdaten sind verfügbar unter https://github.com/papercopilot/iclr-insights.
Mit der rasanten Entwicklung von Large Language Models (LLMs) haben KI-Agenten zunehmende Kompetenz bei wissenschaftlichen Aufgaben gezeigt, von der Hypothesengenerierung und experimentellen Planung bis hin zum Verfassen von Manuskripten. Solche Agentensysteme werden gemeinhin als "KI-Wissenschaftler" bezeichnet. Allerdings behandeln bestehende KI-Wissenschaftler wissenschaftliche Entdeckungen überwiegend als ein isoliertes Such- oder Optimierungsproblem und übersehen dabei, dass wissenschaftliche Forschung ihrem Wesen nach ein sozialer und kollaborativer Prozess ist. Die reale Wissenschaft stützt sich auf eine komplexe wissenschaftliche Infrastruktur, die sich aus Kooperationsmechanismen, Beitragszuordnung, Peer-Review und strukturierten wissenschaftlichen Wissensnetzwerken zusammensetzt. Da diese kritischen Dimensionen nicht modelliert werden, haben aktuelle Systeme Schwierigkeiten, ein echtes Forschungsecosystem aufzubauen oder tiefgehend mit der menschlichen wissenschaftlichen Gemeinschaft zu interagieren. Um diese Lücke zu schließen, stellen wir OmniScientist vor, ein Framework, das die zugrundeliegenden Mechanismen menschlicher Forschung explizit in den KI-wissenschaftlichen Arbeitsablauf codiert. OmniScientist erreicht nicht nur End-to-End-Automatisierung über Datenbasis, Literaturrecherche, Forschungsentwurf, Experimentautomatisierung, wissenschaftliches Schreiben und Peer-Review hinweg, sondern bietet auch umfassende infrastrukturelle Unterstützung durch die Simulation des menschlichen Wissenschaftssystems, bestehend aus: (1) einem strukturierten Wissenssystem, das auf Zitationsnetzwerken und konzeptuellen Korrelationen aufbaut; (2) einem kollaborativen Forschungsprotokoll (OSP), das nahtlose Multi-Agenten-Kollaboration und die Beteiligung menschlicher Forscher ermöglicht; und (3) einer offenen Evaluierungsplattform (ScienceArena), die auf blindem paarweisem Nutzer-Voting und Elo-Ranglisten basiert. Diese Infrastruktur befähigt Agenten nicht nur, menschliche Wissenssysteme zu verstehen und zu nutzen, sondern auch zu kooperieren und sich gemeinsam weiterzuentwickeln, wodurch ein nachhaltiges und skalierbares Innovationsökosystem gefördert wird.
Visuelle autoregressive (VAR) Modelle haben kürzlich aufgrund ihres innovativen Next-Scale-Vorhersageparadigmas bedeutende Aufmerksamkeit erregt, da sie im Vergleich zu traditionellen mehrstufigen autoregressiven (AR) und Diffusionsmodellen bemerkenswerte Vorteile sowohl in der Inferenzeffizienz als auch in der Bildqualität bieten. Trotz ihrer Effizienz leiden VAR-Modelle jedoch häufig unter einem Diversitätskollaps, d.h. einer Verringerung der Ausgabevariabilität, ähnlich der in wenige-Schritte-distillierten Diffusionsmodellen beobachteten. In diesem Artikel stellen wir DiverseVAR vor, einen einfachen, aber effektiven Ansatz, der die generative Vielfalt von VAR-Modellen wiederherstellt, ohne dass zusätzliches Training erforderlich ist. Unsere Analyse identifiziert die pivotale Komponente der Feature-Map als Schlüsselfaktor für die Diversitätsbildung in frühen Skalen. Durch Unterdrückung der pivotale Komponente im Modelleingang und deren Verstärkung in der Modellausgabe erschließt DiverseVAR effektiv das inhärente generative Potenzial von VAR-Modellen, während eine hochwertige Synthese erhalten bleibt. Empirische Ergebnisse zeigen, dass unser Ansatz die generative Diversität erheblich steigert bei nur vernachlässigbaren Leistungseinbußen. Unser Code wird unter https://github.com/wangtong627/DiverseVAR öffentlich zugänglich gemacht.
Das Training von Modellen zur Erkennung verbotener Gegenstände erfordert eine große Menge an Röntgensicherheitsbildern, doch das Sammeln und Annotieren dieser Bilder ist zeitaufwändig und mühsam. Um Datenknappheit zu begegnen, synthetisieren Methoden zur Erzeugung von Röntgensicherheitsbildern Bilder, um Datensätze zu vergrößern. Bisherige Methoden folgen jedoch primär einer Zwei-Stufen-Pipeline, bei der in der ersten Stufe arbeitsintensive Vordergrundextraktion durchgeführt wird und in der zweiten Stufe Bilder zusammengesetzt werden. Eine solche Pipeline verursacht unvermeidbare zusätzliche Arbeitskosten und ist nicht effizient. In diesem Artikel schlagen wir eine einstufige Pipeline zur Synthese von Röntgensicherheitsbildern (Xsyn) basierend auf Text-zu-Bild-Generierung vor, die zwei effektive Strategien integriert, um die Nutzbarkeit synthetischer Bilder zu verbessern. Die Cross-Attention-Verfeinerungsstrategie (CAR) nutzt die Cross-Attention-Map des Diffusionsmodells, um die Bounding-Box-Annotation zu verfeinern. Die Strategie zur Modellierung von Hintergrundverdeckungen (BOM) modelliert Hintergrundverdeckungen explizit im latenten Raum, um die Bildkomplexität zu erhöhen. Nach unserem Wissenstand ist Xsyn im Vergleich zu früheren Methoden die erste, die eine hochwertige Synthese von Röntgensicherheitsbildern ohne zusätzliche Arbeitskosten erreicht. Experimente zeigen, dass unsere Methode alle bisherigen Methoden mit einer Verbesserung des mAP um 1,2 % übertrifft und die von unserer Methode generierten synthetischen Bilder die Erkennungsleistung verbotener Gegenstände über verschiedene Röntgensicherheitsdatensätze und Detektoren hinweg verbessern. Der Code ist verfügbar unter https://github.com/pILLOW-1/Xsyn/.
Aktuelle Ansätze zur Videogenerierung setzen zunehmend auf die Planung intermediärer Steuersignale wie Objekttrajektorien, um die zeitliche Kohärenz und Bewegungstreue zu verbessern. Diese Methoden verwenden jedoch überwiegend Einzelplanungen, die typischerweise auf einfache Bewegungen beschränkt sind, oder iterative Verfeinerungen, die mehrere Aufrufe des Videogenerators erfordern und somit hohe Rechenkosten verursachen. Um diese Einschränkungen zu überwinden, schlagen wir SketchVerify vor, ein trainierungsfreies, skizzenbasiertes Verifikationsframework zur Bewegungsplanung, das die Qualität der Bewegungsplanung durch dynamisch kohärentere Trajektorien (d.h. physikalisch plausible und anweisungskonforme Bewegungen) vor der vollständigen Videogenerierung verbessert. Dies wird durch eine Testzeit-Sampling- und Verifikationsschleife erreicht. Bei gegebenem Prompt und Referenzbild sagt unsere Methode mehrere Kandidaten für Bewegungspläne vorher und bewertet diese mithilfe eines Vision-Language-Verifiers, der sowohl die semantische Übereinstimmung mit der Anweisung als auch die physikalische Plausibilität gemeinsam evaluiert. Um die Bewegungsplankandidaten effizient zu bewerten, rendern wir jede Trajektorie als leichtgewichtige Videoskizze, indem Objekte über einem statischen Hintergrund kompositiert werden. Dieser Ansatz umgeht die Notwendigkeit teurer, wiederholter diffusionsbasierter Synthese und erreicht dennoch vergleichbare Leistung. Wir verfeinern den Bewegungsplan iterativ, bis ein zufriedenstellender Plan identifiziert wird, der dann an den trajektorienkonditionierten Generator zur finalen Synthese übergeben wird. Experimente auf WorldModelBench und PhyWorldBench zeigen, dass unsere Methode die Bewegungsqualität, den physikalischen Realismus und die Langzeitkonsistenz im Vergleich zu wettbewerbsfähigen Baseline-Methoden signifikant verbessert und dabei erheblich effizienter ist. Unsere Ablationsstudie zeigt weiterhin, dass eine Skalierung der Anzahl der Trajektorienkandidaten die Gesamtleistung konsistent steigert.
Die zunehmende Fehlanwendung von Vision-Sprache-Modellen (VLMs) hat Anbieter dazu veranlasst, verschiedene Sicherheitsvorkehrungen zu implementieren, darunter Alignment-Tuning, System-Prompts und Inhaltsmoderation. Die reale Robustheit dieser Verteidigungsmechanismen gegen adversarielle Angriffe bleibt jedoch unzureichend erforscht. Wir stellen Multi-Faceted Attack (MFA) vor, ein Framework, das systematisch allgemeine Sicherheitslücken in führenden, geschützten VLMs wie GPT-4o, Gemini-Pro und Llama-4 aufdeckt. Die Kernkomponente von MFA ist der Attention-Transfer Attack (ATA), der schädliche Anweisungen innerhalb einer Meta-Aufgabe mit konkurrierenden Zielen verbirgt. Wir liefern eine theoretische Perspektive auf Basis von Reward Hacking, um den Erfolg dieses Angriffs zu erklären. Um die übergreifende Transferierbarkeit zwischen Modellen zu verbessern, führen wir einen leichtgewichtigen Transfer-Verbesserungsalgorithmus ein, kombiniert mit einer einfachen Wiederholungsstrategie, die gemeinsam sowohl Eingabe- als auch Ausgabefilter ohne modellspezifisches Fine-Tuning umgeht. Empirisch zeigen wir, dass für einen Vision-Encoder optimierte adversarielle Bilder breit auf unbekannte VLMs übertragbar sind, was darauf hindeutet, dass gemeinsame visuelle Repräsentationen eine modellübergreifende Sicherheitslücke schaffen. Insgesamt erzielt MFA eine Erfolgsrate von 58,5 % und übertrifft konsistent bestehende Methoden. Bei modernsten kommerziellen Modellen erreicht MFA eine Erfolgsrate von 52,8 % und übertrifft den zweitbesten Angriff um 34 %. Diese Ergebnisse stellen die wahrgenommene Robustheit aktueller Verteidigungsmechanismen in Frage und verdeutlichen anhaltende Sicherheitsschwächen in modernen VLMs. Code: https://github.com/cure-lab/MultiFacetedAttack
Wir berichten über die erste groß angelegte Pretraining-Studie mit Mixture-of-Experts (MoE) auf reiner AMD-Hardware unter Nutzung von MI300X-GPUs mit Pollara-Interconnect. Wir leiten praktische Leitlinien für System- und Modelldesign ab. Auf Systemseite liefern wir eine umfassende Charakterisierung des Clusters und Netzwerks: Microbenchmarks für alle zentralen Kollektivoperationen (All-Reduce, Reduce-Scatter, All-Gather, Broadcast) über Nachrichtengrößen und GPU-Anzahlen auf Pollara hinweg. Unseres Wissens ist dies die erste Studie in diesem Umfang. Weiterhin stellen wir MI300X-Microbenchmarks zur Kernel-Dimensionierung und Speicherbandbreite bereit, um das Modelldesign zu informieren. Auf Modellseite führen wir MI300X-spezifische Transformerdimensionierungsregeln für Attention- und MLP-Blöcke ein und wenden diese an, und wir begründen MoE-Breiten, die Trainingsdurchsatz und Inferenzlatenz gemeinsam optimieren. Wir beschreiben unseren Trainingsstack detailliert, einschließlich oft vernachlässigter Utility-Funktionen wie Fehlertoleranz und Checkpoint-Reshaping, sowie detaillierte Informationen zu unserem Trainingsrezept. Ebenfalls geben wir einen Einblick in unsere Modellarchitektur und das Basismodell – ZAYA1 (760M aktive, 8.3B gesamte MoE-Parameter) – das in nachfolgenden Arbeiten weiter verbessert wird. ZAYA1-base erreicht eine Leistung, die mit führenden Basismodellen wie Qwen3-4B und Gemma3-12B in seiner und größeren Skalen vergleichbar ist, und übertrifft Modelle wie Llama-3-8B und OLMoE in Reasoning-, Mathematik- und Coding-Benchmarks. Zusammengenommen demonstrieren diese Ergebnisse, dass die AMD-Hardware, das Netzwerk und der Software-Stack ausgereift und optimiert genug für wettbewerbsfähiges großskaliges Pretraining sind.
Salienzkarten werden häufig für visuelle Erklärungen im Deep Learning verwendet, doch es besteht ein grundlegendes Fehlen von Konsens über ihren beabsichtigten Zweck und ihre Übereinstimmung mit unterschiedlichen Benutzeranfragen. Diese Mehrdeutigkeit behindert die effektive Evaluation und praktische Nützlichkeit von Erklärungsmethoden. Wir schließen diese Lücke durch die Einführung der Referenzrahmen-mal-Granularität (RFxG)-Taxonomie, eines prinzipienbasierten konzeptionellen Rahmens, der Salienzerklärungen entlang zwei essenzieller Achsen organisiert: * **Referenzrahmen:** Unterscheidung zwischen punktuellen („Warum diese Vorhersage?“) und kontrastiven („Warum dies und keine Alternative?“) Erklärungen. * **Granularität:** Reicht von feinkörnigen, klassenbasierten (z.B. „Warum Husky?“) bis zu grobkörnigen, gruppenbasierten (z.B. „Warum Hund?“) Interpretationen. Mithithilfe der RFxG-Linse demonstrieren wir kritische Limitierungen bestehender Evaluationsmetriken, die überwiegend punktuelle Treue (Faithfulness) priorisieren, während sie kontrastives Reasoning und semantische Granularität vernachlässigen. Um die Erklärungsqualität systematisch über beide RFxG-Dimensionen hinweg zu bewerten, schlagen wir vier neuartige Metriken für Treue vor. Unser umfassendes Evaluationsframework wendet diese Metriken auf zehn state-of-the-art Salienzmethoden, vier Modellarchitekturen und drei Datensätze an. Indem wir uns für einen Wandel hin zu einer benutzerintentionsgetriebenen Evaluation einsetzen, liefert unsere Arbeit sowohl die konzeptionelle Grundlage als auch die praktischen Werkzeuge, die notwendig sind, um visuelle Erklärungen zu entwickeln, die nicht nur treu zum zugrundeliegenden Modellverhalten sind, sondern auch sinnvoll auf die Komplexität des menschlichen Verstehens und Fragens abgestimmt sind.