papers.description
Wir präsentieren 4KAgent, ein einheitliches agentenbasiertes Super-Resolution-Generalistensystem, das entwickelt wurde, um beliebige Bilder universell auf 4K-Auflösung (und sogar höher, bei iterativer Anwendung) zu skalieren. Unser System kann Bilder von extrem niedrigen Auflösungen mit starken Verschlechterungen, beispielsweise stark verzerrte Eingaben mit 256x256 Pixeln, in kristallklare, fotorealistische 4K-Ausgaben transformieren. 4KAgent besteht aus drei Kernkomponenten: (1) Profiling, ein Modul, das die 4KAgent-Pipeline basierend auf spezifischen Anwendungsfällen anpasst; (2) ein Wahrnehmungs-Agent, der Vision-Language-Modelle sowie Experten für Bildqualitätsbewertung nutzt, um das Eingabebild zu analysieren und einen maßgeschneiderten Restaurierungsplan zu erstellen; und (3) ein Restaurierungs-Agent, der den Plan ausführt, basierend auf einem rekursiven Ausführungs-Reflexions-Paradigma, geleitet von einer qualitätsgetriebenen Mixture-of-Expert-Strategie, um die optimale Ausgabe für jeden Schritt auszuwählen. Zusätzlich integriert 4KAgent eine spezialisierte Gesichtsrestaurierungs-Pipeline, die Gesichtsdetails in Porträt- und Selfie-Fotos erheblich verbessert. Wir evaluieren unser 4KAgent-System rigoros über 11 verschiedene Aufgabenkategorien, die insgesamt 26 diverse Benchmarks umfassen, und setzen dabei neue Maßstäbe in einer breiten Palette von Bildgebungsdomänen. Unsere Evaluierungen decken natürliche Bilder, Porträtfotos, KI-generierte Inhalte, Satellitenbilder, Fluoreszenzmikroskopie sowie medizinische Bildgebung wie Fundoskopie, Ultraschall und Röntgen ab und zeigen überlegene Leistung in Bezug auf sowohl wahrnehmungsbasierte (z.B. NIQE, MUSIQ) als auch treue (z.B. PSNR) Metriken. Durch die Etablierung eines neuartigen agentenbasierten Paradigmas für Low-Level-Vision-Aufgaben streben wir an, ein breiteres Interesse und Innovationen in visionzentrierten autonomen Agenten über diverse Forschungsgemeinschaften hinweg zu fördern. Wir werden den gesamten Code, die Modelle und Ergebnisse unter https://4kagent.github.io veröffentlichen.
Wir stellen Skywork-R1V3 vor, ein fortschrittliches, quelloffenes Vision-Sprache-Modell (VLM), das einen neuen Ansatz für visuelles Denken vorantreibt. Die zentrale Innovation besteht darin, die Fähigkeit zum logischen Schlussfolgern effektiv von textbasierten Large Language Models (LLMs) auf visuelle Aufgaben zu übertragen. Die hohe Leistungsfähigkeit von Skywork-R1V3 resultiert hauptsächlich aus unserem ausgeklügelten Post-Training-RL-Framework, das die Denkfähigkeit des Modells effektiv aktiviert und verbessert, ohne dass zusätzliches kontinuierliches Vortraining erforderlich ist. Durch dieses Framework decken wir weiterhin die grundlegende Rolle des Verbindungsmoduls bei der Erzielung einer robusten cross-modalen Ausrichtung für multimodale Denkmodelle auf. Zudem führen wir einen einzigartigen Indikator für die Denkfähigkeit ein, die Entropie der kritischen Denk-Tokens, der sich als äußerst effektiv für die Checkpoint-Auswahl während des RL-Trainings erwiesen hat. Skywork-R1V3 erzielt Spitzenergebnisse auf MMMU und verbessert sich signifikant von 64,3 % auf 76,0 %. Diese Leistung entspricht den Fähigkeiten von Einstiegsniveau-Menschen. Bemerkenswerterweise ermöglicht unser RL-gestützter Post-Training-Ansatz sogar dem 38B-Parameter-Modell, mit führenden Closed-Source-VLMs zu konkurrieren. Die Implementierung überträgt erfolgreich mathematisches Denken auf andere fachbezogene Denkaufgaben. Wir schließen eine Analyse von Curriculum-Learning- und Reinforcement-Finetuning-Strategien ein sowie eine breitere Diskussion über multimodales Denken. Skywork-R1V3 stellt einen bedeutenden Fortschritt im multimodalen Denken dar und zeigt RL als leistungsstarke Triebkraft für die Weiterentwicklung quelloffener VLM-Fähigkeiten.
Obwohl die Gedächtnisfähigkeiten von KI-Agenten zunehmend Aufmerksamkeit erhalten, bleiben bestehende Lösungen grundlegend begrenzt. Die meisten stützen sich auf flache, eng begrenzte Gedächtniskomponenten, was ihre Fähigkeit einschränkt, personalisierte, abstrakte und zuverlässige Erinnerungen an benutzerspezifische Informationen über die Zeit hinweg zu ermöglichen. Aus diesem Grund stellen wir MIRIX vor, ein modulares, multi-agenten-basiertes Gedächtnissystem, das die Zukunft des KI-Gedächtnisses neu definiert, indem es die größte Herausforderung des Feldes löst: Sprachmodelle dazu zu befähigen, sich wirklich zu erinnern. Im Gegensatz zu früheren Ansätzen geht MIRIX über Text hinaus und umfasst reichhaltige visuelle und multimodale Erfahrungen, wodurch das Gedächtnis in realen Szenarien tatsächlich nützlich wird. MIRIX besteht aus sechs verschiedenen, sorgfältig strukturierten Gedächtnistypen: Kern-, Episodisches-, Semantisches-, Prozedurales-, Ressourcen-Gedächtnis und Wissensspeicher, gekoppelt mit einem Multi-Agenten-Framework, das Aktualisierungen und Abrufe dynamisch steuert und koordiniert. Dieser Entwurf ermöglicht es Agenten, vielfältige, langfristige Benutzerdaten in großem Maßstab zu speichern, darüber zu schlussfolgern und präzise abzurufen. Wir validieren MIRIX in zwei anspruchsvollen Umgebungen. Erstens auf ScreenshotVQA, einem herausfordernden multimodalen Benchmark, der fast 20.000 hochauflösende Computerbildschirmfotos pro Sequenz umfasst und ein tiefes kontextuelles Verständnis erfordert, wo keine bestehenden Gedächtnissysteme angewendet werden können, erreicht MIRIX eine 35 % höhere Genauigkeit als die RAG-Baseline, während die Speicheranforderungen um 99,9 % reduziert werden. Zweitens auf LOCOMO, einem Benchmark für lange Gespräche mit einmodaler Texteingabe, erreicht MIRIX eine state-of-the-art Leistung von 85,4 %, was die bestehenden Baselines deutlich übertrifft. Diese Ergebnisse zeigen, dass MIRIX einen neuen Leistungsstandard für gedächtnisgestützte LLM-Agenten setzt. Um Benutzern die Möglichkeit zu geben, unser Gedächtnissystem zu erleben, bieten wir eine verpackte Anwendung, die von MIRIX angetrieben wird. Sie überwacht den Bildschirm in Echtzeit, baut eine personalisierte Gedächtnisbasis auf und bietet intuitive Visualisierung und sichere lokale Speicherung, um die Privatsphäre zu gewährleisten.
Die Erzeugung vielfältiger und natürlicher menschlicher Bewegungssequenzen auf der Grundlage von Textbeschreibungen stellt ein grundlegendes und herausforderndes Forschungsgebiet in den Bereichen Computer Vision, Grafik und Robotik dar. Trotz erheblicher Fortschritte in diesem Bereich stehen aktuelle Methoden oft vor Herausforderungen in Bezug auf Zero-Shot-Generalisierungsfähigkeiten, was größtenteils auf die begrenzte Größe der Trainingsdatensätze zurückzuführen ist. Darüber hinaus behindert das Fehlen eines umfassenden Bewertungsrahmens den Fortschritt dieser Aufgabe, da keine Verbesserungsrichtungen identifiziert werden können. In dieser Arbeit streben wir an, die Text-zu-Bewegung in eine neue Ära zu führen, nämlich die Fähigkeit zur Zero-Shot-Generalisierung zu erreichen. Zu diesem Zweck entwickeln wir zunächst einen effizienten Annotationspipeline und führen MotionMillion ein – den größten menschlichen Bewegungsdatensatz bis heute, der über 2.000 Stunden und 2 Millionen hochwertige Bewegungssequenzen umfasst. Zusätzlich schlagen wir MotionMillion-Eval vor, den umfassendsten Benchmark zur Bewertung der Zero-Shot-Bewegungsgenerierung. Durch die Nutzung einer skalierbaren Architektur skalieren wir unser Modell auf 7 Milliarden Parameter und validieren seine Leistung auf MotionMillion-Eval. Unsere Ergebnisse zeigen eine starke Generalisierung auf domänenfremde und komplexe zusammengesetzte Bewegungen, was einen bedeutenden Schritt in Richtung Zero-Shot-Bewegungsgenerierung darstellt. Der Code ist verfügbar unter https://github.com/VankouF/MotionMillion-Codes.
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als äußerst effektive Strategie erwiesen, um Large Language Models (LLMs) robuste Fähigkeiten zur mehrstufigen Argumentation zu verleihen. Allerdings sind seine Gestaltung und Optimierungen weiterhin auf rein textbasierte Domänen zugeschnitten, was zu suboptimalen Leistungen bei multimodalen Argumentationsaufgaben führt. Insbesondere beobachten wir, dass eine Hauptfehlerquelle bei der aktuellen multimodalen Argumentation in der Wahrnehmung visueller Eingaben liegt. Um diesen Engpass zu beheben, schlagen wir Perception-Aware Policy Optimization (PAPO) vor, eine einfache, aber effektive Erweiterung von GRPO, die das Modell dazu anregt, während des Lernens der Argumentation auch die Wahrnehmung zu erlernen, und dies ausschließlich aus internen Überwachungssignalen. Bemerkenswerterweise stützt sich PAPO nicht auf zusätzliche Datenkuratierung, externe Belohnungsmodelle oder proprietäre Modelle. Konkret führen wir den Implicit Perception Loss in Form eines KL-Divergenz-Terms in das GRPO-Ziel ein, der trotz seiner Einfachheit signifikante Gesamtverbesserungen (4,4 %) auf diversen multimodalen Benchmarks erzielt. Die Verbesserungen sind ausgeprägter und nähern sich 8,0 % bei Aufgaben mit hoher visueller Abhängigkeit. Wir beobachten außerdem eine erhebliche Reduzierung (30,5 %) der Wahrnehmungsfehler, was auf verbesserte Wahrnehmungsfähigkeiten mit PAPO hinweist. Wir führen eine umfassende Analyse von PAPO durch und identifizieren ein einzigartiges Loss-Hacking-Problem, das wir durch einen Double Entropy Loss rigoros analysieren und mildern. Insgesamt führt unsere Arbeit eine tiefere Integration von wahrnehmungsbewusster Überwachung in RLVR-Lernziele ein und legt den Grundstein für ein neues RL-Framework, das visuell fundierte Argumentation fördert. Projektseite: https://mikewangwzhl.github.io/PAPO.
Große Sprachmodelle (LLMs) haben kürzlich bemerkenswerte Erfolge in Code-Generierungs-Benchmarks wie HumanEval und LiveCodeBench erzielt. Eine detaillierte Untersuchung zeigt jedoch, dass diese Bewertungssuiten oft nur eine begrenzte Anzahl homogener Testfälle umfassen, was dazu führt, dass subtile Fehler unentdeckt bleiben. Dies führt nicht nur zu einer künstlichen Aufblähung der gemessenen Leistung, sondern beeinträchtigt auch die genaue Belohnungsschätzung in Verstärkungslern-Frameworks, die verifizierbare Belohnungen (RLVR) verwenden. Um diese kritischen Mängel zu beheben, untersuchen wir systematisch die Aufgabe der Testfallgenerierung (TCG), indem wir mehrdimensionale Metriken vorschlagen, die die Gründlichkeit von Testsuiten rigoros quantifizieren sollen. Darüber hinaus führen wir eine menschlich-LLM-kollaborative Methode (SAGA) ein, die menschliche Programmierkenntnisse mit der Denkfähigkeit von LLMs kombiniert, um sowohl die Abdeckung als auch die Qualität der generierten Testfälle signifikant zu verbessern. Zusätzlich entwickeln wir ein TCGBench, um die Untersuchung der TCG-Aufgabe zu erleichtern. Experimente zeigen, dass SAGA eine Erkennungsrate von 90,62 % und eine Verifizierer-Genauigkeit von 32,58 % auf TCGBench erreicht. Die Verifizierer-Genauigkeit (Verifier Acc) des von SAGA synthetisierten Code-Generierungs-Bewertungs-Benchmarks ist um 10,78 % höher als die von LiveCodeBench-v6. Diese Ergebnisse demonstrieren die Effektivität unserer vorgeschlagenen Methode. Wir hoffen, dass diese Arbeit dazu beiträgt, eine skalierbare Grundlage für eine zuverlässige LLM-Code-Bewertung zu schaffen, die Weiterentwicklung von RLVR in der Code-Generierung voranzutreiben und den Weg für die automatisierte adversarische Testsynthese und die adaptive Benchmark-Integration zu ebnen.
Reinforcement Learning from Verifiable Rewards (RLVR) verbessert die Argumentationsfähigkeiten von Large Language Models (LLMs), hat jedoch mit instabiler Exploration zu kämpfen. Wir schlagen FR3E (First Return, Entropy-Eliciting Explore) vor, ein strukturiertes Explorationsframework, das Entscheidungspunkte mit hoher Unsicherheit in Argumentationspfaden identifiziert und gezielte Rollouts durchführt, um semantisch fundiertes Zwischenfeedback zu erzeugen. Unsere Methode bietet gezielte Anleitung, ohne auf dichte Überwachung anzuweisen. Empirische Ergebnisse auf mathematischen Argumentationsbenchmarks (AIME24) zeigen, dass FR3E stabileres Training fördert, längere und kohärentere Antworten erzeugt und den Anteil vollständig korrekter Pfade erhöht. Diese Ergebnisse unterstreichen die Effektivität des Frameworks bei der Verbesserung der LLM-Argumentation durch robustere und strukturiertere Exploration.
Transformer stehen bei langen Sequenzen vor quadratischer Komplexität und Speicherproblemen, was die Einführung linearer Aufmerksamkeitsmechanismen mit festgelegten versteckten Zuständen motiviert. Allerdings leiden lineare Modelle oft unter begrenzter Erinnerungsleistung, was zu hybriden Architekturen führt, die lineare und vollständige Aufmerksamkeitsebenen kombinieren. Trotz umfangreicher Forschung zu hybriden Architekturen wurde die Wahl der linearen Aufmerksamkeitskomponente nicht eingehend untersucht. Wir evaluieren systematisch verschiedene lineare Aufmerksamkeitsmodelle über Generationen hinweg – von Vektor-Rekurrenzen bis hin zu fortgeschrittenen Gating-Mechanismen – sowohl eigenständig als auch hybridisiert. Um diese umfassende Analyse zu ermöglichen, haben wir 72 Modelle trainiert und als Open Source bereitgestellt: 36 mit 340M Parametern (20B Tokens) und 36 mit 1,3B Parametern (100B Tokens), die sechs Varianten linearer Aufmerksamkeit über fünf Hybridisierungsverhältnisse abdecken. Benchmarks auf Standardaufgaben zur Sprachmodellierung und Erinnerung zeigen, dass überlegene eigenständige lineare Modelle nicht zwangsläufig in Hybriden exzellieren. Während die Sprachmodellierung über verschiedene Verhältnisse von linearer zu vollständiger Aufmerksamkeit stabil bleibt, verbessert sich die Erinnerungsleistung signifikant mit zunehmenden vollständigen Aufmerksamkeitsebenen, insbesondere unter einem Verhältnis von 3:1. Unsere Studie hebt selektives Gating, hierarchische Rekurrenz und kontrolliertes Vergessen als entscheidend für effektive hybride Modelle hervor. Wir empfehlen Architekturen wie HGRN-2 oder GatedDeltaNet mit einem linearen zu vollständigen Verhältnis zwischen 3:1 und 6:1, um eine Transformer-ähnliche Erinnerungsleistung effizient zu erreichen. Unsere Modelle sind unter https://huggingface.co/collections/m-a-p/hybrid-linear-attention-research-686c488a63d609d2f20e2b1e als Open Source verfügbar.
Die Entwicklung von Kerneln im Bereich des Deep Learnings erfordert die Optimierung von Recheneinheiten über verschiedene Hardwareplattformen hinweg, wobei ein Gleichgewicht zwischen Speicherverwaltung, Parallelität und hardware-spezifischen Optimierungen durch umfangreiche empirische Abstimmung hergestellt werden muss. Obwohl domänenspezifische Sprachen wie Triton die GPU-Programmierung durch die Abstraktion von Low-Level-Details vereinfachen, müssen Entwickler dennoch kritische Parameter wie Tile-Größen und Speicherzugriffsmuster manuell durch iterative Experimente anpassen, was erhebliche Hindernisse für optimale Leistung und breitere Akzeptanz darstellt. In dieser Arbeit stellen wir AutoTriton vor, das erste Modell, das sich der Triton-Programmierung widmet und durch Reinforcement Learning (RL) angetrieben wird. AutoTriton führt ein Supervised Fine-Tuning (SFT) durch, um mit essenzieller Triton-Programmierungsfähigkeit ausgestattet zu werden, und führt RL mit dem Group Relative Policy Optimization (GRPO)-Algorithmus durch, der eine regelbasierte Belohnung und eine ausführungsbasierte Belohnung kombiniert, um die Triton-Programmierungsfähigkeit schrittweise weiter zu verbessern. Experimente über fünf Evaluationskanäle von TritonBench und KernelBench zeigen, dass unser 8B-Modell AutoTriton eine Leistung erzielt, die mit gängigen großen Modellen wie Claude-4-Sonnet und DeepSeek-R1-0528 vergleichbar ist. Weitere experimentelle Analysen demonstrieren die entscheidende Rolle jedes Moduls innerhalb von AutoTriton, einschließlich der SFT-Phase, der RL-Phase und der Belohnungsdesignstrategie. Diese Ergebnisse unterstreichen das Potenzial von RL für die automatische Generierung von Hochleistungskerneln, und da Hochleistungskernel Kernkomponenten von KI-Systemen sind, legt dieser Durchbruch eine wichtige Grundlage für den Aufbau effizienterer KI-Systeme. Das Modell und der Code werden unter https://github.com/AI9Stars/AutoTriton verfügbar sein.
Das automatisierte Theorembeweisen (Automated Theorem Proving, ATP) in formalen Sprachen stellt eine grundlegende Herausforderung für die KI dar. Während große Sprachmodelle (Large Language Models, LLMs) bemerkenswerte Fortschritte erzielt haben, besteht nach wie vor eine erhebliche Lücke zwischen ihren leistungsstarken Fähigkeiten im informellen Schließen und ihrer schwachen Leistung beim formalen Beweisen. Aktuelle Studien zeigen, dass die informelle Genauigkeit 80 % übersteigt, während der formale Erfolg auf Benchmarks wie PutnamBench unter 8 % bleibt. Wir argumentieren, dass diese Lücke bestehen bleibt, weil aktuelle State-of-the-Art-Beweiser durch die enge Kopplung von Schließen und Beweisen mit Paradigmen trainiert werden, die unbeabsichtigt tiefes Schließen zugunsten oberflächlicher, taktikbasierter Strategien bestrafen. Um diese grundlegende Lücke zu überbrücken, schlagen wir ein neuartiges Framework vor, das hochrangiges Schließen von der Erzeugung niedrigrangiger Beweise entkoppelt. Unser Ansatz nutzt zwei spezialisierte Modelle: einen leistungsstarken, allgemeinen Schließer (Reasoner), um vielfältige, strategische Subziel-Lemmata zu generieren, und einen effizienten Beweiser (Prover), um diese rigoros zu verifizieren. Dieser modulare Ansatz befreit das volle Schließpotenzial des Modells und umgeht die Fallstricke des End-to-End-Trainings. Wir evaluieren unsere Methode anhand eines anspruchsvollen Satzes von IMO-Problemen ab dem Jahr 2000, einem Problembereich, bei dem bisher kein Open-Source-Beweiser Erfolge gemeldet hat. Unser entkoppeltes Framework löst erfolgreich 5 dieser Probleme und zeigt damit einen bedeutenden Schritt in Richtung automatisierten Schließens bei außergewöhnlich schwierigen mathematischen Herausforderungen. Um zukünftige Forschung zu fördern, veröffentlichen wir unseren vollständigen Datensatz generierter und verifizierter Lemmata für eine Vielzahl von IMO-Problemen, verfügbar unter https://tencent-imo.github.io/.
Der rasche Fortschritt multimodaler großer Sprachmodelle (MLLM) hat den Weg für Vision-Language-Action (VLA)-Paradigmen geebnet, die visuelle Wahrnehmung, natürliches Sprachverständnis und Steuerung in einer einzigen Policy integrieren. Forscher im Bereich des autonomen Fahrens passen diese Methoden aktiv auf den Fahrzeugbereich an. Solche Modelle versprechen autonome Fahrzeuge, die hochrangige Anweisungen interpretieren, komplexe Verkehrsszenen analysieren und eigene Entscheidungen treffen können. Die Literatur bleibt jedoch fragmentiert und expandiert schnell. Dieser Überblick bietet die erste umfassende Darstellung von VLA für autonomes Fahren (VLA4AD). Wir (i) formalisieren die architektonischen Bausteine, die in aktuellen Arbeiten gemeinsam genutzt werden, (ii) verfolgen die Entwicklung von frühen Erklärungsmodellen hin zu vernunftzentrierten VLA-Modellen und (iii) vergleichen über 20 repräsentative Modelle entsprechend des Fortschritts von VLA im Bereich des autonomen Fahrens. Wir konsolidieren auch bestehende Datensätze und Benchmarks und heben Protokolle hervor, die Fahrzeugsicherheit, Genauigkeit und Erklärungsqualität gemeinsam messen. Schließlich gehen wir auf offene Herausforderungen ein – Robustheit, Echtzeiteffizienz und formale Verifikation – und skizzieren zukünftige Richtungen von VLA4AD. Dieser Überblick bietet eine prägnante, aber vollständige Referenz für die Weiterentwicklung interpretierbarer, sozial ausgerichteter autonomer Fahrzeuge. Das Github-Repo ist verfügbar unter https://github.com/JohnsonJiang1996/Awesome-VLA4AD{SicongJiang/Awesome-VLA4AD}.
Die Aufklärung molekularer Strukturen aus Spektren ist ein grundlegendes Problem in der Chemie mit weitreichenden Auswirkungen auf die Identifikation von Verbindungen, die Synthese und die Arzneimittelentwicklung. Traditionelle Methoden stützen sich stark auf die Interpretation durch Experten und sind nicht skalierbar. Pionierarbeit leistende maschinelle Lernmethoden haben abrufbasierte Strategien eingeführt, doch ihre Abhängigkeit von begrenzten Bibliotheken schränkt die Generalisierung auf neuartige Moleküle ein. Generative Modelle bieten eine vielversprechende Alternative, doch die meisten verwenden autoregressive SMILES-basierte Architekturen, die die 3D-Geometrie vernachlässigen und Schwierigkeiten haben, diverse spektrale Modalitäten zu integrieren. In dieser Arbeit präsentieren wir DiffSpectra, ein generatives Framework, das sowohl 2D- als auch 3D-Molekülstrukturen direkt aus multimodalen spektralen Daten mithilfe von Diffusionsmodellen ableitet. DiffSpectra formuliert die Strukturaufklärung als einen bedingten Generierungsprozess. Sein Denoising-Netzwerk wird durch den Diffusion Molecule Transformer parametrisiert, eine SE(3)-äquivariante Architektur, die topologische und geometrische Informationen integriert. Die Bedingung wird durch SpecFormer bereitgestellt, einen Transformer-basierten spektralen Encoder, der intra- und interspektrale Abhängigkeiten aus multimodalen Spektren erfasst. Umfangreiche Experimente zeigen, dass DiffSpectra eine hohe Genauigkeit bei der Strukturaufklärung erreicht und exakte Strukturen mit einer Top-1-Genauigkeit von 16,01 % und einer Top-20-Genauigkeit von 96,86 % durch Sampling wiederherstellt. Das Modell profitiert erheblich von der 3D-geometrischen Modellierung, dem Pre-Training von SpecFormer und der multimodalen Bedingung. Diese Ergebnisse unterstreichen die Effektivität des spektrumbedingten Diffusionsmodellierens bei der Bewältigung der Herausforderung der molekularen Strukturaufklärung. Unseres Wissens ist DiffSpectra das erste Framework, das multimodale spektrale Schlussfolgerung und gemeinsame 2D/3D-generative Modellierung für die de novo molekulare Strukturaufklärung vereint.
Jüngste Fortschritte im Bereich der Sprachmodellierung haben die Effektivität von State-Space-Modellen (SSMs) für effiziente Sequenzmodellierung demonstriert. Während hybride Architekturen wie Samba und die Decoder-Decoder-Architektur YOCO vielversprechende Leistungssteigerungen gegenüber Transformern gezeigt haben, haben frühere Arbeiten das Effizienzpotenzial der Repräsentationsweitergabe zwischen SSM-Schichten nicht untersucht. In diesem Artikel stellen wir die Gated Memory Unit (GMU) vor, einen einfachen, aber effektiven Mechanismus für effizientes Speicher-Sharing über Schichten hinweg. Wir wenden sie an, um SambaY zu erstellen, eine Decoder-Hybrid-Decoder-Architektur, die GMUs im Cross-Decoder integriert, um Speicherlesezustände aus einem Samba-basierten Self-Decoder zu teilen. SambaY verbessert die Decodiereffizienz erheblich, bewahrt die lineare Zeitkomplexität beim Pre-Filling und steigert die Leistung bei langen Kontexten, alles ohne die Notwendigkeit expliziter Positionskodierung. Durch umfangreiche Skalierungsexperimente zeigen wir, dass unser Modell im Vergleich zu einer starken YOCO-Baseline einen deutlich geringeren irreduziblen Verlust aufweist, was auf eine überlegene Leistungsskalierbarkeit unter großskaligen Rechenregimen hinweist. Unser größtes Modell, das mit Differential Attention, Phi4-mini-Flash-Reasoning, erweitert wurde, erzielt signifikant bessere Leistungen als Phi4-mini-Reasoning bei Aufgaben wie Math500, AIME24/25 und GPQA Diamond ohne jegliches Reinforcement Learning, während es unter dem vLLM-Inferenzframework eine bis zu 10-fach höhere Decodiergeschwindigkeit bei 2K-langen Prompts mit einer Generierungslänge von 32K liefert. Wir veröffentlichen unsere Trainingscodebasis auf Open-Source-Daten unter https://github.com/microsoft/ArchScale.
Wir stellen FlexOlmo vor, eine neue Klasse von Sprachmodellen (LMs), die (1) verteiltes Training ohne Datenaustausch unterstützt, bei dem verschiedene Modellparameter unabhängig auf geschlossenen Datensätzen trainiert werden, und (2) datenflexible Inferenz ermöglicht, bei der diese Parameter zusammen mit ihren zugehörigen Daten flexibel in Modellinferenzen einbezogen oder davon ausgeschlossen werden können, ohne dass ein weiteres Training erforderlich ist. FlexOlmo verwendet eine Mixture-of-Experts (MoE)-Architektur, bei der jeder Experte unabhängig auf geschlossenen Datensätzen trainiert und später durch ein neues domäneninformiertes Routing ohne gemeinsames Training integriert wird. FlexOlmo wird auf FlexMix trainiert, einem von uns kuratierten Korpus, das öffentlich verfügbare Datensätze sowie sieben domänenspezifische Datensätze umfasst, die realistische Annäherungen an geschlossene Datensätze darstellen. Wir evaluieren Modelle mit bis zu 37 Milliarden Parametern (20 Milliarden aktiv) anhand von 31 verschiedenen Downstream-Aufgaben. Wir zeigen, dass ein allgemeiner Experte, der auf öffentlichen Daten trainiert wurde, effektiv mit unabhängig trainierten Experten anderer Datenbesitzer kombiniert werden kann, was zu einer durchschnittlichen relativen Verbesserung von 41 % führt, während Benutzer die Möglichkeit haben, bestimmte Daten basierend auf Lizenz- oder Berechtigungsanforderungen auszuschließen. Unser Ansatz übertrifft auch frühere Methoden zur Modellzusammenführung im Durchschnitt um 10,1 % und übertrifft das Standard-MoE, das ohne Datenbeschränkungen mit denselben Trainings-FLOPs trainiert wurde. Insgesamt bietet diese Forschung eine Lösung sowohl für Datenbesitzer als auch für Forscher in regulierten Branchen mit sensiblen oder geschützten Daten. FlexOlmo ermöglicht es, von geschlossenen Daten zu profitieren, während die Präferenzen der Datenbesitzer respektiert werden, indem ihre Daten lokal gehalten werden und eine fein granulare Kontrolle des Datenzugriffs während der Inferenz unterstützt wird.
Trotz Fortschritten bei der videobasierten Argumentation mit Reinforcement Learning (RL) und großen Sprachmodellen (LLMs) bleiben Datenerfassung und Feinabstimmung erhebliche Herausforderungen. Diese Methoden beruhen oft auf groß angelegtem überwachtem Feinabstimmen (SFT) mit umfangreichen Videodaten und langen Chain-of-Thought (CoT)-Annotationen, was sie kostspielig und schwer skalierbar macht. Um dies zu bewältigen, präsentieren wir Video-RTS, einen neuen Ansatz zur Verbesserung der videobasierten Argumentationsfähigkeit mit deutlich gesteigerter Dateneffizienz durch die Kombination von dateneffizientem RL mit einer videoadaptiven Testzeit-Skalierungsstrategie (TTS). Basierend auf Beobachtungen zur Datenskalierung von RL-Proben überspringen wir den ressourcenintensiven SFT-Schritt und setzen effizientes reines RL-Training mit outputbasierten Belohnungen ein, das keine zusätzlichen Annotationen oder umfangreiche Feinabstimmung erfordert. Darüber hinaus führen wir eine spärlich-dichte Video-TTS-Strategie ein, die die Inferenz verbessert, indem sie basierend auf der Konsistenz der Ausgaben iterativ Frames hinzufügt. Wir validieren unseren Ansatz an mehreren Benchmarks für videobasierte Argumentation und zeigen, dass Video-RTS bestehende Modelle für videobasierte Argumentation im Durchschnitt um 2,4 % in der Genauigkeit übertrifft, wobei nur 3,6 % der Trainingsdaten verwendet werden. Beispielsweise erzielt Video-RTS eine Verbesserung von 4,2 % bei Video-Holmes, einem aktuellen und anspruchsvollen Benchmark für videobasierte Argumentation, und eine Verbesserung von 2,6 % bei MMVU. Bemerkenswerterweise bieten unser reines RL-Training und die adaptive Video-TTS komplementäre Stärken, die die starke Argumentationsleistung von Video-RTS ermöglichen.
Langzeitkontext-Reasoning erfordert die präzise Identifizierung relevanter Informationen in umfangreichen, verrauschten Eingabekontexten. Frühere Forschungen zeigen, dass die Verwendung von Testzeit-Lernen, um den Kontext direkt in die Modellparameter zu kodieren, effektiv das Reasoning über verrauschte Informationen ermöglichen kann. Allerdings sind Meta-Learning-Methoden, die Testzeit-Lernen ermöglichen, in Bezug auf den Speicherbedarf zu aufwendig, was ihre Anwendung in Langzeitkontext-Szenarien verhindert. In dieser Arbeit schlagen wir PERK (Parameter Efficient Reasoning over Knowledge) vor, einen skalierbaren Ansatz, um das Kodieren langer Eingabekontexte durch Gradienten-Updates eines leichtgewichtigen Modell-Adapters zur Testzeit zu erlernen. Konkret verwendet PERK zwei verschachtelte Optimierungsschleifen in einer Meta-Trainingsphase. Die innere Schleife kodiert Kontexte schnell in einen Low-Rank-Adapter (LoRA), der als speichereffizientes Modul für das Basismodell dient. Gleichzeitig lernt die äußere Schleife, den aktualisierten Adapter zu nutzen, um relevante Informationen aus dem kodierten Langzeitkontext präzise abzurufen und darüber zu schlussfolgern. Unsere Bewertungen mehrerer Langzeitkontext-Reasoning-Aufgaben zeigen, dass PERK den standardmäßigen Prompt-basierten Langzeitkontext-Baseline deutlich übertrifft, mit durchschnittlichen absoluten Leistungssteigerungen von bis zu 90 % für kleinere Modelle (GPT-2) und bis zu 27 % für unser größtes bewertetes Modell, Qwen-2.5-0.5B. Im Allgemeinen ist PERK robuster gegenüber Reasoning-Komplexität, Längenextrapolation und den Positionen relevanter Informationen in Kontexten. Schließlich zeigen wir, dass PERK zwar während des Trainings speicherintensiv ist, aber zur Inferenzzeit effizienter skaliert als Prompt-basierte Langzeitkontext-Inferenz.
Die automatische Erkennung von toxischer Sprache ist entscheidend für die Schaffung sicherer, inklusiver Online-Räume. Es handelt sich jedoch um eine hochgradig subjektive Aufgabe, da die Wahrnehmung von toxischer Sprache durch Gemeinschaftsnormen und persönliche Erfahrungen geprägt ist. Bestehende Modelle zur Toxizitätserkennung werden typischerweise auf Annotationen trainiert, die unterschiedliche Perspektiven der Annotatoren in eine einzige Grundwahrheit zusammenfassen, wodurch wichtige kontextspezifische Vorstellungen von Toxizität, wie beispielsweise reklamierte Sprache, verloren gehen. Um dies zu adressieren, stellen wir MODELCITIZENS vor, einen Datensatz mit 6.8K Social-Media-Beiträgen und 40K Toxizitätsannotationen über diverse Identitätsgruppen hinweg. Um die Rolle des Konversationskontexts auf die Toxizität, wie er typischerweise in Social-Media-Beiträgen vorkommt, zu erfassen, ergänzen wir MODELCITIZENS-Beiträge mit LLM-generierten Konversationsszenarien. State-of-the-Art-Toxizitätserkennungstools (z.B. OpenAI Moderation API, GPT-o4-mini) schneiden bei MODELCITIZENS schlechter ab, mit weiterer Verschlechterung bei kontextangereicherten Beiträgen. Schließlich veröffentlichen wir LLAMACITIZEN-8B und GEMMACITIZEN-12B, auf MODELCITIZENS feinabgestimmte Modelle basierend auf LLaMA und Gemma, die GPT-o4-mini in In-Distribution-Evaluierungen um 5.5% übertreffen. Unsere Ergebnisse unterstreichen die Bedeutung von gemeindebasierten Annotationen und Modellierungen für eine inklusive Inhaltsmoderation. Die Daten, Modelle und der Code sind unter https://github.com/asuvarna31/modelcitizens verfügbar.
Nova Premier ist Amazons leistungsstärkstes multimodales Basismodell und dient als Lehrer für die Modell-Destillation. Es verarbeitet Text, Bilder und Videos mit einem Kontextfenster von einer Million Tokens, wodurch die Analyse großer Codebasen, 400-seitiger Dokumente und 90-minütiger Videos in einer einzigen Eingabe ermöglicht wird. Wir präsentieren die erste umfassende Bewertung des kritischen Risikoprofils von Nova Premier im Rahmen des Frontier Model Safety Framework. Die Bewertungen konzentrieren sich auf drei Hochrisikobereiche – Chemische, Biologische, Radiologische & Nukleare (CBRN), Offensive Cyber-Operationen und Automatisierte KI-Entwicklung – und kombinieren automatisierte Benchmarks, Expertenteams für Red-Teaming und Uplift-Studien, um festzustellen, ob das Modell die Freigabeschwellen überschreitet. Wir fassen unsere Methodik zusammen und berichten über die zentralen Erkenntnisse. Basierend auf dieser Bewertung kommen wir zu dem Schluss, dass Nova Premier gemäß unseren Verpflichtungen auf dem Pariser KI-Sicherheitsgipfel 2025 sicher für die öffentliche Freigabe ist. Wir werden unsere Sicherheitsbewertungs- und Risikominderungsprozesse kontinuierlich verbessern, sobald neue Risiken und Fähigkeiten im Zusammenhang mit Frontier-Modellen identifiziert werden.
Die Forschung zu autonomer Chirurgie hat sich weitgehend auf die Automatisierung einfacher Aufgaben in kontrollierten Umgebungen konzentriert. Echte chirurgische Anwendungen erfordern jedoch geschickte Manipulation über längere Zeiträume und die Generalisierung auf die inhärente Variabilität menschlichen Gewebes. Diese Herausforderungen bleiben mit bestehenden logikbasierten oder konventionellen end-to-end Lernansätzen schwer zu bewältigen. Um diese Lücke zu schließen, schlagen wir ein hierarchisches Framework zur Durchführung geschickter, langfristiger chirurgischer Schritte vor. Unser Ansatz nutzt eine High-Level-Policy für die Aufgabenplanung und eine Low-Level-Policy zur Erzeugung von Roboter-Trajektorien. Der High-Level-Planer plant im Sprachraum und generiert aufgabenbezogene oder korrigierende Anweisungen, die den Roboter durch die langfristigen Schritte führen und Fehler der Low-Level-Policy korrigieren. Wir validieren unser Framework durch Ex-vivo-Experimente zur Cholezystektomie, einem häufig praktizierten minimalinvasiven Verfahren, und führen Ablationsstudien durch, um Schlüsselkomponenten des Systems zu bewerten. Unsere Methode erreicht eine Erfolgsrate von 100 % bei acht ungesehenen Ex-vivo-Gallenblasen und arbeitet vollständig autonom ohne menschliches Eingreifen. Diese Arbeit demonstriert schrittweise Autonomie in einem chirurgischen Verfahren und markiert einen Meilenstein auf dem Weg zum klinischen Einsatz autonomer chirurgischer Systeme.
Jüngste Fortschritte in multimodalen großen Sprachmodellen (MLLMs) haben bildbasierte Frage-Antwort-Fähigkeiten ermöglicht. Ein zentraler Nachteil ist jedoch die Verwendung von CLIP als visueller Encoder; während es grobe globale Informationen erfassen kann, übersieht es oft fein abgestimmte Details, die für die Eingabeabfrage relevant sind. Um diese Mängel zu beheben, untersucht diese Arbeit, ob vortrainierte Text-zu-Bild-Diffusionsmodelle als instruktionsbewusste visuelle Encoder dienen können. Durch eine Analyse ihrer internen Repräsentationen stellen wir fest, dass Diffusionsmerkmale sowohl semantisch reichhaltig sind als auch eine starke Bild-Text-Ausrichtung kodieren können. Darüber hinaus finden wir, dass wir die Textkonditionierung nutzen können, um das Modell auf die für die Eingabefrage relevanten Regionen zu fokussieren. Anschließend untersuchen wir, wie diese Merkmale mit großen Sprachmodellen ausgerichtet werden können, und decken ein Leckphänomen auf, bei dem das LLM unbeabsichtigt Informationen aus dem ursprünglichen Diffusions-Prompt wiederherstellen kann. Wir analysieren die Ursachen dieses Lecks und schlagen eine Strategie zur Minderung vor. Basierend auf diesen Erkenntnissen untersuchen wir eine einfache Fusionsstrategie, die sowohl CLIP als auch konditionale Diffusionsmerkmale nutzt. Wir bewerten unseren Ansatz sowohl anhand allgemeiner VQA- als auch spezialisierter MLLM-Benchmarks und demonstrieren das Potenzial von Diffusionsmodellen für das visuelle Verständnis, insbesondere bei visuell zentrierten Aufgaben, die räumliches und kompositionelles Denken erfordern. Unsere Projektseite ist unter https://vatsalag99.github.io/mustafar/ zu finden.
Große Sprachmodelle (LLMs) und ihre Sicherheitsklassifikatoren schneiden häufig schlecht bei ressourcenarmen Sprachen ab, was auf begrenzte Trainingsdaten und Evaluierungsbenchmarks zurückzuführen ist. Dieses Papier stellt RabakBench vor, einen neuen mehrsprachigen Sicherheitsbenchmark, der auf den einzigartigen linguistischen Kontext Singapurs zugeschnitten ist und Singlish, Chinesisch, Malayisch und Tamil abdeckt. RabakBench wird durch einen skalierbaren dreistufigen Pipeline-Prozess erstellt: (i) Generieren – Erzeugung von adversarischen Beispielen durch Anreicherung von echtem Singlish-Webinhalt mit LLM-gestützten Red-Teaming-Methoden; (ii) Labeln – halbautomatische Mehrfachlabel-Sicherheitsannotation unter Verwendung von mehrheitsbasierten LLM-Labeln, die mit menschlichen Urteilen abgestimmt sind; und (iii) Übersetzen – hochwertige Übersetzung, die linguistische Nuancen und Toxizität über Sprachen hinweg bewahrt. Der endgültige Datensatz umfasst über 5.000 sicherheitslabelte Beispiele in vier Sprachen und sechs fein abgestuften Sicherheitskategorien mit Schweregraden. Evaluierungen von 11 beliebten Open-Source- und Closed-Source-Sicherheitsklassifikatoren zeigen eine signifikante Leistungsverschlechterung. RabakBench ermöglicht nicht nur eine robuste Sicherheitsbewertung in südostasiatischen mehrsprachigen Umgebungen, sondern bietet auch einen reproduzierbaren Rahmen für die Erstellung lokalisierter Sicherheitsdatensätze in ressourcenarmen Umgebungen. Der Benchmark-Datensatz, einschließlich der von Menschen verifizierten Übersetzungen, und der Evaluierungscode sind öffentlich verfügbar.
Die Verbreitung multimodaler Memes im Zeitalter der sozialen Medien erfordert, dass multimodale Large Language Models (mLLMs) die Schädlichkeit von Memes effektiv verstehen. Bestehende Benchmarks zur Bewertung von mLLMs im Hinblick auf das Verständnis schädlicher Memes stützen sich auf modellagnostische, auf Genauigkeit basierende Bewertungen mit statischen Datensätzen. Diese Benchmarks sind in ihrer Fähigkeit eingeschränkt, aktuelle und umfassende Bewertungen zu liefern, da sich Online-Memes dynamisch weiterentwickeln. Um dies zu adressieren, schlagen wir AdamMeme vor, ein flexibles, agentenbasiertes Bewertungsframework, das die Fähigkeiten von mLLMs zur Entschlüsselung der Schädlichkeit von Memes adaptiv untersucht. Durch die Zusammenarbeit mehrerer Agenten bietet AdamMeme umfassende Bewertungen, indem es die Meme-Daten iterativ mit herausfordernden Beispielen aktualisiert und so spezifische Schwächen in der Interpretation der Schädlichkeit durch mLLMs aufdeckt. Umfangreiche Experimente zeigen, dass unser Framework systematisch die unterschiedliche Leistung verschiedener Ziel-mLLMs offenlegt und detaillierte, feingranulare Analysen modellspezifischer Schwächen liefert. Unser Code ist verfügbar unter https://github.com/Lbotirx/AdamMeme.