papers.description
Trotz ihrer bemerkenswerten Fähigkeiten haben Large Language Models (LLMs) Schwierigkeiten, historische Interaktionsinformationen in dynamischen und komplexen Umgebungen effektiv zu nutzen. Speichersysteme ermöglichen es LLMs, über zustandslose Interaktionen hinauszugehen, indem sie persistente Informationsspeicherung, -abruf und -nutzung einführen. Allerdings führen bestehende Speichersysteme oft erheblichen Zeit- und Rechenaufwand mit sich. Daher stellen wir ein neues Speichersystem namens LightMem vor, das eine Balance zwischen der Leistung und Effizienz von Speichersystemen schafft. Inspiriert vom Atkinson-Shiffrin-Modell des menschlichen Gedächtnisses organisiert LightMem den Speicher in drei komplementäre Stufen. Zunächst filtert der kognitionsinspirierte sensorische Speicher irrelevante Informationen durch leichte Kompression schnell aus und gruppiert Informationen nach ihren Themen. Anschließend konsolidiert der themenbewusste Kurzzeitspeicher diese themenbasierten Gruppen, organisiert und fasst Inhalte für einen strukturierteren Zugriff zusammen. Schließlich verwendet der Langzeitspeicher mit Schlafzeit-Aktualisierung ein Offline-Verfahren, das die Konsolidierung vom Online-Inferenzprozess entkoppelt. Experimente auf LongMemEval mit GPT- und Qwen-Backbones zeigen, dass LightMem starke Baselines in der Genauigkeit (bis zu 10,9 % Verbesserung) übertrifft, während der Token-Verbrauch um bis zu 117x, API-Aufrufe um bis zu 159x und die Laufzeit um über 12x reduziert werden. Der Code ist unter https://github.com/zjunlp/LightMem verfügbar.
Wir präsentieren Core Attention Disaggregation (CAD), eine Technik, die das Training von Large Language Models mit langen Kontexten verbessert, indem die Kernberechnung der Attention, softmax(QK^T)V, vom Rest des Modells entkoppelt und auf einem separaten Pool von Geräten ausgeführt wird. In bestehenden Systemen ist die Kern-Attention mit anderen Schichten zusammengefasst; bei langen Kontextlängen führt ihr quadratischer Rechenaufwand im Vergleich zum nahezu linearen Wachstum anderer Komponenten zu Lastungleichgewichten und Verzögerungen in Daten- und Pipeline-Parallelgruppen. CAD wird durch zwei Beobachtungen ermöglicht. Erstens ist die Kern-Attention zustandslos: Sie hat keine trainierbaren Parameter und nur minimale temporäre Daten, sodass die Lastverteilung auf die Planung rechenintensiver Aufgaben reduziert wird. Zweitens ist sie komponierbar: Moderne Attention-Kernel behalten eine hohe Effizienz bei der Verarbeitung von fusionierten Batches von Token-Level-Shards mit beliebigen Längen. CAD unterteilt die Kern-Attention in Token-Level-Aufgaben und verteilt sie auf dedizierte Attention-Server, die Aufgaben dynamisch neu bündeln, um die Rechenlast auszugleichen, ohne die Kernel-Effizienz zu beeinträchtigen. Wir implementieren CAD in einem System namens DistCA, das ein Ping-Pong-Ausführungsschema verwendet, um die Kommunikation vollständig mit der Berechnung zu überlappen, und In-Place-Ausführung auf Attention-Servern, um den Speicherverbrauch zu reduzieren. Auf 512 H200 GPUs und Kontextlängen von bis zu 512k Tokens verbessert DistCA den end-to-end Trainingsdurchsatz um bis zu 1,35x, eliminiert Verzögerungen in Daten- und Pipeline-Parallelgruppen und erreicht eine nahezu perfekte Rechen- und Speicherbalance.
Generative Weltmodelle (WMs) können inzwischen Welten mit beeindruckender visueller Realität simulieren, was zwangsläufig die Frage aufwirft, ob sie verkörperten Agenten prädiktive Wahrnehmung für Entscheidungsfindung vermitteln können. Fortschritte in dieser Frage wurden durch fragmentierte Evaluierung begrenzt: Die meisten bestehenden Benchmarks verwenden offene Protokolle, die die visuelle Qualität isoliert betonen, wodurch die Kernfrage der verkörperten Nützlichkeit ungelöst bleibt, d. h., helfen WMs tatsächlich Agenten dabei, verkörperte Aufgaben erfolgreich zu bewältigen? Um diese Lücke zu schließen, führen wir World-in-World ein, die erste offene Plattform, die WMs in einer geschlossenen Schleife bewertet, die reale Interaktionen zwischen Agent und Umwelt widerspiegelt. World-in-World bietet eine einheitliche Online-Planungsstrategie und eine standardisierte Aktions-API, die heterogene WMs für die Entscheidungsfindung ermöglicht. Wir kuratieren vier geschlossene Umgebungen, die verschiedene WMs rigoros bewerten, den Aufgaben-Erfolg als primäre Metrik priorisieren und über die gängige Fokussierung auf visuelle Qualität hinausgehen; wir präsentieren auch das erste Datenskalierungsgesetz für Weltmodelle in verkörperten Kontexten. Unsere Studie deckt drei Überraschungen auf: (1) Visuelle Qualität allein garantiert keinen Aufgaben-Erfolg, Kontrollierbarkeit ist entscheidender; (2) Skalierung nach dem Training mit Aktions-Beobachtungs-Daten ist effektiver als das Aufrüsten der vortrainierten Video-Generatoren; und (3) Die Zuweisung von mehr Inferenzzeit-Ressourcen ermöglicht es WMs, die geschlossene Schleifenleistung erheblich zu verbessern.
Jüngste Fortschritte in der Text-zu-Bild (T2I)-Generierung unterstreichen die Bedeutung zuverlässiger Benchmarks, um zu bewerten, wie genau generierte Bilder die Semantik ihrer textuellen Eingabeaufforderungen widerspiegeln. Allerdings (1) mangelt es bestehenden Benchmarks an der Vielfalt der Eingabeaufforderungsszenarien und mehrsprachiger Unterstützung, beides wesentlich für die praktische Anwendbarkeit; (2) bieten sie nur grobe Bewertungen über primäre Dimensionen, decken eine begrenzte Bandbreite von Unterdimensionen ab und sind unzureichend in der feingranularen Bewertung von Unterdimensionen. Um diese Einschränkungen zu überwinden, führen wir UniGenBench++ ein, einen einheitlichen semantischen Bewertungsbenchmark für die T2I-Generierung. Konkret umfasst er 600 hierarchisch organisierte Eingabeaufforderungen, um sowohl Abdeckung als auch Effizienz zu gewährleisten: (1) erstreckt sich über diverse reale Szenarien, d.h. 5 Hauptthemen und 20 Unterthemen; (2) untersucht umfassend die semantische Konsistenz von T2I-Modellen über 10 primäre und 27 untergeordnete Bewertungskriterien, wobei jede Eingabeaufforderung mehrere Testpunkte bewertet. Um die Robustheit der Modelle gegenüber Variationen in Sprache und Länge der Eingabeaufforderung rigoros zu bewerten, bieten wir jede Eingabeaufforderung in kurzer und langer Form sowohl auf Englisch als auch auf Chinesisch an. Unter Nutzung des allgemeinen Weltwissens und der feingranularen Bildverständnisfähigkeiten eines geschlossenen Multi-modalen Großen Sprachmodells (MLLM), d.h. Gemini-2.5-Pro, wird eine effektive Pipeline für die zuverlässige Benchmark-Konstruktion und die effiziente Modellbewertung entwickelt. Darüber hinaus trainieren wir ein robustes Bewertungsmodell, das die Offline-Bewertung von T2I-Modellausgaben ermöglicht, um die Nutzung durch die Community weiter zu erleichtern. Durch umfassende Benchmarking-Studien sowohl von Open-Source- als auch von Closed-Source-T2I-Modellen decken wir systematisch deren Stärken und Schwächen in verschiedenen Aspekten auf.
Wir präsentieren Ring-1T, das erste Open-Source-Denkmodell auf dem neuesten Stand der Technik mit einem Billionen-Parameter-Maßstab. Es verfügt über insgesamt 1 Billion Parameter und aktiviert etwa 50 Milliarden pro Token. Das Training solcher Modelle im Billionen-Parameter-Maßstab stellt bisher ungekannte Herausforderungen dar, darunter Trainings-Inferenz-Fehlausrichtung, Ineffizienzen in der Rollout-Verarbeitung und Engpässe im RL-System. Um diese zu bewältigen, führen wir drei miteinander verbundene Innovationen ein: (1) IcePop stabilisiert das RL-Training durch Token-Level-Diskrepanz-Maskierung und -Clipping und behebt so Instabilitäten durch Trainings-Inferenz-Unterschiede; (2) C3PO++ verbessert die Ressourcennutzung für lange Rollouts unter einem Token-Budget durch dynamische Partitionierung und erreicht dadurch eine hohe Zeiteffizienz; und (3) ASystem, ein hochleistungsfähiges RL-Framework, das entwickelt wurde, um die systemischen Engpässe zu überwinden, die das Training von Billionen-Parameter-Modellen behindern. Ring-1T erzielt bahnbrechende Ergebnisse in wichtigen Benchmarks: 93,4 auf AIME-2025, 86,72 auf HMMT-2025, 2088 auf CodeForces und 55,94 auf ARC-AGI-v1. Besonders hervorzuheben ist das Silbermedaillen-Niveau auf der IMO-2025, das seine außergewöhnlichen Fähigkeiten zur logischen Schlussfolgerung unterstreicht. Durch die Veröffentlichung des vollständigen 1T-Parameter-MoE-Modells für die Community ermöglichen wir der Forschung direkten Zugang zu modernsten Denkfähigkeiten. Dieser Beitrag markiert einen bedeutenden Meilenstein in der Demokratisierung groß angelegter Denkintelligenz und setzt einen neuen Maßstab für die Leistung von Open-Source-Modellen.
Obwohl große Sprachmodelle (LLMs) ein erhebliches Potenzial zur Weiterentwicklung der chemischen Entdeckung haben, mangelt es aktuellen LLMs an grundlegendem chemischen Wissen, sie erzeugen unzuverlässige Denkpfade und zeigen suboptimale Leistungen bei verschiedenen chemischen Aufgaben. Um diese Herausforderungen zu bewältigen, schlagen wir Chem-R vor, ein generalisierbares Chemical Reasoning-Modell, das darauf abzielt, die deliberativen Prozesse von Chemikern nachzuahmen. Chem-R wird durch ein dreiphasiges Framework trainiert, das schrittweise fortgeschrittene Denkfähigkeiten aufbaut, einschließlich: 1) Chemical Foundation Training, das grundlegendes chemisches Wissen etabliert. 2) Chemical Reasoning Protocol Distillation, das strukturierte, expertenähnliche Denkspuren einbezieht, um systematisches und zuverlässiges Problemlösen zu leiten. 3) Multi-task Group Relative Policy Optimization, die das Modell für eine ausgewogene Leistung über verschiedene molekulare und reaktionsbezogene Aufgaben optimiert. Diese strukturierte Pipeline ermöglicht es Chem-R, Spitzenleistungen auf umfassenden Benchmarks zu erzielen und führende große Sprachmodelle, einschließlich Gemini-2.5-Pro und DeepSeek-R1, um bis zu 46 % bei molekularen Aufgaben und 66 % bei Reaktionsaufgaben zu übertreffen. Gleichzeitig übertrifft Chem-R auch die bestehenden chemischen Grundlagenmodelle konsequent sowohl bei molekularen als auch bei reaktionsbezogenen Aufgaben. Diese Ergebnisse unterstreichen die robuste Generalisierungsfähigkeit, Interpretierbarkeit und das Potenzial von Chem-R als Grundlage für die nächste Generation der KI-gestützten chemischen Entdeckung.
Die Erzeugung langer Videos mit Diffusion Transformers (DiTs) wird durch die quadratische Skalierung der vollen Aufmerksamkeit mit der Sequenzlänge eingeschränkt. Da die Aufmerksamkeit stark redundant ist, werden die Ausgaben von einer kleinen Teilmenge von Query-Key-Paaren dominiert. Bestehende spärliche Methoden stützen sich auf blockweise grobe Schätzungen, deren Genauigkeit-Effizienz-Kompromisse durch die Blockgröße begrenzt sind. Dieses Papier stellt Mixture-of-Groups Attention (MoGA) vor, eine effiziente spärliche Aufmerksamkeit, die einen leichtgewichtigen, lernbaren Token-Router verwendet, um Token präzise ohne blockweise Schätzung abzugleichen. Durch semantisch bewusstes Routing ermöglicht MoGA effektive Langstreckeninteraktionen. Als kernelfreie Methode integriert sich MoGA nahtlos in moderne Aufmerksamkeitsstapel, einschließlich FlashAttention und Sequenzparallelismus. Aufbauend auf MoGA entwickeln wir ein effizientes Modell zur Erzeugung langer Videos, das end-to-end Minuten lange, mehrschüssige 480p-Videos mit 24 Bildern pro Sekunde erzeugt, mit einer Kontextlänge von etwa 580k. Umfassende Experimente zu verschiedenen Videoerzeugungsaufgaben validieren die Effektivität unseres Ansatzes.
Während Multimodale Große Sprachmodelle (MLLMs) in der ganzheitlichen Wahrnehmung hervorragend sind, haben sie Schwierigkeiten, die komplexe Welt mit dichten Szenen zu erfassen, was eine feinkörnige Analyse von komplizierten Details und Objektbeziehungen erfordert. Regionenbezogene MLLMs waren ein vielversprechender Schritt. Bisherige Ansätze sind jedoch in der Regel darauf optimiert, gegebene Regionen isoliert zu verstehen, wodurch entscheidende globale Kontexte vernachlässigt werden. Um dies zu adressieren, führen wir Grasp Any Region (GAR) für ein umfassendes, regionenbezogenes visuelles Verständnis ein. Durch eine effektive RoI-ausgerichtete Feature-Replay-Technik unterstützt GAR (1) eine präzise Wahrnehmung durch die Nutzung notwendiger globaler Kontexte und (2) die Modellierung von Interaktionen zwischen mehreren Prompts. Zusammen erreicht es dann natürlich (3) fortgeschrittenes kompositionelles Denken, um spezifische freiformulierte Fragen zu jeder Region zu beantworten, wodurch das Paradigma von der passiven Beschreibung zum aktiven Dialog verschoben wird. Darüber hinaus haben wir GAR-Bench entwickelt, das nicht nur eine genauere Bewertung des Einzelregionen-Verständnisses bietet, sondern noch wichtiger, Interaktionen und komplexes Denken über mehrere Regionen hinweg misst. Umfangreiche Experimente haben gezeigt, dass GAR-1B nicht nur die state-of-the-art Beschreibungskapazitäten beibehält, z.B. DAM-3B auf DLC-Bench um +4.5 übertrifft, sondern auch bei der Modellierung von Beziehungen zwischen mehreren Prompts mit fortgeschrittenen Verständnisfähigkeiten hervorragt und sogar InternVL3-78B auf GAR-Bench-VQA übertrifft. Noch wichtiger ist, dass unser Zero-Shot GAR-8B sogar das domänenspezifische VideoRefer-7B auf VideoRefer-BenchQ übertrifft, was auf seine starken Fähigkeiten hinweist, die leicht auf Videos übertragen werden können.
Wir präsentieren DeepSeek-OCR als eine erste Untersuchung zur Machbarkeit der Kompression langer Kontexte durch optisches 2D-Mapping. DeepSeek-OCR besteht aus zwei Komponenten: DeepEncoder und DeepSeek3B-MoE-A570M als Decoder. Insbesondere dient DeepEncoder als Kernmaschine, die darauf ausgelegt ist, niedrige Aktivierungen bei hochauflösenden Eingaben beizubehalten, während hohe Kompressionsraten erreicht werden, um eine optimale und handhabbare Anzahl von Vision-Tokens zu gewährleisten. Experimente zeigen, dass, wenn die Anzahl der Text-Tokens innerhalb des Zehnfachen der Vision-Tokens liegt (d. h. eine Kompressionsrate < 10x), das Modell eine Decodierungsgenauigkeit (OCR) von 97 % erreichen kann. Selbst bei einer Kompressionsrate von 20x bleibt die OCR-Genauigkeit bei etwa 60 %. Dies zeigt beträchtliches Potenzial für Forschungsbereiche wie die Kompression historischer Langkontexte und Vergessensmechanismen in LLMs. Darüber hinaus demonstriert DeepSeek-OCR auch einen hohen praktischen Wert. Auf OmniDocBench übertrifft es GOT-OCR2.0 (256 Tokens/Seite) mit nur 100 Vision-Tokens und übertrifft MinerU2.0 (durchschnittlich 6000+ Tokens pro Seite), während weniger als 800 Vision-Tokens verwendet werden. In der Produktion kann DeepSeek-OCR Trainingsdaten für LLMs/VLMs in einem Umfang von 200.000+ Seiten pro Tag (eine einzelne A100-40G) generieren. Codes und Modellgewichte sind öffentlich zugänglich unter http://github.com/deepseek-ai/DeepSeek-OCR.
Obwohl Multimodale Große Sprachmodelle (MLLMs) Kompetenz in der Videobeschriftung gezeigt haben, erfordern praktische Anwendungen Beschriftungen, die spezifischen Benutzeranweisungen folgen, anstatt umfassende, unbegrenzte Beschreibungen zu generieren. Aktuelle Benchmarks bewerten jedoch hauptsächlich die deskriptive Vollständigkeit, während die Fähigkeit zur Befolgung von Anweisungen weitgehend vernachlässigt wird. Um diese Lücke zu schließen, stellen wir IF-VidCap vor, einen neuen Benchmark zur Bewertung kontrollierbarer Videobeschriftung, der 1.400 hochwertige Beispiele enthält. Im Gegensatz zu bestehenden Benchmarks für Videobeschriftung oder allgemeine Anweisungsbefolgung integriert IF-VidCap ein systematisches Framework, das Beschriftungen in zwei Dimensionen bewertet: Formatkorrektheit und Inhaltskorrektheit. Unsere umfassende Bewertung von über 20 prominenten Modellen zeigt ein differenziertes Bild: Trotz der anhaltenden Dominanz proprietärer Modelle schließt sich die Leistungslücke, wobei erstklassige Open-Source-Lösungen nun nahezu gleichauf liegen. Darüber hinaus stellen wir fest, dass Modelle, die für dichte Beschriftungen spezialisiert sind, bei komplexen Anweisungen schlechter abschneiden als allgemeine MLLMs, was darauf hindeutet, dass zukünftige Arbeiten sowohl die deskriptive Reichhaltigkeit als auch die Treue zur Anweisungsbefolgung gleichzeitig vorantreiben sollten.
Während Diffusionsmodelle eine erstklassige Generierungsqualität erreichen, leiden sie immer noch unter rechenintensivem Sampling. Neuere Arbeiten adressieren dieses Problem mit gradientenbasierten Optimierungsmethoden, die einen ODE-Diffusionslöser mit wenigen Schritten aus dem vollständigen Sampling-Prozess destillieren und so die Anzahl der Funktionsauswertungen von Dutzenden auf nur wenige reduzieren. Diese Ansätze verlassen sich jedoch oft auf komplexe Trainingstechniken und konzentrieren sich nicht explizit auf die Bewahrung feinster Details. In dieser Arbeit führen wir den Generalisierten Löser ein: eine einfache Parametrisierung des ODE-Samplers, die keine zusätzlichen Trainingstricks erfordert und die Qualität gegenüber bestehenden Ansätzen verbessert. Wir kombinieren weiterhin den ursprünglichen Destillationsverlust mit adversariellem Training, was Artefakte reduziert und die Detailtreue erhöht. Die resultierende Methode nennen wir den Generalisierten Adversariellen Löser und demonstrieren seine überlegene Leistung im Vergleich zu bestehenden Löser-Trainingsmethoden unter ähnlichen Ressourcenbeschränkungen. Der Code ist verfügbar unter https://github.com/3145tttt/GAS.
Die treue Personalisierung großer Sprachmodelle (LLMs), um sie mit den individuellen Benutzerpräferenzen in Einklang zu bringen, ist eine entscheidende, aber herausfordernde Aufgabe. Während das überwachte Feinabstimmen (SFT) schnell ein Leistungsplateau erreicht, kämpft auch das standardmäßige Reinforcement Learning aus menschlichem Feedback (RLHF) mit den Nuancen der Personalisierung. Skalarbasierte Belohnungsmodelle sind anfällig für Belohnungshacking, was zu wortreichen und oberflächlich personalisierten Antworten führt. Um diese Einschränkungen zu überwinden, schlagen wir Critique-Post-Edit vor, ein robustes Reinforcement-Learning-Framework, das eine treuere und kontrollierbarere Personalisierung ermöglicht. Unser Framework integriert zwei Schlüsselkomponenten: (1) ein personalisiertes generatives Belohnungsmodell (GRM), das mehrdimensionale Bewertungen und textuelle Kritiken liefert, um Belohnungshacking zu widerstehen, und (2) einen Critique-Post-Edit-Mechanismus, bei dem das Policy-Modell seine eigenen Ausgaben basierend auf diesen Kritiken überarbeitet, um gezielteres und effizienteres Lernen zu ermöglichen. Unter einer strengen längenkontrollierten Bewertung übertrifft unsere Methode den Standard-PPO deutlich bei Personalisierungs-Benchmarks. Das personalisierte Qwen2.5-7B-Modell erreicht eine durchschnittliche Verbesserung der Gewinnrate von 11 %, und das personalisierte Qwen2.5-14B-Modell übertrifft die Leistung von GPT-4.1. Diese Ergebnisse zeigen einen praktischen Weg zu treuer, effizienter und kontrollierbarer Personalisierung auf.
Obwohl jüngste Fortschritte in Vision-Sprach-Modellen (VLMs) bemerkenswerte Fortschritte in einer Vielzahl von multimodalen Aufgaben erzielt haben, bleibt das Verständnis von 3D-Raumbeziehungen aus begrenzten Ansichten eine erhebliche Herausforderung. Bisherige Methoden zur Schlussfolgerung stützen sich typischerweise auf reinen Text (z. B. topologische kognitive Karten) oder auf 2D-visuelle Hinweise. Ihre begrenzte Darstellungskapazität beeinträchtigt jedoch die Leistung bei spezifischen Aufgaben, die 3D-räumliche Vorstellungskraft erfordern. Um diese Einschränkung zu überwinden, schlagen wir 3DThinker vor, ein Framework, das effektiv die reichhaltigen geometrischen Informationen, die in Bildern enthalten sind, während des Schlussfolgerns nutzt, ähnlich wie es Menschen tun. Unser Framework ist das erste, das 3D-Mentaling während des Schlussfolgerns ohne jegliche 3D-Vorinformationen ermöglicht und sich nicht auf explizit beschriftete 3D-Daten für das Training verlässt. Konkret besteht unser Training aus zwei Phasen. Zuerst führen wir ein überwachtes Training durch, um das 3D-Latent, das vom VLM während des Schlussfolgerns erzeugt wird, mit dem eines 3D-Foundation-Modells (z. B. VGGT) abzugleichen. Anschließend optimieren wir den gesamten Schlussfolgerungsprozess ausschließlich basierend auf Ergebnissignalen, wodurch das zugrunde liegende 3D-Mentaling verfeinert wird. Umfangreiche Experimente über mehrere Benchmarks hinweg zeigen, dass 3DThinker durchweg starke Baselines übertrifft und eine neue Perspektive zur Vereinheitlichung von 3D-Darstellungen in multimodales Schlussfolgern bietet. Unser Code wird unter https://github.com/zhangquanchen/3DThinker verfügbar sein.
Mehrsprachiges Watermarking zielt darauf ab, die Ausgaben großer Sprachmodelle (LLMs) sprachübergreifend nachverfolgbar zu machen, doch aktuelle Methoden bleiben hinter diesem Ziel zurück. Trotz Behauptungen zur sprachübergreifenden Robustheit werden sie nur für Hochressourcen-Sprachen evaluiert. Wir zeigen, dass bestehende mehrsprachige Watermarking-Methoden nicht wirklich mehrsprachig sind: Sie bleiben bei Übersetzungsangriffen in Mittel- und Niedrigressourcen-Sprachen nicht robust. Dieses Versagen führen wir auf semantisches Clustering zurück, das scheitert, wenn der Tokenizer-Vokabular zu wenige Vollwort-Tokens für eine bestimmte Sprache enthält. Um dies zu beheben, führen wir STEAM ein, eine auf Rückübersetzung basierende Detektionsmethode, die die durch Übersetzung verlorene Watermark-Stärke wiederherstellt. STEAM ist mit jeder Watermarking-Methode kompatibel, robust gegenüber verschiedenen Tokenizern und Sprachen, nicht-invasiv und leicht auf neue Sprachen erweiterbar. Mit durchschnittlichen Verbesserungen von +0,19 AUC und +40 %p TPR@1 % in 17 Sprachen bietet STEAM einen einfachen und robusten Weg zu fairerem Watermarking über diverse Sprachen hinweg.
Die jüngste Entwicklung von Multimodalen Großen Sprachmodellen (MLLMs) hat die Fähigkeit der KI, visuelle Modalitäten zu verstehen, erheblich vorangetrieben. Bestehende Evaluierungsbenchmarks beschränken sich jedoch auf Einzelgespräch-Fragen, wodurch die Komplexität von Mehrfachgesprächen in realen Szenarien übersehen wird. Um diese Lücke zu schließen, führen wir MT-Video-Bench ein, einen ganzheitlichen Benchmark für das Verständnis von Videos, der MLLMs in Mehrfachgesprächen bewertet. Insbesondere bewertet unser MT-Video-Bench hauptsächlich sechs Kernkompetenzen, die sich auf Wahrnehmungsfähigkeit und Interaktivität konzentrieren und 987 sorgfältig kuratierte Mehrfachgespräche aus verschiedenen Domänen umfassen. Diese Fähigkeiten sind streng an reale Anwendungen wie interaktive Sportanalysen und mehrfache videobasierte intelligente Tutoring-Systeme angepasst. Mit MT-Video-Bench evaluieren wir umfassend verschiedene state-of-the-art Open-Source- und Closed-Source-MLLMs und decken deren erhebliche Leistungsunterschiede und Grenzen bei der Handhabung von Mehrfachgesprächen in Videos auf. Der Benchmark wird öffentlich zugänglich sein, um zukünftige Forschung zu fördern.
Jüngste Fortschritte in der Videogenerierung haben es ermöglicht, visuell ansprechende Videos zu erzeugen, mit weitreichenden Anwendungen in der Inhaltserstellung, Unterhaltung und Virtual Reality. Die meisten bestehenden, auf Diffusions-Transformatoren basierenden Videogenerierungsmodelle sind jedoch aufgrund der quadratischen Rechenkomplexität des Aufmerksamkeitsmechanismus in Bezug auf die Ausgabebreite und -höhe auf niedrigauflösende Ausgaben (<=720P) beschränkt. Dieser Rechenengpass macht die native Hochauflösungs-Videogenerierung (1080P/2K/4K) sowohl für das Training als auch für die Inferenz unpraktikabel. Um diese Herausforderung zu bewältigen, stellen wir UltraGen vor, ein neuartiges Videogenerierungsframework, das i) effiziente und ii) end-to-end native Hochauflösungs-Videosynthese ermöglicht. Insbesondere zeichnet sich UltraGen durch eine hierarchische Dual-Branch-Aufmerksamkeitsarchitektur basierend auf der global-lokalen Aufmerksamkeitszerlegung aus, die die volle Aufmerksamkeit in einen lokalen Aufmerksamkeitszweig für hochauflösende regionale Inhalte und einen globalen Aufmerksamkeitszweig für die allgemeine semantische Konsistenz entkoppelt. Wir schlagen weiterhin eine räumlich komprimierte globale Modellierungsstrategie vor, um globale Abhängigkeiten effizient zu erlernen, sowie einen hierarchischen Cross-Window-Lokal-Aufmerksamkeitsmechanismus, um die Rechenkosten zu reduzieren und gleichzeitig den Informationsfluss über verschiedene lokale Fenster zu verbessern. Umfangreiche Experimente zeigen, dass UltraGen vortrainierte niedrigauflösende Videomodelle erstmals effektiv auf 1080P und sogar 4K-Auflösung skalieren kann und dabei sowohl in qualitativen als auch quantitativen Bewertungen bestehende state-of-the-art Methoden und zweistufige Super-Resolution-Pipelines übertrifft.
Die Datenqualität spielt eine entscheidende Rolle bei der Verbesserung des überwachten Feinabstimmens (Supervised Fine-Tuning, SFT) für große Sprachmodelle (Large Language Models, LLMs), und die Token-ebene Datenauswahl hat sich aufgrund ihrer feingranularen Natur als vielversprechende Richtung erwiesen. Trotz ihrer starken empirischen Leistung teilen bestehende Token-ebene Auswahlmethoden zwei wesentliche Einschränkungen: (1) sie erfordern das Training oder den Zugriff auf ein zusätzliches Referenzmodell und (2) sie stützen sich ausschließlich auf Verlustinformationen für die Token-Auswahl, wodurch semantisch wichtige Token, die nicht durch verlustbasierte Metriken bevorzugt werden, nicht gut erhalten bleiben. Um diese Herausforderungen zu bewältigen, schlagen wir ssToken vor, einen selbstmodulierten und semantikbewussten Token-Auswahlansatz. ssToken nutzt leicht zugängliche historische Modelle, um den Token-ebenen Verlustunterschied zum aktuellen Modell zu berechnen, der als selbstmoduliertes Signal dient und es dem Modell ermöglicht, Token entlang seines Optimierungspfads adaptiv auszuwählen, anstatt sich auf den überschüssigen Verlust eines offline trainierten Referenzmodells zu verlassen, wie in früheren Arbeiten. Darüber hinaus führen wir ein semantikbewusstes, auf Aufmerksamkeit basierendes Token-Bedeutungsschätzungsmetrik ein, das orthogonal zur verlustbasierten Auswahl steht und zusätzliche semantische Informationen für eine effektivere Filterung liefert. Umfangreiche Experimente über verschiedene Modellfamilien und -skalen zeigen, dass sowohl die selbstmodulierte Auswahl als auch die semantikbewusste Auswahl allein das Feinabstimmen mit vollständigen Daten übertreffen, während ihre Integration – ssToken – synergetische Gewinne erzielt und frühere Token-ebene Auswahlmethoden weiter übertrifft, wodurch Leistungsverbesserungen bei gleichzeitiger Aufrechterhaltung der Trainingseffizienz erreicht werden.
Der ursprüngliche CLIP-Textencoder ist durch eine maximale Eingabelänge von 77 Tokens begrenzt, was seine Fähigkeit zur effektiven Verarbeitung langer Texte und zur feinkörnigen semantischen Analyse beeinträchtigt. Darüber hinaus unterstützt der CLIP-Textencoder keine mehrsprachigen Eingaben. Diese Einschränkungen schränken seine Anwendbarkeit für ein breiteres Aufgabenspektrum erheblich ein. In jüngsten Studien wurde versucht, den CLIP-Textencoder durch einen LLM-basierten Embedder zu ersetzen, um dessen Fähigkeiten in der Verarbeitung langer Texte, im mehrsprachigen Verständnis und in der feinkörnigen semantischen Analyse zu verbessern. Da jedoch die Repräsentationsräume von LLMs und der visuell-sprachliche Raum von CLIP unabhängig voneinander ohne Ausrichtungsprioritäten vortrainiert wurden, kann eine direkte Ausrichtung mittels kontrastiven Lernens die intrinsische visuell-sprachliche Ausrichtung im CLIP-Bildencoder stören, was zu einer Unterauslastung des während des Vortrainings erworbenen Wissens führt. Um diese Herausforderung zu bewältigen, schlagen wir ProCLIP vor, ein auf Curriculum-Learning basierendes progressives visuell-sprachliches Ausrichtungsframework, um den CLIP-Bildencoder effektiv mit einem LLM-basierten Embedder auszurichten. Konkret destilliert ProCLIP zunächst Wissen aus dem CLIP-Textencoder in den LLM-basierten Embedder, um das umfangreiche vortrainierte Wissen von CLIP zu nutzen und gleichzeitig eine initiale Ausrichtung zwischen dem LLM-Embedder und dem CLIP-Bildencoder herzustellen. Anschließend richtet ProCLIP den CLIP-Bildencoder weiter mit dem LLM-basierten Embedder durch kontrastives Fine-Tuning von Bild-Text-Paaren aus, wobei eine Selbst-Distillationsregularisierung eingesetzt wird, um Überanpassung zu vermeiden. Um eine effektivere Ausrichtung zu erreichen, werden während der Repräsentationsvererbung und des kontrastiven Fine-Tunings ein Instanz-Semantik-Ausrichtungsverlust und ein Embedding-Struktur-Ausrichtungsverlust verwendet. Der Code ist verfügbar unter https://github.com/VisionXLab/ProCLIP.
In den letzten Jahren haben großskalige generative Modelle für visuelle Inhalte (z. B. Bilder, Videos und 3D-Objekte/Szenen) bemerkenswerte Fortschritte erzielt. Die Ausbildung großskaliger Videogenerationsmodelle bleibt jedoch aufgrund der cross-modalen Text-Video-Ausrichtung, der langen Sequenzen und der komplexen raumzeitlichen Abhängigkeiten besonders herausfordernd und ressourcenintensiv. Um diese Herausforderungen zu bewältigen, präsentieren wir ein Trainingsframework, das vier Säulen optimiert: (i) Datenverarbeitung, (ii) Modellarchitektur, (iii) Trainingsstrategie und (iv) Infrastruktur für großskalige Videogenerationsmodelle. Diese Optimierungen führten zu erheblichen Effizienzsteigerungen und Leistungsverbesserungen in allen Phasen der Datenvorverarbeitung, Videokompression, Parameterskalierung, curriculumbasierten Vorausbildung und ausrichtungsfokussierten Nachausbildung. Unser resultierendes Modell, MUG-V 10B, erreicht das Niveau aktueller state-of-the-art Videogeneratoren insgesamt und übertrifft bei e-commerce-orientierten Videogenerationsaufgaben führende Open-Source-Baselines in menschlichen Bewertungen. Noch wichtiger ist, dass wir den gesamten Stack, einschließlich Modellgewichten, Megatron-Core-basiertem großskaligem Trainingscode und Inferenzpipelines für Videogenerierung und -verbesserung, als Open Source veröffentlichen. Unseres Wissens ist dies die erste öffentliche Veröffentlichung von großskaligem Videogenerations-Trainingscode, der Megatron-Core nutzt, um hohe Trainingseffizienz und nahezu lineare Multi-Node-Skalierung zu erreichen. Details sind verfügbar unter https://github.com/Shopee-MUG/MUG-V{unsere Webseite}.
Das Verständnis dynamischer räumlicher Beziehungen ist entscheidend, da sowohl Beobachter als auch Objekte sich oft gleichzeitig bewegen. Obwohl Vision-Language-Modelle (VLMs) und Modelle mit visueller Expertise bei 2D-Aufgaben und statischen Szenarien hervorragende Leistungen erbringen, bleibt ihre Fähigkeit, dynamische 3D-Szenarien vollständig zu verstehen, begrenzt. Wir führen das Konzept der Dynamischen Räumlichen Intelligenz ein und stellen DSI-Bench vor, einen Benchmark mit fast 1.000 dynamischen Videos und über 1.700 manuell annotierten Fragen, die neun entkoppelte Bewegungsmuster von Beobachtern und Objekten abdecken. Räumlich und zeitlich symmetrische Designs reduzieren Verzerrungen und ermöglichen eine systematische Bewertung der Fähigkeit von Modellen, Eigenbewegung und Objektbewegung zu analysieren. Unsere Auswertung von 14 VLMs und Expertenmodellen zeigt wesentliche Einschränkungen auf: Modelle verwechseln häufig die Bewegung des Beobachters mit der des Objekts, weisen semantische Verzerrungen auf und scheitern daran, relative Beziehungen in dynamischen Szenarien präzise abzuleiten. Unser DSI-Bench liefert wertvolle Erkenntnisse und Einblicke für die zukünftige Entwicklung allgemeiner und spezialisierter Modelle mit dynamischer räumlicher Intelligenz.
Während Large Language Model (LLM)-Agenten vielversprechend im automatisierten Handel sind, stoßen sie dennoch auf kritische Einschränkungen. Prominente Multi-Agenten-Frameworks leiden häufig unter Ineffizienz, erzeugen inkonsistente Signale und mangeln der end-to-end-Optimierung, die erforderlich ist, um eine kohärente Strategie aus Marktfeedback zu erlernen. Um dies zu adressieren, stellen wir AlphaQuanter vor, ein Single-Agenten-Framework, das Reinforcement Learning (RL) nutzt, um eine dynamische Policy über einen transparenten, tool-augmentierten Entscheidungsprozess zu erlernen. Dies befähigt einen einzelnen Agenten, Werkzeuge autonom zu orchestrieren und proaktiv Informationen bei Bedarf zu beschaffen, wodurch ein transparenter und nachvollziehbarer Denkprozess etabliert wird. Umfangreiche Experimente zeigen, dass AlphaQuanter state-of-the-art Leistung bei wichtigen finanziellen Kennzahlen erreicht. Darüber hinaus offenbart sein interpretierbarer Denkprozess ausgefeilte Strategien, die neue und wertvolle Einblicke für menschliche Händler bieten. Unser Code für Datenerfassung und Agententraining ist öffentlich verfügbar unter: https://github.com/AlphaQuanter/AlphaQuanter.
In dieser Arbeit zeigen wir, dass es möglich ist, signifikante Mengen an Alignment-Trainingsdaten aus einem nachtrainierten Modell zu extrahieren – nützlich, um das Modell dahingehend zu steuern, bestimmte Fähigkeiten wie Langzeitkontext-Verständnis, Sicherheit, Befolgung von Anweisungen und mathematische Fähigkeiten zu verbessern. Während sich der Großteil der verwandten Arbeiten zur Memorisierung darauf konzentriert hat, den Erfolg der Extraktion von Trainingsdaten durch String-Matching zu messen, argumentieren wir, dass Embedding-Modelle besser für unsere spezifischen Ziele geeignet sind. Distanzen, die durch ein hochwertiges Embedding-Modell gemessen werden, können semantische Ähnlichkeiten zwischen Zeichenketten identifizieren, die ein anderes Metrik wie die Editierdistanz nur schwer erfassen kann. Tatsächlich hätte in unserer Untersuchung das approximative String-Matching die Menge der extrahierbaren Daten (nach einer konservativen Schätzung um das Zehnfache) stark unterschätzt, und zwar aufgrund trivialer Artefakte, die die Metrik verfälschen. Interessanterweise stellen wir fest, dass Modelle bereitwillig Trainingsdaten wiedergeben, die in Nachtrainingsphasen wie SFT oder RL verwendet wurden. Wir zeigen, dass diese Daten dann verwendet werden können, um ein Basismodell zu trainieren und dabei einen bedeutenden Teil der ursprünglichen Leistung wiederherzustellen. Wir glauben, dass unsere Arbeit ein möglicherweise übersehenes Risiko bei der Extraktion von Alignment-Daten aufdeckt. Schließlich eröffnet unsere Arbeit eine interessante Diskussion über die nachgelagerten Effekte von Distillationspraktiken: Da Modelle offenbar Aspekte ihres Trainingsdatensatzes wiedergeben, kann Distillation daher als indirektes Training auf dem ursprünglichen Datensatz des Modells betrachtet werden.
Die Videoreasoning mit Large Multimodal Models (LMMs) basiert auf kostspieligem Reinforcement Learning (RL) und ausführlichen Chain-of-Thought-Prozessen, was zu erheblichem Rechenaufwand sowohl während des Trainings als auch der Inferenz führt. Darüber hinaus sind die Mechanismen, die den Denkprozess in diesen Reasoning-Modellen steuern, sehr begrenzt. In diesem Artikel entdecken wir mithilfe der Entropie der Modellausgabe als Signal, dass hochqualitative Modelle eine Reihe von Mikro-Explorationen und Mikro-Exploitationen durchlaufen, die den Reasoning-Prozess verankern (d.h. übermäßige Zufälligkeit vermeiden, während das Modell eine Antwort erkundet oder durchdenkt). Wir beobachten weiterhin, dass nach Abschluss dieses „Denkprozesses“ präzisere Modelle eine bessere Konvergenz zeigen, indem sie die Entropie signifikant durch eine finale Exploitationsphase reduzieren (d.h. eine sicherere Konvergenz hin zu einer Lösungstrajektorie). Diese neuartigen, theoretisch fundierten Erkenntnisse nutzen wir, um das Verhalten des Modells direkt während der Inferenz zu optimieren, ohne RL oder überwachtes Fine-Tuning einzusetzen. Konkret passt unser vorgeschlagener Ansatz, genannt V-Reason (Video-Reason), den Wertcache des LMM während der Inferenz durch einige Optimierungsschritte eines kleinen, trainierbaren Controllers an, der ein entropiebasiertes Ziel verfolgt – d.h. es ist keine Überwachung durch Datensätze oder RL erforderlich. Diese Anpassung verbessert das Mikro-Explorations- und Exploitationsverhalten des Modells während der Inferenz. Unsere Experimente zeigen, dass unser vorgeschlagener Ansatz signifikante Verbesserungen gegenüber den Basis-Instruktionsmodellen über mehrere Videoreasoning-Datensätze hinweg erzielt und die Lücke zu RL-trainierten Modellen auf durchschnittlich 0,6 % Genauigkeit reduziert, ohne jegliches Training. Gleichzeitig bietet er erhebliche Effizienzvorteile: Die Ausgabetokens werden im Vergleich zum RL-Modell um 58,6 % reduziert.
Medizinische Diagnoseanwendungen erfordern Modelle, die multimodale medizinische Eingaben (Bilder, Patientenanamnesen, Laborergebnisse) verarbeiten und vielfältige Ausgaben erzeugen können, einschließlich textueller Berichte und visueller Inhalte (Annotationen, Segmentierungsmasken und Bilder). Trotz dieses Bedarfs unterbrechen bestehende medizinische KI-Systeme diesen einheitlichen Prozess: Modelle zur medizinischen Bildinterpretation verstehen Bilder, können aber keine visuellen Ausgaben erzeugen, während Modelle zur medizinischen Bildgenerierung Bilder synthetisieren, aber keine textuellen Erklärungen liefern können. Dies führt zu Lücken in der Datenrepräsentation, der Feature-Integration und den multimodalen Fähigkeiten auf Aufgabenebene. Daher schlagen wir ein mehrstufiges Framework vor, das sich von diagnostischen Arbeitsabläufen durch das Beobachtung-Wissen-Analyse (OKA)-Paradigma inspirieren lässt. Konkret konstruieren wir auf der Beobachtungsebene UniMed-5M, einen Datensatz mit über 5,6 Millionen Proben, der diverse unimodale Daten in multimodale Paare umformatiert, um grundlegende Beobachtungen zu ermöglichen. Auf der Wissenebene schlagen wir Progressives Curriculum Learning vor, das systematisch medizinisches multimodales Wissen einführt. Auf der Analyseebene stellen wir UniMedVL vor, das erste medizinische einheitliche multimodale Modell zur gleichzeitigen Analyse von Bildverständnis- und Generierungsaufgaben innerhalb einer einzigen Architektur. UniMedVL erzielt überragende Leistungen in fünf Benchmarks zur medizinischen Bildinterpretation und erreicht die Generierungsqualität spezialisierter Modelle über acht medizinische Bildgebungsmodalitäten hinweg. Entscheidend ist, dass unsere einheitliche Architektur bidirektionalen Wissensaustausch ermöglicht: Generierungsaufgaben verbessern visuelle Verständnis-Features, was zeigt, dass die Integration traditionell getrennter Fähigkeiten innerhalb eines einzigen medizinischen Frameworks Verbesserungen über diverse medizinische Bild-Sprach-Aufgaben hinweg freisetzt. Der Code ist verfügbar unter https://github.com/uni-medical/UniMedVL.
Wir stellen Mono4DGS-HDR vor, das erste System zur Rekonstruktion renderbarer 4D-High-Dynamic-Range (HDR)-Szenen aus unpositionierten monokularen Low-Dynamic-Range (LDR)-Videos, die mit wechselnden Belichtungen aufgenommen wurden. Um eine derart anspruchsvolle Aufgabe zu bewältigen, präsentieren wir ein einheitliches Framework mit einem zweistufigen Optimierungsansatz basierend auf Gaussian Splatting. Die erste Stufe erlernt eine HDR-Gauß-Darstellung des Videos im orthografischen Kamerakoordinatensystem, wodurch die Notwendigkeit von Kameraposen entfällt und eine robuste initiale HDR-Videorekonstruktion ermöglicht wird. Die zweite Stufe transformiert die Video-Gauß-Funktionen in den Weltraum und verfeinert gemeinsam die Welt-Gauß-Funktionen mit den Kameraposen. Darüber hinaus schlagen wir eine temporale Leuchtdichteregularisierungsstrategie vor, um die zeitliche Konsistenz des HDR-Erscheinungsbilds zu verbessern. Da unsere Aufgabe bisher nicht untersucht wurde, erstellen wir einen neuen Evaluierungsbenchmark unter Verwendung öffentlich zugänglicher Datensätze für die HDR-Videorekonstruktion. Umfangreiche Experimente zeigen, dass Mono4DGS-HDR alternative Lösungen, die aus state-of-the-art-Methoden adaptiert wurden, sowohl in der Renderqualität als auch in der Geschwindigkeit deutlich übertrifft.
Große Sprachmodelle (LLMs) sind leistungsstarke Schlussfolgerer in natürlicher Sprache, doch ihre Handlungen beschränken sich typischerweise auf die Ausgabe von Vokabular-Tokens. Folglich müssen Interaktionen mit externen Umgebungen – wie symbolische Operatoren oder Simulatoren – in vordefinierten Textformaten ausgedrückt, geparst und an externe Schnittstellen weitergeleitet werden. Dies überlastet die Sprache des Modells mit sowohl Schlussfolgerungs- als auch Steuerungsaufgaben und erfordert einen manuell erstellten Parser, der extern zum LLM liegt. Um dies zu beheben, entkoppeln wir Umgebungsinteraktionen von der Sprache, indem wir sie in einem erweiterten Aktionsraum (ExpA) internalisieren, der über das Vokabular hinausgeht. Das Modell beginnt seine Schlussfolgerungen in der standardmäßigen Sprachumgebung, kann jedoch jederzeit Routing-Aktionen auslösen und zu einer externen Umgebung wechseln. Von dort aus kann das Modell nur umgebungsspezifische Aktionen aufrufen, Rückmeldungen von der Umgebung erhalten und gegebenenfalls als Ergebnis zurück zur Sprache routen. Um die effektive Erkundung des erweiterten Aktionsraums und neuer Umgebungen zu fördern, führen wir ExpA Reinforcement Learning (EARL) mit kontrafaktischer Policy-Optimierung ein. Bei Aufgaben, die mehrstufige Interaktionen und bedingte Planung erfordern, übertrifft EARL starke Baselines mit vokabularbeschränkten Aktionen. Es zeigt robuste Leistungen beim rechnerbasierten Multi-Task-Lernen und erreicht im Problem des teilweise beobachteten Sortierens eine perfekte Sort-4-Genauigkeit, während es selbstständig einen effizienten Algorithmus entdeckt, der mit klassischen Entwürfen konkurrieren kann.
Code-Agents werden zunehmend darauf vertraut, Fehler auf Plattformen wie GitHub autonom zu beheben, doch ihre Sicherheitsbewertung konzentriert sich fast ausschließlich auf die funktionale Korrektheit. In diesem Artikel enthüllen wir eine neuartige Art von Bedrohung für Code-Agents in der Praxis: Funktional korrekte, aber dennoch anfällige (FCV) Patches, die alle Testfälle bestehen, aber anfälligen Code enthalten. Mit unserem vorgeschlagenen FCV-Angriff, der absichtlich von böswilligen Angreifern erstellt oder implizit von wohlmeinenden Entwicklern eingeführt werden kann, zeigen wir, dass state-of-the-art LLMs (z. B. ChatGPT und Claude) und Agenten-Scaffolds (z. B. SWE-Agent und OpenHands) alle anfällig für diese FCV-Bedrohung sind. Über 12 Agenten-Modell-Kombinationen auf SWE-Bench hinweg erfordert der Angriff lediglich einen Black-Box-Zugriff und eine einzige Abfrage an den Code-Agenten, um den Angriff durchzuführen. Beispielsweise erreicht der FCV-Angriff für CWE-538 (Schwachstelle durch Informationspreisgabe) eine Erfolgsrate von 40,7 % bei GPT-5 Mini + OpenHands. Unsere Ergebnisse offenbaren eine wichtige Sicherheitsbedrohung, die von den aktuellen Bewertungsparadigmen übersehen wird, und fordern die Entwicklung von sicherheitsbewussten Abwehrmechanismen für Code-Agents.
Große multimodale Modelle (LMMs) werden zunehmend in der wissenschaftlichen Forschung eingesetzt, doch es bleibt unklar, ob sie die multimodale Komplexität von Fachartikeln zuverlässig verstehen und darüber schlussfolgern können. Eine zentrale Herausforderung besteht darin, Inkonsistenzen zwischen Text, Abbildungen, Tabellen und Gleichungen zu erkennen und zu beheben – Probleme, die oft subtil, domänenspezifisch sind und letztlich Klarheit, Reproduzierbarkeit und Vertrauen untergraben. Bestehende Benchmarks übersehen dieses Problem, indem sie entweder einzelne Modalitäten isolieren oder sich auf synthetische Fehler stützen, die die reale Komplexität nicht erfassen. Wir stellen PRISMM-Bench (Peer-Review-sourced Inconsistency Set for Multimodal Models) vor, den ersten Benchmark, der auf echten, von Gutachtern beanstandeten Inkonsistenzen in wissenschaftlichen Artikeln basiert. Durch eine mehrstufige Pipeline aus Review-Mining, LLM-gestützter Filterung und menschlicher Überprüfung haben wir 262 Inkonsistenzen aus 242 Artikeln zusammengestellt. Auf dieser Grundlage entwerfen wir drei Aufgaben: Inkonsistenzidentifikation, -behebung und Paarzuordnung, die die Fähigkeit eines Modells bewerten, Inkonsistenzen über verschiedene Modalitäten hinweg zu erkennen, zu korrigieren und darüber zu schlussfolgern. Darüber hinaus führen wir strukturierte JSON-basierte Antwortdarstellungen ein, um das bekannte Problem von Auswahlverknüpfungen in Multiple-Choice-Evaluierungen zu adressieren, bei denen Modelle Antwortmuster ausnutzen, ohne die Frage wirklich zu verstehen. Diese Darstellungen minimieren linguistische Verzerrungen, indem sie die Abhängigkeit von oberflächlichen stilistischen Hinweisen reduzieren. Wir benchmarken 21 führende LMMs, darunter große Open-Weight-Modelle (GLM-4.5V 106B, InternVL3 78B) und proprietäre Modelle (Gemini 2.5 Pro, GPT-5 mit hoher Schlussfolgerungsfähigkeit). Die Ergebnisse zeigen eine auffallend niedrige Leistung (26,1–54,2 %), was die Herausforderung des multimodalen wissenschaftlichen Denkens unterstreicht und Fortschritte hin zu vertrauenswürdigen wissenschaftlichen Assistenten motiviert.
Die Grundlage reproduzierbarer Wissenschaft liegt in Protokollen, die präzise, logisch geordnet und ausführbar sind. Die autonome Generierung dieser Protokolle durch natürliche Sprachabfragen könnte die Effizienz des Reproduktionsprozesses erheblich steigern. Allerdings erzeugen führende große Sprachmodelle (LLMs) derzeit oft unvollständige oder inkonsistente Protokolle, was ihre Nützlichkeit einschränkt. Um diese Einschränkung zu überwinden, stellen wir zunächst SciRecipe vor, einen umfangreichen Datensatz mit über 12.000 strukturierten Protokollen, die 27 biologische Teilgebiete abdecken und sowohl Verständnis- als auch Problemlösungsaufgaben umfassen. Um die Protokollgenerierung weiter zu verbessern, schlagen wir das „Sketch-and-Fill“-Paradigma vor, das Analyse, Strukturierung und Ausdrucksweise trennt, um sicherzustellen, dass jeder Schritt explizit und überprüfbar ist. Ergänzend dazu bewertet der strukturierte, komponentenbasierte Belohnungsmechanismus die Granularität der Schritte, die Reihenfolge der Aktionen und die semantische Treue, wodurch die Modelloptimierung mit der experimentellen Zuverlässigkeit in Einklang gebracht wird. Aufbauend auf diesen Komponenten entwickeln wir Thoth, das durch einen gestuften „Knowledge-to-Action“-Prozess trainiert wird, der vom Wissenserwerb über operatives Denken bis hin zur robusten, ausführbaren Protokollgenerierung fortschreitet. In mehreren Benchmarks übertrifft Thoth durchweg sowohl proprietäre als auch Open-Source-LLMs und erzielt signifikante Verbesserungen in der Schrittausrichtung, der logischen Sequenzierung und der semantischen Genauigkeit. Unser Ansatz ebnet den Weg für zuverlässige wissenschaftliche Assistenten, die Wissen mit experimenteller Ausführung verbinden. Alle Daten, Codes und Modelle werden öffentlich zugänglich gemacht.
Die Bildqualität ist ein entscheidender Faktor für die Bereitstellung visuell ansprechender Inhalte auf Webplattformen. Allerdings leiden Bilder häufig unter Qualitätseinbußen aufgrund verlustbehafteter Operationen, die von Online-Social-Networks (OSNs) angewendet werden, was die Benutzererfahrung negativ beeinflusst. Bildrestaurierung ist der Prozess der Wiederherstellung eines sauberen, hochwertigen Bildes aus einem gegebenen degradierten Eingabebild. In letzter Zeit haben Multi-Task- (All-in-One-) Bildrestaurierungsmodelle aufgrund ihrer Fähigkeit, verschiedene Arten von Bilddegradationen gleichzeitig zu bewältigen, erhebliche Aufmerksamkeit erlangt. Diese Modelle weisen jedoch oft eine übermäßig hohe Anzahl trainierbarer Parameter auf, was sie rechenineffizient macht. In diesem Artikel schlagen wir eine Strategie zur Komprimierung von Multi-Task-Bildrestaurierungsmodellen vor. Unser Ziel ist es, hochgradig spärliche Teilnetzwerke innerhalb überparametrisierter tiefer Modelle zu entdecken, die die Leistung ihrer dichten Gegenstücke erreichen oder sogar übertreffen können. Das vorgeschlagene Modell, MIR-L, nutzt eine iterative Beschneidungsstrategie, die in mehreren Runden Gewichte mit geringer Magnitude entfernt, während die verbleibenden Gewichte auf ihre ursprüngliche Initialisierung zurückgesetzt werden. Dieser iterative Prozess ist entscheidend für die Optimierung des Multi-Task-Bildrestaurierungsmodells und deckt effektiv „Gewinnertickets“ auf, die bei hohen Sparsamkeitsniveaus die state-of-the-art-Leistung beibehalten oder übertreffen. Die experimentelle Auswertung auf Benchmark-Datensätzen für die Aufgaben der Entregnung, Entnebelung und Rauschunterdrückung zeigt, dass MIR-L nur 10 % der trainierbaren Parameter beibehält und dabei eine hohe Bildrestaurierungsleistung aufrechterhält. Unser Code, Datensätze und vortrainierte Modelle sind öffentlich unter https://github.com/Thomkat/MIR-L verfügbar.
Eine zentrale Herausforderung bei der Inferenz großer Sprachmodelle ist der Kompromiss zwischen Generierungsgeschwindigkeit und Ausgabequalität. Autoregressive Modelle erzeugen hochwertigen Text, generieren jedoch Token sequenziell. Diffusionsmodelle können Token parallel generieren, benötigen jedoch oft viele Iterationen, um dieselbe Qualität zu erreichen. Wir schlagen geplante Diffusion vor, eine hybride Methode, die die Stärken beider Paradigmen kombiniert. Geplante Diffusion arbeitet in zwei Phasen: Zuerst erstellt das Modell einen kurzen autoregressiven Plan, der die Ausgabe in kleinere, unabhängige Abschnitte unterteilt. Anschließend generiert das Modell diese Abschnitte gleichzeitig mithilfe von Diffusion. Dieser Ansatz erweitert die Pareto-Grenze zwischen Geschwindigkeit und Qualität und bietet einen praktischen Weg zu schnellerer, hochwertiger Textgenerierung. Auf AlpacaEval, einer Sammlung von 805 instruktionsbasierten Prompts, erreicht geplante Diffusion einen Pareto-optimalen Kompromiss zwischen Qualität und Latenz und erzielt eine Beschleunigung von 1,27x bis 1,81x gegenüber der autoregressiven Generierung bei nur einem Rückgang der Erfolgsrate von 0,87 % bis 5,4 %. Unsere Sensitivitätsanalyse zeigt, dass der Planungsmechanismus der geplanten Diffusion minimal und zuverlässig ist und einfache Laufzeitparameter existieren, um eine flexible Steuerung des Kompromisses zwischen Qualität und Latenz zu ermöglichen.
Große Sprachmodelle (LLMs) zeigen eine starke, aber oberflächliche Ausrichtung: Sie verweigern direkt schädliche Anfragen, wenn eine Verweigerung zu Beginn eines Assistenten-Turns erwartet wird, doch dieser Schutz bricht zusammen, sobald eine schädliche Fortsetzung im Gange ist (entweder durch adversarische Angriffe oder durch schädliche Assistenten-Prefill-Angriffe). Dies wirft eine grundlegende Frage auf: Kann die inhärente oberflächliche Ausrichtung in LLMs freigesetzt werden, um Sicherheit bei beliebigen Generierungstiefen zu gewährleisten? Um dieses Ziel zu erreichen, schlagen wir Any-Depth Alignment (ADA) vor, eine effektive Inferenzzeit-Verteidigung mit vernachlässigbarem Overhead. ADA basiert auf unserer Beobachtung, dass die Ausrichtung in den Assistenten-Header-Tokens durch wiederholte Verwendung in der oberflächlichen Verweigerungs-Training konzentriert ist und diese Tokens die starken Ausrichtungs-Priors des Modells besitzen. Durch die Wiedereinführung dieser Tokens während des Prozesses induziert ADA das Modell, die Schädlichkeit erneut zu bewerten und Verweigerungen an jedem Punkt der Generierung wiederherzustellen. Über verschiedene Open-Source-Modellfamilien hinweg (Llama, Gemma, Mistral, Qwen, DeepSeek und gpt-oss) erreicht ADA eine robuste Sicherheitsleistung, ohne dass Änderungen an den Parametern des Basismodells erforderlich sind. Es sichert eine nahezu 100%ige Verweigerungsrate gegen herausfordernde adversarische Prefill-Angriffe, die von Dutzenden bis zu Tausenden von Tokens reichen. Darüber hinaus reduziert ADA die durchschnittliche Erfolgsrate prominenter adversarischer Prompt-Angriffe (wie GCG, AutoDAN, PAIR und TAP) auf unter 3%. All dies wird erreicht, während die Nützlichkeit bei harmlosen Aufgaben mit minimaler Überverweigerung erhalten bleibt. ADA behält diese Widerstandsfähigkeit auch bei, nachdem das Basismodell einer nachfolgenden Instruktionsfeinabstimmung (ob harmlos oder adversarisch) unterzogen wurde.
Instruktionsoptimierte große Sprachmodelle (IT-LLMs) zeigen starke Zero-Shot-Fähigkeiten, doch ihre Fähigkeit, einfache, eigenständige Anweisungen auszuführen, bleibt weitgehend unerforscht, obwohl dies die Grundlage für komplexes Anweisungsbefolgen darstellt. Wir evaluieren 20 IT-LLMs anhand modifizierter MMLU- und MMLU-Pro-Benchmarks, indem wir systematisch das Format der Optionsbeschriftungen (alphabetisch, numerisch, römisch) variieren, während ihre Bedeutung unter vier Paradigmen identisch bleibt: (1) Bei expliziten Anweisungen führen Änderungen der Beschriftungen zu erheblichen Leistungsverschiebungen (z. B. -30,45 % für römisch vs. numerisch), was eine Anweisungsformat-Bias offenbart. (2) Ohne Anweisungen sinkt die Leistung weiter (bis zu -10,84 %) und die Empfindlichkeit gegenüber Beschriftungen verstärkt sich, was die Rolle expliziter Anleitung unterstreicht. (3) Wenn die Inhalte der Optionen entfernt werden, verfehlen die Modelle die Zufallswahl-Baselines, außer bei numerischen Beschriftungen, was auf eine schwache Befolgung atomarer Anweisungen hindeutet. (4) Drei-Shot-Beispiele bringen keine signifikanten Verbesserungen in Bezug auf Robustheit oder Treue, und Generierungsanalysen zeigen anhaltende Beschriftungsfehler, insbesondere bei nicht-numerischen Formaten. Über alle Modellgrößen hinweg erreichen größere LLMs eine höhere Genauigkeit, bleiben jedoch inkonsistent in der Anweisungsbefolgung. Diese Ergebnisse offenbaren die Unzulänglichkeiten aktueller Instruktionsoptimierungs-Paradigmen und unterstreichen die Notwendigkeit von Evaluierungsmethoden und Trainingsstrategien, die explizit atomares Anweisungsbefolgen adressieren.
Was wäre, wenn künstliche Agenten nicht nur kommunizieren, sondern auch evolvieren, sich anpassen und ihre Welten auf unvorhersehbare Weise umgestalten könnten? Mit der Nutzung von LLM (Large Language Models) in Multi-Agenten-Systemen und sozialen Simulationen eröffnen sich neue Möglichkeiten zur Modellierung offener, sich ständig verändernder Umgebungen. Dennoch bleiben die meisten aktuellen Simulationen in statischen Sandkästen gefangen, die durch vordefinierte Aufgaben, begrenzte Dynamiken und starre Bewertungskriterien gekennzeichnet sind. Diese Einschränkungen verhindern, dass sie die Komplexität realer Gesellschaften erfassen können. In diesem Papier argumentieren wir, dass statische, aufgabenbezogene Benchmarks grundsätzlich unzureichend sind und neu überdacht werden müssen. Wir untersuchen kritisch aufkommende Architekturen, die LLM mit Multi-Agenten-Dynamiken verbinden, beleuchten zentrale Herausforderungen wie die Balance zwischen Stabilität und Diversität, die Bewertung unerwarteter Verhaltensweisen und die Skalierung hin zu größerer Komplexität, und führen eine neue Taxonomie für dieses sich schnell entwickelnde Feld ein. Schließlich präsentieren wir einen Forschungsfahrplan, der auf Offenheit, kontinuierliche Ko-Evolution und die Entwicklung widerstandsfähiger, sozial ausgerichteter KI-Ökosysteme abzielt. Wir rufen die Gemeinschaft dazu auf, statische Paradigmen zu überwinden und die nächste Generation adaptiver, sozial bewusster Multi-Agenten-Simulationen mitzugestalten.
Wir untersuchen die kurzzeitige Vorhersage von wöchentlichen Terrorismusvorfällen anhand der Global Terrorism Database (GTD, 1970–2016). Wir entwickeln eine reproduzierbare Pipeline mit festen zeitbasierten Aufteilungen und evaluieren ein bidirektionales LSTM (BiLSTM) im Vergleich zu starken klassischen Referenzmodellen (saisonale Naive, lineare/ARIMA) und einem tiefen LSTM-Attention-Baseline-Modell. Auf dem zurückgehaltenen Testdatensatz erreicht das BiLSTM einen RMSE von 6,38 und übertrifft damit das LSTM-Attention-Modell (9,19; +30,6\%) sowie eine lineare Lag-Regressions-Baseline (+35,4\% RMSE-Verbesserung), mit parallelen Verbesserungen in MAE und MAPE. Ablationen, die zeitliches Gedächtnis, Länge der Trainingshistorie, räumliche Granularität, Lookback-Größe und Feature-Gruppen variieren, zeigen, dass Modelle, die auf langen historischen Daten trainiert werden, am besten generalisieren; ein moderater Lookback (20–30 Wochen) bietet einen starken Kontext; und bidirektionale Kodierung ist entscheidend, um sowohl Aufbau- als auch Nachwirkungsmuster innerhalb des Fensters zu erfassen. Die Analyse der Feature-Gruppen zeigt, dass die kurzzeitige Struktur (verzögerte Zählungen und rollierende Statistiken) den größten Beitrag leistet, während geografische und Opfermerkmale zusätzlichen Nutzen bringen. Wir veröffentlichen Code, Konfigurationen und kompakte Ergebnis-Tabellen und stellen ein Daten-/Ethik-Dokument bereit, das die GTD-Lizenzierung und die ausschließliche Nutzung zu Forschungszwecken dokumentiert. Insgesamt bietet die Studie eine transparente, Baseline-übertreffende Referenz für die Vorhersage von GTD-Vorfällen.
Zuverlässige und überprüfbare Daten sind zu einem zentralen Treiber von Fähigkeitssteigerungen in modernen Sprachmodellen geworden, wodurch stabiles bestärkendes Lernen mit überprüfbaren Belohnungen und effektive Destillation ermöglicht werden, die Kompetenzen über Mathematik, Programmierung und agentenbasierte Aufgaben hinweg transferieren. Dennoch bleibt die Konstruktion von generalisierbaren synthetischen, überprüfbaren Daten aufgrund von halluzinationsanfälliger Generierung sowie schwachen oder trivialen Verifikationsartefakten, die starke von schwachen Lösungen nicht trennen können, schwierig. Bestehende Ansätze stützen sich oft auf aufgabenspezifische Heuristiken oder nachträgliche Filter, die nicht domänenübergreifend übertragbar sind und einen prinzipiellen, universellen Bewerter der Überprüfbarkeit vermissen lassen. In dieser Arbeit führen wir einen evolutionären, aufgabenagnostischen, strategiegeleiteten und ausführbar überprüfbaren Daten-Synthese-Rahmen ein, der aus minimaler Startüberwachung Probleme, diverse Kandidatenlösungen und Verifikationsartefakte gemeinsam synthetisiert und Strategien iterativ durch einen konsistenzbasierten Bewerter entdeckt, der Übereinstimmung zwischen menschlich annotierten und strategieinduzierten Prüfungen erzwingt. Diese Pipeline wandelt Filterung in eine prinzipielle Synthese um: Sie stellt zuverlässig kohärente, überprüfbare Trainingsinstanzen zusammen und generalisiert ohne domänenspezifische Regeln. Unsere Experimente demonstrieren die Wirksamkeit des vorgeschlagenen Ansatzes sowohl unter RLVR- als auch Modell-Destillations-Trainingsparadigmen. Die Ergebnisse zeigen, dass das Training mit unseren synthetisierten Daten signifikante Verbesserungen bei den Aufgaben von LiveCodeBench und AgentBench-OS erzielt, was die robuste Generalisierung unseres Rahmens unterstreicht.
Tool-augmentierte große Sprachmodelle (LLMs) entwickeln sich zunehmend zu tiefgreifenden Forschungsagenten, Systeme, die komplexe Anfragen zerlegen, externe Belege abrufen und fundierte Antworten synthetisieren. Dennoch bleiben aktuelle Agenten durch oberflächliche Recherche, schwache Ausrichtungsmetriken und brüchiges Tool-Nutzungsverhalten eingeschränkt. Wir stellen PokeeResearch-7B vor, einen 7B-Parameter tiefgreifenden Forschungsagenten, der unter einem einheitlichen Reinforcement-Learning-Framework für Robustheit, Ausrichtung und Skalierbarkeit entwickelt wurde. PokeeResearch-7B wird durch ein annotierungsfreies Reinforcement Learning from AI Feedback (RLAIF)-Framework trainiert, um Richtlinien mithilfe von LLM-basierten Belohnungssignalen zu optimieren, die faktische Genauigkeit, Zitatstreue und Befolgung von Anweisungen erfassen. Ein Chain-of-Thought-gesteuertes Multi-Call-Reasoning-Gerüst erhöht die Robustheit weiter durch Selbstverifikation und adaptive Wiederherstellung bei Tool-Fehlern. Unter 10 beliebten Benchmark-Tests für tiefgreifende Forschung erreicht PokeeResearch-7B Spitzenleistungen unter den 7B-skaligen tiefgreifenden Forschungsagenten. Dies unterstreicht, dass sorgfältiges Reinforcement Learning und Reasoning-Design effiziente, widerstandsfähige und forschungsfähige KI-Agenten hervorbringen können. Das Modell und der Inferenzcode sind unter der MIT-Lizenz auf https://github.com/Pokee-AI/PokeeResearchOSS quelloffen verfügbar.