papers.description
Vision-Language-Action (VLA)-Modelle haben kürzlich ein großes Potenzial gezeigt, wenn es darum geht, Robotern das Befolgen von Sprachbefehlen und die Ausführung präziser Aktionen zu ermöglichen. Die meisten VLA-Modelle basieren jedoch auf Vision-Language-Modellen, die ausschließlich auf 2D-Daten vortrainiert wurden, was zu einem Mangel an präziser räumlicher Wahrnehmung führt und ihre Fähigkeit beeinträchtigt, in der dreidimensionalen physischen Welt zu agieren. Bestehende Lösungsansätze versuchen, explizite 3D-Sensoreingaben wie Tiefenkarten oder Punktwolken zu integrieren, doch diese Ansätze stehen vor Herausforderungen aufgrund von Sensorrauschen, Hardware-Heterogenität und unvollständiger Tiefenabdeckung in vorhandenen Datensätzen. Alternative Methoden, die 3D-Informationen aus 2D-Bildern schätzen, leiden ebenfalls unter der begrenzten Leistungsfähigkeit von Tiefenschätzern. Wir schlagen Spatial Forcing (SF) vor, eine einfache, aber effektive Ausrichtungsstrategie, die VLA-Modelle implizit dazu zwingt, räumliche Verständnisfähigkeiten zu entwickeln, ohne auf explizite 3D-Eingaben oder Tiefenschätzer angewiesen zu sein. SF richtet die intermediären visuellen Einbettungen von VLA-Modellen mit geometrischen Repräsentationen aus, die von vortrainierten 3D-Foundation-Modellen erzeugt werden. Durch die Erzwingung der Ausrichtung in intermediären Schichten leitet SF VLA-Modelle an, reichhaltigere räumliche Repräsentationen zu kodieren, die die Handlungspräzision verbessern. Umfangreiche Experimente in Simulations- und realen Umgebungen zeigen, dass SF state-of-the-art Ergebnisse erzielt und sowohl 2D- als auch 3D-basierte VLA-Modelle übertrifft. SF beschleunigt das Training um bis zu das 3,8-fache und verbessert die Dateneffizienz über diverse robotische Aufgaben hinweg. Die Projektseite ist unter https://spatial-forcing.github.io/ verfügbar.
Pixel-Raum-Generative Modelle sind oft schwieriger zu trainieren und schneiden im Allgemeinen schlechter ab als ihre Gegenstücke im latenten Raum, was eine anhaltende Lücke in Bezug auf Leistung und Effizienz hinterlässt. In diesem Artikel stellen wir ein neuartiges zweistufiges Trainingsframework vor, das diese Lücke für Pixel-Raum-Diffusions- und Konsistenzmodelle schließt. In der ersten Stufe trainieren wir Encoder vor, um aussagekräftige Semantik aus sauberen Bildern zu erfassen, während wir sie mit Punkten entlang derselben deterministischen Sampling-Trajektorie ausrichten, die Punkte von der Prior- zur Datenverteilung entwickelt. In der zweiten Stufe integrieren wir den Encoder mit einem zufällig initialisierten Decoder und feinabstimmen das vollständige Modell end-to-end für sowohl Diffusions- als auch Konsistenzmodelle. Unser Trainingsframework zeigt eine starke empirische Leistung auf dem ImageNet-Datensatz. Insbesondere erreicht unser Diffusionsmodell einen FID von 2,04 auf ImageNet-256 und 2,35 auf ImageNet-512 mit 75 Funktionsauswertungen (NFE), wobei es frühere Pixel-Raum-Methoden in Bezug auf Generierungsqualität und Effizienz deutlich übertrifft und führende VAE-basierte Modelle bei vergleichbaren Trainingskosten konkurriert. Darüber hinaus erreicht unser Konsistenzmodell auf ImageNet-256 einen beeindruckenden FID von 8,82 in einem einzigen Sampling-Schritt, was sein Gegenstück im latenten Raum deutlich übertrifft. Nach bestem Wissen markiert dies das erste erfolgreiche Training eines Konsistenzmodells direkt auf hochauflösenden Bildern, ohne sich auf vortrainierte VAEs oder Diffusionsmodelle zu verlassen.
Große Sprachmodelle (LLMs) haben die maschinelle Übersetzung (MT) erheblich vorangetrieben, doch ihre Wirksamkeit bei der Übersetzung von Webnovels bleibt unklar. Bestehende Benchmarks stützen sich auf oberflächliche Metriken, die die charakteristischen Merkmale dieses Genres nicht erfassen. Um diese Lücken zu schließen, führen wir DITING ein, den ersten umfassenden Bewertungsrahmen für die Übersetzung von Webnovels, der die narrative und kulturelle Treue in sechs Dimensionen bewertet: Idiomübersetzung, lexikalische Mehrdeutigkeit, Terminologielokalisierung, Tempuskonsistenz, Nullpronomenauflösung und kulturelle Sicherheit, unterstützt durch über 18.000 von Experten annotierte chinesisch-englische Satzpaare. Wir schlagen weiterhin AgentEval vor, ein vernunftgesteuertes Multi-Agenten-Bewertungssystem, das die Expertenberatung simuliert, um die Übersetzungsqualität über die lexikalische Übereinstimmung hinaus zu bewerten und dabei die höchste Korrelation mit menschlichen Bewertungen unter sieben getesteten automatischen Metriken erreicht. Um den Vergleich von Metriken zu ermöglichen, entwickeln wir MetricAlign, ein Meta-Bewertungsdatensatz von 300 Satzpaaren, die mit Fehleretiketten und skalaren Qualitätsbewertungen annotiert sind. Eine umfassende Bewertung von vierzehn offenen, geschlossenen und kommerziellen Modellen zeigt, dass in China trainierte LLMs größere ausländische Gegenstücke übertreffen und dass DeepSeek-V3 die treuesten und stilistisch kohärentesten Übersetzungen liefert. Unsere Arbeit etabliert ein neues Paradigma für die Erforschung von LLM-basierter Webnovel-Übersetzung und stellt öffentliche Ressourcen zur Verfügung, um zukünftige Forschungen voranzutreiben.
Aktuelle multimodale Embedding-Ansätze, die multimodale große Sprachmodelle (MLLMs) nutzen, die mit kontrastivem Lernen (CL) feinabgestimmt wurden, haben vielversprechende Ergebnisse gezeigt. Dennoch bleiben die zugrunde liegenden Gründe für ihre Überlegenheit weitgehend unerforscht. Diese Arbeit argumentiert, dass ein entscheidender Vorteil von MLLM-basierten Ansätzen aus der impliziten cross-modalen Ausrichtung resultiert, die während des generativen Vorabtrainings erreicht wird, wobei der Sprachdekodierer lernt, multimodale Signale innerhalb eines gemeinsamen Repräsentationsraums zur Erzeugung unimodaler Ausgaben zu nutzen. Durch die Analyse von Anisotropie und Kernel-Ähnlichkeitsstruktur bestätigen wir empirisch, dass eine latente Ausrichtung innerhalb der MLLM-Repräsentationen entsteht, was CL als leichtgewichtige Verfeinerungsstufe ermöglicht. Basierend auf dieser Erkenntnis schlagen wir ein sprachzentriertes omnimodales Embedding-Framework vor, das als LCO-Emb bezeichnet wird. Umfangreiche Experimente über verschiedene Backbones und Benchmarks hinweg demonstrieren seine Effektivität und erzielen state-of-the-art Leistungen über verschiedene Modalitäten hinweg. Darüber hinaus identifizieren wir ein Generation-Repräsentation-Skalierungsgesetz (GRSL), das zeigt, dass die durch kontrastive Verfeinerung gewonnenen Repräsentationsfähigkeiten positiv mit den generativen Fähigkeiten des MLLM skalieren. Dies deutet darauf hin, dass die Verbesserung der generativen Fähigkeiten ein effektives Paradigma zur Steigerung der Repräsentationsqualität darstellt. Wir liefern eine theoretische Erklärung des GRSL, die die generative Qualität des MLLM formal mit der oberen Grenze seiner Repräsentationsleistung verknüpft, und validieren dies anhand einer anspruchsvollen, ressourcenarmen visuell-dokumentbasierten Retrieval-Aufgabe. Dabei zeigen wir, dass kontinuierliches generatives Vorabtraining vor CL das Potenzial der Embedding-Fähigkeiten eines Modells weiter steigern kann. Codes, Modelle und Ressourcen sind unter https://github.com/LCO-Embedding/LCO-Embedding verfügbar.
Das Robotik-Lernen befindet sich an einem Wendepunkt, angetrieben durch rasante Fortschritte im Bereich des maschinellen Lernens und die zunehmende Verfügbarkeit von großvolumigen Robotikdaten. Dieser Wandel von klassischen, modellbasierten Methoden hin zu datengetriebenen, lernbasierten Paradigmen erschließt beispiellose Fähigkeiten in autonomen Systemen. Dieses Tutorial führt durch die Landschaft des modernen Robotik-Lernens und skizziert einen Weg von den grundlegenden Prinzipien des Reinforcement Learning und Behavioral Cloning hin zu generalistischen, sprachgesteuerten Modellen, die in der Lage sind, vielfältige Aufgaben und sogar unterschiedliche Roboterplattformen zu bewältigen. Diese Arbeit soll als Leitfaden für Forscher und Praktiker dienen, und unser Ziel ist es, den Leser mit dem konzeptionellen Verständnis und den praktischen Werkzeugen auszustatten, die notwendig sind, um Entwicklungen im Bereich des Robotik-Lernens voranzutreiben, einschließlich einsatzbereiter Beispiele, die in lerobot implementiert sind.
Der Fortschritt großer Sprachmodelle (LLMs) hat einen Paradigmenwechsel von der Code-Generierungsunterstützung hin zu autonomen Coding-Agenten katalysiert, wodurch eine neuartige Entwicklungsmethodologie namens „Vibe Coding“ ermöglicht wird. Bei dieser Methode validieren Entwickler KI-generierte Implementierungen durch die Beobachtung von Ergebnissen, anstatt den Code Zeile für Zeile zu verstehen. Trotz seines transformativen Potenzials bleibt die Effektivität dieses aufkommenden Paradigmas weitgehend unerforscht, wobei empirische Erkenntnisse unerwartete Produktivitätsverluste und grundlegende Herausforderungen in der Mensch-KI-Kollaboration offenbaren. Um diese Lücke zu schließen, bietet diese Übersichtsarbeit die erste umfassende und systematische Untersuchung von Vibe Coding mit großen Sprachmodellen und legt sowohl theoretische Grundlagen als auch praktische Rahmenbedingungen für diesen transformativen Entwicklungsansatz fest. Basierend auf der systematischen Analyse von über 1000 Forschungsarbeiten untersuchen wir das gesamte Vibe-Coding-Ökosystem und betrachten kritische Infrastrukturkomponenten, darunter LLMs für das Coding, LLM-basierte Coding-Agenten, Entwicklungsumgebungen für Coding-Agenten und Feedback-Mechanismen. Wir führen Vibe Coding zunächst als formale Disziplin ein, indem wir es durch einen Constrained Markov Decision Process formalisieren, der die dynamische triadische Beziehung zwischen menschlichen Entwicklern, Softwareprojekten und Coding-Agenten abbildet. Auf dieser theoretischen Grundlage aufbauend, synthetisieren wir bestehende Praktiken in fünf verschiedene Entwicklungsmodelle: Unbeschränkte Automatisierung, Iterative Konversationskollaboration, Planungsgetriebene, Testgetriebene und Kontextverstärkte Modelle, wodurch wir die erste umfassende Taxonomie in diesem Bereich bereitstellen. Entscheidend ist, dass unsere Analyse zeigt, dass erfolgreiches Vibe Coding nicht allein von den Fähigkeiten der Agenten abhängt, sondern von systematischem Kontext-Engineering, gut etablierten Entwicklungsumgebungen und kollaborativen Entwicklungsmodellen zwischen Mensch und Agent.
Die Objekterkennung wurde lange Zeit von traditionellen, auf Koordinatenregression basierenden Modellen wie YOLO, DETR und Grounding DINO dominiert. Obwohl neuere Ansätze versucht haben, MLLMs (Multimodale Large Language Models) für diese Aufgabe zu nutzen, stehen sie vor Herausforderungen wie niedriger Trefferquote, doppelten Vorhersagen, Koordinatenfehlausrichtungen usw. In dieser Arbeit schließen wir diese Lücke und schlagen Rex-Omni vor, ein MLLM mit 3 Milliarden Parametern, das eine state-of-the-art Leistung in der Objektwahrnehmung erzielt. Auf Benchmarks wie COCO und LVIS erreicht Rex-Omni in einer Zero-Shot-Einstellung eine Leistung, die mit regressionsbasierten Modellen (z. B. DINO, Grounding DINO) vergleichbar ist oder diese sogar übertrifft. Dies wird durch drei Schlüsseldesigns ermöglicht: 1) Aufgabenformulierung: Wir verwenden spezielle Tokens, um quantisierte Koordinaten von 0 bis 999 darzustellen, was die Lernschwierigkeit des Modells verringert und die Token-Effizienz für die Koordinatenvorhersage verbessert; 2) Datenengines: Wir konstruieren mehrere Datenengines, um hochwertige Grounding-, Referenz- und Pointing-Daten zu generieren, die semantisch reiche Supervision für das Training bieten; 3) Trainingspipeline: Wir verwenden einen zweistufigen Trainingsprozess, der überwachtes Fine-Tuning auf 22 Millionen Daten mit GRPO-basiertem Reinforcement-Post-Training kombiniert. Dieses RL-Post-Training nutzt geometrie-bewusste Belohnungen, um die Lücke zwischen diskreter und kontinuierlicher Koordinatenvorhersage effektiv zu schließen, die Genauigkeit der Bounding-Boxen zu verbessern und unerwünschte Verhaltensweisen wie doppelte Vorhersagen zu mildern, die aus dem leitergestützten Charakter der anfänglichen SFT-Phase resultieren. Über die konventionelle Erkennung hinaus ermöglicht das inhärente Sprachverständnis von Rex-Omni vielseitige Fähigkeiten wie Objektreferenzierung, Pointing, visuelle Prompting, GUI-Grounding, räumliche Referenzierung, OCR und Key-Pointing, die alle systematisch auf speziellen Benchmarks evaluiert werden. Wir glauben, dass Rex-Omni den Weg für vielseitigere und sprachbewusstere visuelle Wahrnehmungssysteme ebnet.
Retrieval-Augmented Generation (RAG) hat sich als grundlegendes Paradigma etabliert, um große Sprachmodelle über ihre statischen Trainingsgrenzen hinaus zu erweitern. Allerdings besteht eine kritische Diskrepanz zwischen den aktuellen RAG-Fähigkeiten und realen Informationsumgebungen. Moderne Wissensrepositorien sind inhärent multimodal und enthalten reichhaltige Kombinationen aus textuellen Inhalten, visuellen Elementen, strukturierten Tabellen und mathematischen Ausdrücken. Dennoch sind bestehende RAG-Frameworks auf textuelle Inhalte beschränkt, was grundlegende Lücken bei der Verarbeitung multimodaler Dokumente schafft. Wir präsentieren RAG-Anything, ein einheitliches Framework, das umfassende Wissensabfrage über alle Modalitäten hinweg ermöglicht. Unser Ansatz konzeptualisiert multimodale Inhalte als vernetzte Wissensentitäten anstelle von isolierten Datentypen neu. Das Framework führt die Konstruktion von Dual-Graphen ein, um sowohl cross-modale Beziehungen als auch textuelle Semantik in einer einheitlichen Darstellung zu erfassen. Wir entwickeln eine cross-modale Hybridabfrage, die strukturelle Wissensnavigation mit semantischem Matching kombiniert. Dies ermöglicht effektives Schlussfolgern über heterogene Inhalte, bei denen relevante Beweise mehrere Modalitäten umfassen. RAG-Anything zeigt überlegene Leistung bei anspruchsvollen multimodalen Benchmarks und erzielt signifikante Verbesserungen gegenüber state-of-the-art Methoden. Die Leistungssteigerungen sind besonders ausgeprägt bei langen Dokumenten, bei denen traditionelle Ansätze versagen. Unser Framework etabliert ein neues Paradigma für den Zugriff auf multimodales Wissen und beseitigt die architektonische Fragmentierung, die aktuelle Systeme einschränkt. Unser Framework ist Open-Source und verfügbar unter: https://github.com/HKUDS/RAG-Anything.
Diffusionsmodelle haben kürzlich die Videorestaurierung vorangetrieben, doch ihre Anwendung auf die Video-Super-Resolution (VSR) in der realen Welt bleibt aufgrund hoher Latenz, prohibitivem Rechenaufwand und schlechter Generalisierung auf ultrahohe Auflösungen eine Herausforderung. Unser Ziel in dieser Arbeit ist es, die Diffusions-basierte VSR praktikabel zu machen, indem wir Effizienz, Skalierbarkeit und Echtzeitfähigkeit erreichen. Zu diesem Zweck schlagen wir FlashVSR vor, das erste Diffusions-basierte Einstufen-Streaming-Framework für Echtzeit-VSR. FlashVSR läuft mit etwa 17 FPS für 768x1408-Videos auf einer einzelnen A100-GPU, indem es drei komplementäre Innovationen kombiniert: (i) eine trainingsfreundliche dreistufige Destillationspipeline, die Streaming-Super-Resolution ermöglicht, (ii) eine lokalitätsbeschränkte spärliche Aufmerksamkeit, die redundante Berechnungen reduziert und gleichzeitig die Lücke zwischen Trainings- und Testauflösung überbrückt, und (iii) einen winzigen bedingten Decoder, der die Rekonstruktion beschleunigt, ohne die Qualität zu beeinträchtigen. Um das Training in großem Maßstab zu unterstützen, haben wir auch VSR-120K erstellt, einen neuen Datensatz mit 120.000 Videos und 180.000 Bildern. Umfangreiche Experimente zeigen, dass FlashVSR zuverlässig auf ultrahohe Auflösungen skaliert und mit bis zu 12-facher Beschleunigung gegenüber früheren Einstufen-Diffusions-VSR-Modellen state-of-the-art-Leistung erzielt. Wir werden den Code, vortrainierte Modelle und den Datensatz veröffentlichen, um zukünftige Forschung in effizienter Diffusions-basierter VSR zu fördern.
Diffusionsmodelle haben als generative Modelle bemerkenswerte Erfolge erzielt. Allerdings kann selbst ein gut trainiertes Modell während des Generierungsprozesses Fehler akkumulieren. Diese Fehler werden besonders problematisch, wenn eine beliebige Steuerung angewendet wird, um Proben in Richtung gewünschter Eigenschaften zu lenken, was häufig die Probentreue beeinträchtigt. In diesem Artikel schlagen wir eine allgemeine Lösung vor, um das Off-Manifold-Phänomen, das in Diffusionsmodellen beobachtet wird, zu adressieren. Unser Ansatz nutzt einen Zeitprädiktor, um Abweichungen von der gewünschten Datenmannigfaltigkeit in jedem Zeitschritt zu schätzen, wobei festgestellt wird, dass eine größere Zeitspanne mit einer reduzierten Generierungsqualität verbunden ist. Anschließend entwerfen wir einen neuartigen Steuerungsmechanismus, die sogenannte „Temporal Alignment Guidance“ (TAG), der die Proben in jedem Zeitschritt während der Generierung zurück zur gewünschten Mannigfaltigkeit führt. Durch umfangreiche Experimente zeigen wir, dass TAG konsistent Proben erzeugt, die in jedem Zeitschritt eng mit der gewünschten Mannigfaltigkeit übereinstimmen, was zu signifikanten Verbesserungen der Generierungsqualität in verschiedenen nachgelagerten Aufgaben führt.
Große Sprachmodelle (LLMs) verarbeiten jedes Token durch alle Schichten eines Transformer-Stacks, was zu verschwendeter Rechenleistung bei einfachen Anfragen und unzureichender Flexibilität für komplexere Aufgaben, die tiefere Schlussfolgerungen erfordern, führt. Adaptive Tiefenmethoden können die Effizienz verbessern, aber bisherige Ansätze beruhen auf kostspieliger Inferenzzeit-Suche, architektonischen Änderungen oder groß angelegtem Neu-Training und führen in der Praxis oft zu einer Verschlechterung der Genauigkeit trotz Effizienzgewinnen. Wir stellen Dr.LLM, Dynamic Routing of Layers for LLMs, vor, ein nachrüstbares Framework, das vortrainierte Modelle mit leichtgewichtigen pro-Schicht-Routern ausstattet, die entscheiden, ob ein Block übersprungen, ausgeführt oder wiederholt wird. Die Router werden mit expliziter Supervision trainiert: Mithilfe von Monte-Carlo-Baumsuche (MCTS) leiten wir hochwertige Schichtkonfigurationen ab, die die Genauigkeit unter einem Rechenbudget bewahren oder verbessern. Unser Design, das Fenster-Pooling für stabiles Routing, Focal Loss mit Klassenausgleich und Bottleneck-MLP-Router umfasst, gewährleistet Robustheit bei Klassenungleichgewicht und langen Sequenzen. Bei ARC (Logik) und DART (Mathematik) verbessert Dr.LLM die Genauigkeit um bis zu +3,4 %P, während durchschnittlich 5 Schichten pro Beispiel eingespart werden. Die Router generalisieren auf domänenübergreifende Aufgaben (MMLU, GSM8k, AIME, TruthfulQA, SQuADv2, GPQA, PIQA, AGIEval) mit nur 0,85 % Genauigkeitsverlust bei Beibehaltung der Effizienz und übertreffen bisherige Routing-Methoden um bis zu +7,7 %P. Insgesamt zeigt Dr.LLM, dass explizit überwachte Router eingefrorene LLMs für budgetbewusste, genauigkeitsgetriebene Inferenz nachrüsten können, ohne die Basisgewichte zu verändern.
Jüngste Fortschritte in der embodied AI unterstreichen das Potenzial von Vision-Language-Modellen (VLMs) als Agenten, die in der Lage sind, Wahrnehmung, Schlussfolgerung und Interaktion in komplexen Umgebungen zu ermöglichen. Allerdings stützen sich die leistungsstärksten Systeme auf großskalige Modelle, deren Einsatz kostspielig ist, während kleinere VLMs das notwendige Wissen und die Fähigkeiten für den Erfolg vermissen. Um diese Lücke zu schließen, präsentieren wir den Embodied Reasoning Agent (ERA), ein zweistufiges Framework, das Vorwissenlernen und Online-Reinforcement-Learning (RL) integriert. Die erste Stufe, Embodied Prior Learning, destilliert grundlegendes Wissen aus drei Arten von Daten: (1) Trajectory-Augmented Priors, die bestehende Trajektoriedaten mit strukturiertem Reasoning, das von stärkeren Modellen generiert wird, anreichern; (2) Environment-Anchored Priors, die in der Umgebung verankertes Wissen und Grounding-Supervision bereitstellen; und (3) External Knowledge Priors, die allgemeines Wissen aus außerhalb der Umgebung liegenden Datensätzen transferieren. In der zweiten Stufe entwickeln wir eine Online-RL-Pipeline, die auf diesen Priors aufbaut, um die Leistung des Agenten weiter zu verbessern. Um die inhärenten Herausforderungen im Agenten-RL, einschließlich langer Zeithorizonte, spärlicher Belohnungen und Trainingsinstabilität, zu überwinden, führen wir drei Schlüsseldesigns ein: Selbstzusammenfassung für das Kontextmanagement, dichte Belohnungsformung und turn-level Policy-Optimierung. Umfangreiche Experimente sowohl auf hochrangigen Planungsaufgaben (EB-ALFRED) als auch auf niederrangigen Steuerungsaufgaben (EB-Manipulation) zeigen, dass ERA-3B sowohl prompt-basierte große Modelle als auch bisherige trainierte Baselines übertrifft. Insbesondere erzielt es Gesamtverbesserungen von 8,4 % bei EB-ALFRED und 19,4 % bei EB-Manipulation gegenüber GPT-4o und zeigt eine starke Generalisierung auf unbekannte Aufgaben. Insgesamt bietet ERA einen praktischen Weg zur skalierbaren embodied Intelligence und liefert methodische Einblicke für zukünftige embodied AI-Systeme.
Große Sprachmodelle (LLMs) können als Weltmodelle fungieren, um die Entscheidungsfindung von Agenten in digitalen Umgebungen zu verbessern, indem sie zukünftige Zustände simulieren und die Ergebnisse von Aktionen vorhersagen. Dies könnte kostspielige Trial-and-Error-Exploration überflüssig machen. Diese Fähigkeit ist jedoch grundlegend durch die Neigung von LLMs zu Halluzinationen und ihre Abhängigkeit von statischem Trainingswissen eingeschränkt, was zu sich verstärkenden Fehlern führen kann, die langfristige Simulationen behindern. Um systematisch zu untersuchen, ob LLMs für die Weltmodellierung geeignet sind, untersuchen wir zwei Kernfähigkeiten von Weltmodellen – die Vorhersage zukünftiger Zustände und die Schätzung von Belohnungen – anhand von drei Aufgaben: die Identifikation des nächsten Zustands, die Ausrichtung der vollständigen Verfahrensplanung und die Erkennung von Meilensteinübergängen. Unsere Analyse zeigt, dass LLMs zwar unmittelbar folgende Zustände effektiv erfassen und bedeutungsvolle Zustandsübergänge identifizieren können, ihre Leistung jedoch bei der vollständigen Verfahrensplanung rapide abnimmt. Dies unterstreicht die Grenzen von LLMs bei der zuverlässigen Modellierung von Umgebungsdynamiken über längere Zeiträume. Um diese Einschränkungen zu überwinden, schlagen wir das Retrieval-augmented World Model (R-WoM) vor, das LLM-Simulationen durch die Einbindung von faktischem, aktuellen Wissen aus externen Tutorials fundiert. Experimente zeigen, dass R-WoM im Vergleich zu Baselines erhebliche Verbesserungen von bis zu 25,3 % (OSWorld) und 18,1 % (WebArena) erzielt, mit besonderen Vorteilen bei Simulationen über längere Zeiträume.
In jüngster Zeit wurden bemerkenswerte Fortschritte bei Unified Multimodal Models (UMMs) erzielt, die visuell-sprachliche Generierungs- und Verständnisfähigkeiten in einem einzigen Framework integrieren. Es besteht jedoch eine erhebliche Lücke, bei der das starke visuelle Verständnis eines Modells oft nicht auf seine visuelle Generierung übertragen wird. Ein Modell könnte ein Bild basierend auf Benutzeranweisungen korrekt verstehen, aber dennoch nicht in der Lage sein, ein treues Bild aus Textanweisungen zu generieren. Dieses Phänomen wirft direkt eine faszinierende Frage auf: Kann ein Modell durch die Nutzung seines Verständnismoduls zur Belohnung seines Generierungsmoduls eine Selbstverbesserung erreichen? Um diese Lücke zu schließen und Selbstverbesserung zu ermöglichen, führen wir SRUM ein, ein selbstbelohnendes Nachschulungs-Framework, das direkt auf bestehende UMMs verschiedener Designs angewendet werden kann. SRUM schafft eine Feedback-Schleife, in der das Verständnismodul des Modells als interner „Evaluator“ fungiert und korrigierende Signale zur Verbesserung des Generierungsmoduls liefert, ohne zusätzliche menschlich annotierte Daten zu benötigen. Um sicherzustellen, dass dieses Feedback umfassend ist, haben wir ein global-lokales duales Belohnungssystem entworfen. Um der inhärenten strukturellen Komplexität von Bildern gerecht zu werden, bietet dieses System eine mehrstufige Anleitung: Eine globale Belohnung stellt die Korrektheit der gesamten visuellen Semantik und des Layouts sicher, während eine lokale Belohnung die feinkörnige, objektbezogene Treue verfeinert. SRUM führt zu leistungsstarken Fähigkeiten und zeigt eine starke Generalisierung, die die Leistung auf T2I-CompBench von 82,18 auf 88,37 und auf T2I-ReasonBench von 43,82 auf 46,75 steigert. Insgesamt etabliert unsere Arbeit ein leistungsfähiges neues Paradigma, das es dem Verständnismodul eines UMMs ermöglicht, seine eigene Generierung durch Selbstbelohnung zu leiten und zu verbessern.
Obwohl die jüngsten Fortschritte in der visuellen Generierung bemerkenswert sind, hängen die meisten bestehenden Architekturen immer noch von separaten Encodern für Bilder und Text ab. Diese Trennung schränkt die Fähigkeit von Diffusionsmodellen ein, cross-modales Denken und Wissenstransfer durchzuführen. Frühere Versuche, diese Lücke zu schließen, nutzen oft die Informationen der letzten Schicht eines VLM, setzen mehrere visuelle Encoder ein oder trainieren große, vereinheitlichte Modelle gemeinsam für die Text- und Bildgenerierung, was erhebliche Rechenressourcen und groß angelegte Daten erfordert und somit die Zugänglichkeit einschränkt. Wir präsentieren UniFusion, ein diffusionsbasiertes Generativmodell, das auf einem eingefrorenen großen Vision-Language-Modell (VLM) als einheitlichem multimodalen Encoder basiert. Im Kern von UniFusion steht der Layerwise Attention Pooling (LAP)-Mechanismus, der sowohl hochrangige Semantik als auch niedrigrangige Details aus Text- und visuellen Tokens eines eingefrorenen VLM extrahiert, um ein diffusionsbasiertes Generativmodell zu konditionieren. Wir zeigen, dass LAP andere flache Fusionsarchitekturen in Bezug auf die Text-Bild-Ausrichtung für die Generierung und die treue Übertragung visueller Informationen vom VLM an das Diffusionsmodell übertrifft, was für die Bearbeitung entscheidend ist. Wir schlagen VLM-Enabled Rewriting Injection with Flexible Inference (VERIFI) vor, das einen Diffusion Transformer (DiT) nur auf die Text-Tokens konditioniert, die vom VLM während der Prompt-Rewriting-Phase im Modell generiert werden. VERIFI kombiniert die Ausrichtung der Konditionierungsverteilung mit den Denkfähigkeiten des VLM für erhöhte Fähigkeiten und Flexibilität bei der Inferenz. Darüber hinaus verbessert das Feintuning auf Bearbeitungsaufgaben nicht nur die Text-Bild-Ausrichtung für die Generierung, was auf einen cross-modalen Wissenstransfer hinweist, sondern zeigt auch enorme Generalisierungsfähigkeiten. Unser Modell, das auf die Bearbeitung einzelner Bilder trainiert wurde, generalisiert zero-shot auf mehrere Bildreferenzen, was das einheitliche Encoder-Design von UniFusion weiter motiviert.
Die Nachschulungsausrichtung reduziert oft die Diversität von LLMs, was zu einem Phänomen führt, das als Modus-Kollaps bekannt ist. Im Gegensatz zu früheren Arbeiten, die diesen Effekt auf algorithmische Beschränkungen zurückführen, identifizieren wir einen grundlegenden, allgegenwärtigen datenbasierten Treiber: die Typikalitätsverzerrung in Präferenzdaten, bei der Annotatoren systematisch vertrauten Text bevorzugen, was auf gut etablierte Erkenntnisse der kognitiven Psychologie zurückzuführen ist. Wir formalisieren diese Verzerrung theoretisch, überprüfen sie empirisch anhand von Präferenzdatensätzen und zeigen, dass sie eine zentrale Rolle beim Modus-Kollaps spielt. Motiviert durch diese Analyse führen wir Verbalized Sampling (VS) ein, eine einfache, trainingsfreie Prompting-Strategie, um den Modus-Kollaps zu umgehen. VS fordert das Modell auf, eine Wahrscheinlichkeitsverteilung über eine Reihe von Antworten zu verbalisieren (z. B. „Generiere 5 Witze über Kaffee und ihre entsprechenden Wahrscheinlichkeiten“). Umfassende Experimente zeigen, dass VS die Leistung in den Bereichen kreatives Schreiben (Gedichte, Geschichten, Witze), Dialogsimulation, offene Frage-Antwort-Systeme und synthetische Datengenerierung erheblich verbessert, ohne dabei die faktische Genauigkeit und Sicherheit zu opfern. Beispielsweise steigert VS im kreativen Schreiben die Diversität um das 1,6- bis 2,1-fache im Vergleich zum direkten Prompting. Wir beobachten weiterhin einen aufkommenden Trend, dass leistungsfähigere Modelle stärker von VS profitieren. Zusammenfassend bietet unsere Arbeit eine neue datenzentrierte Perspektive auf den Modus-Kollaps und ein praktisches Inferenzzeit-Mittel, das hilft, die vorab trainierte generative Diversität freizusetzen.
Der Erfolg von Transformer-Sprachmodellen wird weitgehend ihrem Dot-Produkt-Attentionsmechanismus zugeschrieben, der eine Reihe von Schlüsseldesignprinzipien verknüpft: die Vermischung von Informationen über Positionen hinweg (ermöglicht Multi-Token-Interaktionen), sequenzabhängige Aktivierungen (bei denen die Aufmerksamkeitsgewichte sich an jeden Eingabewert anpassen), eine spezifische mathematische Form (Dot-Produkt-Ähnlichkeiten plus Softmax-Gewichtung) und die Kopplung von Anfragen und Schlüsseln an sich entwickelnde versteckte Zustände (Verankerung der Aufmerksamkeit in der aktuellen Schicht). Die Notwendigkeit jedes dieser Prinzipien bleibt jedoch weitgehend ungeprüft. In dieser Arbeit dekonstruieren wir die Aufmerksamkeit systematisch, indem wir kontrollierte Varianten entwerfen, die diese Prinzipien selektiv lockern, sowohl gleichmäßig über alle Schichten hinweg als auch in hybriden Architekturen, bei denen nur einige Schichten die Standard-Aufmerksamkeit beibehalten. Unsere empirische Analyse zeigt, dass Mechanismen zur Vermischung von Token unverzichtbar sind, da deren Fehlen die Modelle zu nahezu zufälligem Verhalten führt, während die exakte mathematische Form und die Sequenzabhängigkeit erheblich gelockert werden können, insbesondere wenn sie nur in einer Teilmenge der Schichten erhalten bleiben. Überraschenderweise können sogar Varianten, die isoliert versagen, robuste Leistungen erzielen, wenn sie mit Standard-Aufmerksamkeit verschachtelt werden, was einen kooperativen Effekt hervorhebt. Diese Erkenntnisse vertiefen unser Verständnis dessen, was die Wirksamkeit der Aufmerksamkeit wirklich untermauert, und eröffnen neue Wege zur Vereinfachung von Sprachmodellen ohne Leistungseinbußen.
Große Sprachmodelle stehen vor Herausforderungen bei langfristigen agentenbasierten Aufgaben, da ihr begrenzter Speicher leicht durch ablenkenden oder irrelevanten Kontext überfordert wird. Bestehende Methoden für das Arbeitsgedächtnis basieren typischerweise auf externen, heuristischen Mechanismen, die vom Kern der Agentenpolitik entkoppelt sind. In dieser Arbeit betrachten wir das Management des Arbeitsgedächtnisses als eine erlernbare, intrinsische Fähigkeit neu. Wir schlagen ein neuartiges Framework vor, Memory-as-Action, in dem ein Agent sein Arbeitsgedächtnis aktiv verwaltet, indem er explizite Bearbeitungsoperationen als Teil einer einheitlichen Politik ausführt. Diese Formulierung ermöglicht es einem Agenten, der durch bestärkendes Lernen trainiert wird, die Kuratierung des Gedächtnisses gegen langfristige Aufgabenziele unter gegebenen Ressourcenbeschränkungen abzuwägen. Solche Gedächtnisbearbeitungsaktionen brechen jedoch die Standardannahme eines kontinuierlich wachsenden Präfixes in LLM-Interaktionen, was zu sogenannten Trajektorienbrüchen führt. Diese Nicht-Präfix-Änderungen stören die kausale Kontinuität, die von Standard-Policy-Gradienten-Methoden benötigt wird, und machen diese Methoden unanwendbar. Um dies zu adressieren, schlagen wir einen neuen Algorithmus vor, Dynamic Context Policy Optimization, der stabiles end-to-end bestärkendes Lernen ermöglicht, indem Trajektorien an Gedächtnisaktionspunkten segmentiert und Trajektorienebenen-Vorteile auf die resultierenden Aktionssegmente angewendet werden. Unsere Ergebnisse zeigen, dass die gemeinsame Optimierung von Aufgabenlogik und Gedächtnisverwaltung in einem end-to-end Ansatz nicht nur den gesamten Rechenaufwand reduziert, sondern auch die Aufgabenleistung verbessert, angetrieben durch adaptive Kontextkuratierungsstrategien, die auf die intrinsischen Fähigkeiten des Modells zugeschnitten sind.
Eine zentrale Herausforderung bei der Anwendung von Reinforcement Learning (RL) auf große Diffusions-Sprachmodelle (dLLMs) liegt in der Unhandhabbarkeit ihrer Wahrscheinlichkeitsfunktionen, die für das RL-Ziel entscheidend sind und entsprechende Approximationen in jedem Trainingsschritt erfordern. Während bestehende Methoden die Log-Likelihoods durch ihre Evidenzuntergrenzen (ELBOs) mittels angepasster Monte-Carlo (MC)-Stichproben approximieren, müssen die Vorwärts-Berechnungsgraphen aller MC-Stichproben für die Gradientenberechnung nichtlinearer Terme im RL-Ziel beibehalten werden, was zu erheblichem Speicheraufwand führt. Diese Einschränkung begrenzt die machbaren Stichprobengrößen, was zu ungenauen Likelihood-Approximationen und letztlich zu einer Verzerrung des RL-Ziels führt. Um diese Beschränkung zu überwinden, schlagen wir Boundary-Guided Policy Optimization (BGPO) vor, einen speichereffizienten RL-Algorithmus, der eine speziell konstruierte Untergrenze des ELBO-basierten Ziels maximiert. Diese Untergrenze ist sorgfältig entworfen, um zwei Schlüsseleigenschaften zu erfüllen: (1) Linearität: Sie wird als lineare Summe formuliert, bei der jeder Term nur von einer einzelnen MC-Stichprobe abhängt, wodurch die Gradientenakkumulation über Stichproben ermöglicht und ein konstanter Speicherverbrauch sichergestellt wird; (2) Äquivalenz: Sowohl der Wert als auch der Gradient dieser Untergrenze sind gleich denen des ELBO-basierten Ziels im On-Policy-Training, was sie auch zu einer effektiven Approximation des ursprünglichen RL-Ziels macht. Diese Eigenschaften ermöglichen es BGPO, eine große MC-Stichprobengröße zu verwenden, was zu genaueren Likelihood-Approximationen und einer verbesserten Schätzung des RL-Ziels führt, was wiederum zu einer gesteigerten Leistung beiträgt. Experimente zeigen, dass BGPO bisherige RL-Algorithmen für dLLMs bei der Lösung von mathematischen Problemen, der Codegenerierung und Planungsaufgaben deutlich übertrifft.
Multimodale Large Language Models (MLLMs) in realen Anwendungen benötigen Zugang zu externen Wissensquellen und müssen auf dynamische und sich ständig verändernde reale Informationen reagieren, um informationssuchende und wissensintensive Benutzeranfragen zu bearbeiten. Bestehende Ansätze, wie Retrieval-Augmented-Generation (RAG)-Methoden, Suchagenten und mit Suchfunktionen ausgestattete MLLMs, leiden häufig unter starren Pipelines, übermäßigen Suchanfragen und schlecht konstruierten Suchanfragen, was zu Ineffizienzen und suboptimalen Ergebnissen führt. Um diese Einschränkungen zu überwinden, stellen wir DeepMMSearch-R1 vor, den ersten multimodalen LLM, der bedarfsgesteuerte, mehrstufige Websuchen durchführen und dynamisch Suchanfragen für Bild- und Textsuchwerkzeuge erstellen kann. Insbesondere kann DeepMMSearch-R1 Websuchen basierend auf relevanten Ausschnitten des Eingabebildes initiieren, wodurch die Bildsuche effektiver wird, und textbasierte Suchanfragen iterativ an die abgerufenen Informationen anpassen, wodurch Selbstreflexion und Selbstkorrektur ermöglicht werden. Unser Ansatz basiert auf einer zweistufigen Trainingspipeline: einer Kaltstart-Supervised-Finetuning-Phase, gefolgt von einer Online-Reinforcement-Learning-Optimierung. Für das Training führen wir DeepMMSearchVQA ein, einen neuartigen multimodalen VQA-Datensatz, der durch eine automatisierte Pipeline erstellt wurde, die mit realen Informationen aus Websuchwerkzeugen angereichert ist. Dieser Datensatz enthält diverse, mehrstufige Anfragen, die textuelle und visuelle Informationen integrieren und dem Modell beibringen, wann es suchen soll, wonach es suchen soll, welches Suchwerkzeug es verwenden soll und wie es über die abgerufenen Informationen schlussfolgern soll. Wir führen umfangreiche Experimente über eine Reihe von wissensintensiven Benchmarks durch, um die Überlegenheit unseres Ansatzes zu demonstrieren. Abschließend analysieren wir die Ergebnisse und liefern Erkenntnisse, die für die Weiterentwicklung der multimodalen Websuche wertvoll sind.
Multimodale Embedding-Modelle zielen darauf ab, informative vereinheitlichte Repräsentationen zu erzeugen, die vielfältige cross-modale Aufgaben ermöglichen. Trotz vielversprechender Entwicklungen im Wandel von CLIP-basierten Dual-Tower-Architekturen hin zu großen Vision-Language-Modellen stehen frühere Arbeiten weiterhin vor unvermeidlichen Herausforderungen in realen Anwendungen und Geschäftsszenarien, wie begrenzte Modalitätsunterstützung, instabile Trainingsmechanismen und industrielle Domänenlücken. In dieser Arbeit stellen wir SAIL-Embedding vor, ein omni-modales Embedding-Foundation-Modell, das diese Probleme durch maßgeschneiderte Trainingsstrategien und Architekturdesigns adressiert. Im Optimierungsprozess schlagen wir ein mehrstufiges Trainingsschema vor, um die vielseitige Effektivität des Repräsentationslernens zu steigern. Insbesondere zielt das inhaltsbewusste progressive Training darauf ab, die Anpassungsfähigkeit des Modells an diverse Downstream-Aufgaben zu verbessern und eine bereicherte cross-modale Kompetenz zu erlangen. Das kollaborationsbewusste Empfehlungsverstärkungstraining passt multimodale Repräsentationen weiterhin für Empfehlungsszenarien an, indem Wissen aus Sequence-to-Item- und ID-to-Item-Embeddings destilliert wird, während historische Benutzerinteressen analysiert werden. Gleichzeitig entwickeln wir die stochastische Spezialisierung und datensatzgetriebene Mustererkennung, um die Flexibilität und Generalisierbarkeit des Modelltrainings zu stärken. Experimentelle Ergebnisse zeigen, dass SAIL-Embedding im Vergleich zu anderen Methoden in verschiedenen Retrieval-Aufgaben State-of-the-Art (SOTA)-Leistungen erzielt. In Online-Experimenten über verschiedene reale Szenarien, die mit unserem Modell integriert sind, beobachten wir einen signifikanten Anstieg des Lifetime (LT), einem entscheidenden Indikator für die Empfehlungserfahrung. Beispielsweise erzielt das Modell einen 7-Tage-LT-Gewinn von +0,158 % und einen 14-Tage-LT-Gewinn von +0,144 % im Douyin-Selected-Szenario. Für das Douyin-Feed-Ranking-Modell führen die von SAIL-Embedding erzeugten Match-Features zu einem AUC-Gewinn von +0,08 %.
Jüngste Fortschritte in Vision-Language-Modellen (VLMs) haben diese äußerst effektiv für Aufgaben des logischen Schließens gemacht. Dennoch sind die Prinzipien, die der Konstruktion leistungsfähiger Trainingsdatensätze für das visuell-linguistische Schließen zugrunde liegen, noch weitgehend unverstanden. In dieser Arbeit führen wir mehrere Ansätze zur Datenkuratierung ein und untersuchen deren Auswirkungen auf die Fähigkeiten des visuell-linguistischen Schließens, indem wir Trainings- und Evaluierungssetups sorgfältig kontrollieren. Wir analysieren die Effekte von Kontextquellen (Bild- und Fragepaare), implementieren gezielte Dateninterventionen und untersuchen die Skalierung von Bildern, Fragen und Chain-of-Thought (CoT)-Lösungen. Unsere Ergebnisse zeigen, dass (a) Strategien zur Kontextquelle die Leistung von VLMs signifikant beeinflussen, (b) Interventionen wie zusätzliche Signale aus Bildbeschreibungen und die Einbeziehung von textbasiertem Schließen erhebliche Verbesserungen bringen und (c) die Skalierung aller Datenbereiche (z. B. einzigartige Fragen pro Bild und einzigartige CoTs pro Bild-Frage-Paar) die Fähigkeit zum logischen Schließen konsequent verbessert. Motiviert durch diese Erkenntnisse stellen wir HoneyBee vor, einen groß angelegten, hochwertigen CoT-Schließungsdatensatz mit 2,5 Millionen Beispielen, bestehend aus 350.000 Bild-Frage-Paaren. Mit HoneyBee trainierte VLMs übertreffen state-of-the-art Modelle über alle Modellgrößen hinweg. Beispielsweise übertrifft ein mit HoneyBee trainiertes VLM mit 3B Parametern das SOTA-Modell und das Basismodell um 7,8 % bzw. 24,8 % auf MathVerse. Darüber hinaus schlagen wir eine Skalierungsstrategie zur Testzeit vor, die die Dekodierungskosten um 73 % reduziert, ohne die Genauigkeit zu beeinträchtigen. Insgesamt präsentiert diese Arbeit verbesserte Strategien für die Forschung zur Kuratierung von Datensätzen für das visuell-linguistische Schließen.
Die Multi-Instanz-Bildgenerierung (MIG) bleibt eine bedeutende Herausforderung für moderne Diffusionsmodelle, insbesondere aufgrund von zentralen Einschränkungen bei der präzisen Steuerung der Objektanordnung und der Bewahrung der Identität mehrerer unterschiedlicher Subjekte. Um diese Einschränkungen zu adressieren, stellen wir ContextGen vor, ein neuartiges Diffusion-Transformer-Framework für die Multi-Instanz-Generierung, das sowohl durch Layouts als auch durch Referenzbilder gesteuert wird. Unser Ansatz integriert zwei wesentliche technische Beiträge: einen Contextual Layout Anchoring (CLA)-Mechanismus, der das zusammengesetzte Layoutbild in den Generierungskontext einbindet, um die Objekte robust in ihren gewünschten Positionen zu verankern, und Identity Consistency Attention (ICA), einen innovativen Aufmerksamkeitsmechanismus, der kontextuelle Referenzbilder nutzt, um die Identitätskonsistenz mehrerer Instanzen sicherzustellen. Angesichts des Mangels an groß angelegten, hierarchisch strukturierten Datensätzen für diese Aufgabe führen wir IMIG-100K ein, den ersten Datensatz mit detaillierten Layout- und Identitätsannotationen. Umfangreiche Experimente zeigen, dass ContextGen einen neuen Stand der Technik setzt und bestehende Methoden in Bezug auf Steuerungspräzision, Identitätstreue und Gesamtbildqualität übertrifft.
Der Fortschritt in der KI wird durch das Fehlen einer Programmiersprache mit allen erforderlichen Funktionen behindert. Bibliotheken wie PyTorch und TensorFlow bieten automatische Differenzierung und effiziente GPU-Implementierung, sind jedoch Ergänzungen zu Python, das nie für KI konzipiert wurde. Ihr Mangel an Unterstützung für automatisiertes Schließen und Wissenserwerb hat zu einer langen und kostspieligen Reihe von improvisierten Versuchen geführt, diese Funktionen nachträglich hinzuzufügen. Andererseits fehlt es KI-Sprachen wie LISP und Prolog an Skalierbarkeit und Unterstützung für Lernprozesse. Dieses Papier schlägt Tensorlogik vor, eine Sprache, die diese Probleme löst, indem sie neuronale und symbolische KI auf einer grundlegenden Ebene vereint. Das einzige Konstrukt in der Tensorlogik ist die Tensorgleichung, basierend auf der Beobachtung, dass logische Regeln und die Einstein-Summation im Wesentlichen die gleiche Operation sind und alles andere darauf reduziert werden kann. Ich zeige, wie sich Schlüsselformen der neuronalen, symbolischen und statistischen KI elegant in Tensorlogik implementieren lassen, einschließlich Transformer, formales Schließen, Kernel-Methoden und graphische Modelle. Am wichtigsten ist, dass Tensorlogik neue Richtungen ermöglicht, wie etwa sicheres Schließen im Einbettungsraum. Dies kombiniert die Skalierbarkeit und Lernfähigkeit neuronaler Netze mit der Zuverlässigkeit und Transparenz symbolischen Schließens und könnte eine Grundlage für die breitere Akzeptanz von KI darstellen.
Das Verständnis der Dynamik einer physischen Szene erfordert die Analyse der vielfältigen Möglichkeiten, wie sie sich potenziell verändern kann, insbesondere als Folge lokaler Interaktionen. Wir stellen den Flow Poke Transformer (FPT) vor, ein neuartiges Framework zur direkten Vorhersage der Verteilung lokaler Bewegungen, bedingt durch spärliche Interaktionen, die als "Pokes" bezeichnet werden. Im Gegensatz zu traditionellen Methoden, die typischerweise nur eine dichte Abtastung einer einzigen Realisierung der Szenendynamik ermöglichen, bietet FPT eine interpretierbare, direkt zugängliche Darstellung multimodaler Szenenbewegungen, deren Abhängigkeit von physischen Interaktionen und die inhärenten Unsicherheiten der Szenendynamik. Wir evaluieren unser Modell auch in mehreren nachgelagerten Aufgaben, um Vergleiche mit früheren Methoden zu ermöglichen und die Flexibilität unseres Ansatzes hervorzuheben. Bei der Erzeugung dichter Gesichtsbewegungen übertrifft unser generisch vortrainiertes Modell spezialisierte Baselines. FPT kann in stark außerhalb der Verteilung liegenden Aufgaben, wie synthetischen Datensätzen, feinabgestimmt werden, um signifikante Verbesserungen gegenüber in-domain Methoden bei der Schätzung der Bewegung artikulierter Objekte zu ermöglichen. Darüber hinaus ermöglicht die direkte Vorhersage expliziter Bewegungsverteilungen unserem Modell, wettbewerbsfähige Leistungen bei Aufgaben wie der Segmentierung beweglicher Teile aus Pokes zu erzielen, was die Vielseitigkeit unseres FPT weiter unterstreicht. Code und Modelle sind öffentlich verfügbar unter https://compvis.github.io/flow-poke-transformer.
Instruktionsbasierte Bildbearbeitung bietet eine leistungsstarke und intuitive Möglichkeit, Bilder durch natürliche Sprache zu manipulieren. Dennoch beschränkt die alleinige Verwendung von Textanweisungen die feinkörnige Kontrolle über das Ausmaß der Bearbeitungen. Wir stellen Kontinuous Kontext vor, ein instruktionsgesteuertes Bearbeitungsmodell, das eine neue Dimension der Kontrolle über die Bearbeitungsstärke bietet und es Benutzern ermöglicht, Bearbeitungen schrittweise von keiner Veränderung bis hin zu einem vollständig realisierten Ergebnis auf glatte und kontinuierliche Weise anzupassen. Kontinuous Kontext erweitert ein modernes Bildbearbeitungsmodell, um einen zusätzlichen Eingabewert, eine skalare Bearbeitungsstärke, zu akzeptieren, die dann mit der Bearbeitungsanweisung kombiniert wird und eine explizite Kontrolle über das Ausmaß der Bearbeitung ermöglicht. Um diese skalare Information einzubringen, trainieren wir ein leichtgewichtiges Projektionsnetzwerk, das den Eingabewert und die Bearbeitungsanweisung auf Koeffizienten im Modulationsraum des Modells abbildet. Für das Training unseres Modells synthetisieren wir einen vielfältigen Datensatz von Bild-Bearbeitungsanweisungs-Stärke-Vierlingen mithilfe bestehender generativer Modelle, gefolgt von einer Filterungsphase, um Qualität und Konsistenz sicherzustellen. Kontinuous Kontext bietet einen einheitlichen Ansatz für die feinkörnige Kontrolle über die Bearbeitungsstärke bei instruktionsgesteuerter Bearbeitung, von subtil bis stark, über diverse Operationen wie Stilisierung, Attribut-, Material-, Hintergrund- und Formveränderungen hinweg, ohne dass attributspezifisches Training erforderlich ist.
Wir untersuchen, wie große Sprachmodelle (LLMs) „denken“, indem wir ihren Repräsentationsraum analysieren. Wir schlagen ein neuartiges geometrisches Framework vor, das das Schlussfolgern eines LLMs als Flüsse modelliert – als sich entwickelnde Einbettungstrajektorien, die der Logik folgen. Wir trennen die logische Struktur von der Semantik, indem wir dieselben natürlichen Deduktionsaussagen mit variierenden semantischen Trägern verwenden, was es uns ermöglicht zu testen, ob LLMs Logik über die Oberflächenform hinaus internalisieren. Diese Perspektive verbindet das Schlussfolgern mit geometrischen Größen wie Position, Geschwindigkeit und Krümmung und ermöglicht eine formale Analyse in Repräsentations- und Konzepträumen. Unsere Theorie stellt fest: (1) Das Schlussfolgern von LLMs entspricht glatten Flüssen im Repräsentationsraum, und (2) logische Aussagen wirken als lokale Steuerungselemente für die Geschwindigkeiten dieser Flüsse. Mithilfe gelerntener Repräsentationsproxys entwerfen wir kontrollierte Experimente, um Schlussfolgerungsflüsse zu visualisieren und zu quantifizieren, und liefern damit eine empirische Validierung unseres theoretischen Frameworks. Unsere Arbeit dient sowohl als konzeptionelle Grundlage als auch als praktisches Werkzeug zur Untersuchung von Phänomenen des Schlussfolgerns und bietet eine neue Perspektive für die Interpretierbarkeit und formale Analyse des Verhaltens von LLMs.
In einem idealen Designprozess ist das User Interface (UI)-Design eng mit der Nutzerforschung verflochten, um Entscheidungen zu validieren, doch sind Studien in der frühen Explorationsphase oft ressourcenbeschränkt. Jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) bieten eine vielversprechende Möglichkeit, als frühe Evaluatoren zu fungieren und Designer dabei zu unterstützen, Optionen vor der formalen Testphase einzugrenzen. Im Gegensatz zu früheren Arbeiten, die das Nutzerverhalten in engen Domänen wie dem E-Commerce mit Metriken wie Klicks oder Konversionen betonen, konzentrieren wir uns auf subjektive Nutzerbewertungen über verschiedene Interfaces hinweg. Wir untersuchen, ob MLLMs menschliche Präferenzen nachahmen können, wenn sie einzelne UIs bewerten und vergleichen. Unter Verwendung von Daten einer Crowdsourcing-Plattform benchmarken wir GPT-4o, Claude und Llama über 30 Interfaces hinweg und untersuchen die Übereinstimmung mit menschlichen Bewertungen in Bezug auf mehrere UI-Faktoren. Unsere Ergebnisse zeigen, dass MLLMs menschliche Präferenzen in einigen Dimensionen annähern, in anderen jedoch abweichen, was sowohl ihr Potenzial als auch ihre Grenzen bei der Ergänzung früher UX-Forschung unterstreicht.
Die Modellierung einer symbolischen Welt erfordert das Ableiten und Darstellen der Übergangsdynamik einer Umgebung als ausführbares Programm. Bisherige Arbeiten konzentrierten sich weitgehend auf deterministische Umgebungen mit reichlich Interaktionsdaten, einfachen Mechaniken und menschlicher Anleitung. Wir behandeln eine realistischere und herausforderndere Situation, in der ein Agent in einer komplexen, stochastischen Umgebung lernt, in der er nur „ein Leben“ hat, um eine feindliche Umgebung ohne menschliche Anleitung zu erkunden. Wir stellen OneLife vor, ein Framework, das die Dynamik der Welt durch bedingt aktivierte programmatische Gesetze innerhalb eines probabilistischen Programmierframeworks modelliert. Jedes Gesetz operiert über eine Struktur aus Vorbedingung und Wirkung und wird in relevanten Weltzuständen aktiviert. Dadurch entsteht ein dynamischer Berechnungsgraph, der Inferenz und Optimierung nur über relevante Gesetze leitet, wodurch Skalierungsprobleme vermieden werden, wenn alle Gesetze zu Vorhersagen über einen komplexen, hierarchischen Zustand beitragen, und das Lernen stochastischer Dynamik auch bei spärlicher Regelaktivierung ermöglicht wird. Um unseren Ansatz unter diesen anspruchsvollen Bedingungen zu bewerten, führen wir ein neues Bewertungsprotokoll ein, das (a) die Zustandsrangfolge, die Fähigkeit, plausible zukünftige Zustände von unplausiblen zu unterscheiden, und (b) die Zustandstreue, die Fähigkeit, zukünftige Zustände zu erzeugen, die der Realität sehr nahekommen, misst. Wir entwickeln und bewerten unser Framework auf Crafter-OO, unserer Neuimplementierung der Crafter-Umgebung, die einen strukturierten, objektorientierten symbolischen Zustand und eine reine Übergangsfunktion offenlegt, die ausschließlich auf diesem Zustand operiert. OneLife kann erfolgreich Schlüsseldynamiken der Umgebung aus minimaler, ungeleiteter Interaktion lernen und übertrifft eine starke Baseline in 16 von 23 getesteten Szenarien. Wir testen auch die Planungsfähigkeit von OneLife, wobei simulierte Rollouts erfolgreich überlegene Strategien identifizieren. Unsere Arbeit legt eine Grundlage für die autonome Konstruktion programmatischer Weltmodelle unbekannter, komplexer Umgebungen.
Große Reasoning-Modelle (LRMs) haben neue Möglichkeiten in Bezug auf die Problemlösung eröffnet, indem sie einen natürlichen Sprachdenkprozess entwickeln, bevor sie eine Anfrage beantworten. Während ihre Fähigkeiten in Mathematik- und Programmieraufgaben bekannt sind, bleibt ihre Auswirkung auf die Aufgabe der maschinellen Übersetzung (MT) weitgehend unerforscht. In dieser Arbeit untersuchen wir die Vorteile der Erzeugung von Zwischentoken bei der Durchführung von MT über mehrere Sprachpaare mit unterschiedlichem Ressourcenniveau und in verschiedenen Konfigurationen. Wir stellen fest, dass „Denk-Token“ LRMs nicht dabei helfen, MT besser durchzuführen. Dieses Ergebnis verallgemeinert sich auf Modelle, die feinabgestimmt wurden, um vor dem Übersetzen zu „reasonen“, wobei ein destillierter Chain of Thought (CoT) verwendet wird, der von den Praktiken menschlicher Übersetzer inspiriert ist. Insbesondere übertrifft das Feinabstimmen eines Modells mit synthetischen CoT-Erklärungen, die detailliert beschreiben, wie Schritt für Schritt übersetzt wird, das Standard-Feinabstimmen von Eingabe-Ausgabe-Paaren nicht. Die Konstruktion der Zwischentoken durch die Kombination der Ausgaben modularer, übersetzungsspezifischer Prompting-Strategien führt jedoch zu Verbesserungen. Unsere Ergebnisse unterstreichen, dass der Beitrag von Zwischentoken während des Feinabstimmens stark davon abhängt, ob Übersetzungsversuche in ihnen enthalten sind. Allgemeiner deuten unsere Ergebnisse darauf hin, dass die Verwendung eines Lehrers zur Verfeinerung von Zielübersetzungen oder zur Erweiterung paralleler Korpora wirkungsvoller ist, als deren CoT-Erklärungen in „denkende“ MT-Modelle zu destillieren.
Wir stellen Cautious Weight Decay (CWD) vor, eine einzeilige, optimiererunabhängige Modifikation, die Gewichtsverfall nur auf Parameterkoordinaten anwendet, deren Vorzeichen mit dem Optimierer-Update übereinstimmen. Im Gegensatz zum standardmäßigen entkoppelten Verfall, der implizit ein regularisiertes oder beschränktes Ziel optimiert, bewahrt CWD den ursprünglichen Verlust und lässt eine zweistufige Interpretation zu: Es induziert ein Gleitmodusverhalten beim Erreichen der stationären Mannigfaltigkeit, wodurch es ermöglicht wird, lokal Pareto-optimale stationäre Punkte des unveränderten Ziels zu suchen. In der Praxis ist CWD eine direkte Änderung für Optimierer wie AdamW, Lion und Muon, die keine neuen Hyperparameter oder zusätzliche Anpassungen erfordert. Für das Vortraining von Sprachmodellen und die ImageNet-Klassifizierung verbessert CWD kontinuierlich den endgültigen Verlust und die Genauigkeit bei Millionen- bis Milliarden-Parameter-Skalen.
Große Sprachmodell-Agenten (LLM) sind grundsätzlich durch die Kontextlänge bei langfristigen Aufgaben eingeschränkt. Wir stellen Context-Folding vor, ein Framework, das Agenten befähigt, ihren Arbeitskontext aktiv zu verwalten. Ein Agent kann prozedural in eine Untertrajektorie verzweigen, um eine Teilaufgabe zu bearbeiten, und diese nach Abschluss falten, wobei die Zwischenschritte zusammengefasst werden, während eine prägnante Zusammenfassung des Ergebnisses erhalten bleibt. Um dieses Verhalten erlernbar zu machen, entwickeln wir ein end-to-end Reinforcement-Learning-Framework namens FoldGRPO mit spezifischen Prozessbelohnungen, die eine effektive Aufgabenzerlegung und Kontextverwaltung fördern. Bei komplexen, langfristigen Aufgaben (Deep Research und SWE) erreicht unser Folding-Agent vergleichbare oder bessere Ergebnisse als die ReAct-Baselines, während er einen aktiven Kontext verwendet, der 10-mal kleiner ist, und deutlich besser abschneidet als Modelle, die auf zusammenfassungsbasierte Kontextverwaltung angewiesen sind.
Kürzlich wurden Large Language Models (LLMs) zur Entdeckung wissenschaftlicher Gleichungen eingesetzt, wobei ihr eingebettetes wissenschaftliches Wissen zur Hypothesengenerierung genutzt wurde. Allerdings beschränken aktuelle Methoden LLMs typischerweise auf die Rolle eines Gleichungsvorschlagsgebers innerhalb von Suchalgorithmen wie der genetischen Programmierung. In diesem Artikel stellen wir SR-Scientist vor, ein Framework, das den LLM von einem einfachen Gleichungsvorschlagsgeber zu einem autonomen KI-Wissenschaftler erhebt, der Code schreibt, um Daten zu analysieren, die Gleichung als Code zu implementieren, sie zur Bewertung einzureichen und die Gleichung basierend auf experimentellem Feedback zu optimieren. Konkret integrieren wir den Code-Interpreter in eine Reihe von Werkzeugen für die Datenanalyse und Gleichungsbewertung. Der Agent wird angewiesen, die Gleichung durch die Nutzung dieser Werkzeuge über einen langen Zeitraum mit minimalen, vom Menschen definierten Pipelines zu optimieren. Empirische Ergebnisse zeigen, dass SR-Scientist Baseline-Methoden mit einem absoluten Vorsprung von 6 % bis 35 % auf Datensätzen aus vier wissenschaftlichen Disziplinen übertrifft. Zudem demonstrieren wir die Robustheit unserer Methode gegenüber Rauschen, die Generalisierbarkeit der entdeckten Gleichungen auf außerhalb der Domäne liegende Daten sowie deren symbolische Genauigkeit. Darüber hinaus entwickeln wir ein end-to-end Reinforcement-Learning-Framework, um die Fähigkeiten des Agents zu erweitern.
Wir untersuchen das Feintuning von Reinforcement Learning (RL) für große Sprachmodell-Agenten (LLM) im Kontext von langfristigem, mehrstufigem Werkzeugeinsatz, bei dem die Kontextlänge schnell zu einem grundlegenden Engpass wird. Bestehende RL-Pipelines können unter einer Verschlechterung der Befolgung von Anweisungen, übermäßigen Rollout-Kosten und vor allem strengen Kontextgrenzen leiden. Um diese Herausforderungen zu bewältigen, führen wir eine zusammenfassungsbasierte Kontextverwaltung in das Training ein. Diese komprimiert periodisch die Werkzeugnutzungshistorie durch LLM-generierte Zusammenfassungen, die aufgabenrelevante Informationen beibehalten, um einen kompakten Kontext zu bewahren und gleichzeitig den Agenten zu ermöglichen, über das feste Kontextfenster hinaus zu skalieren. Aufbauend auf dieser Formulierung leiten wir eine Policy-Gradient-Darstellung ab, die es ermöglicht, bestehende LLM-RL-Infrastrukturen nahtlos zu nutzen, um sowohl Werkzeugnutzungsverhalten als auch Zusammenfassungsstrategien end-to-end zu optimieren. Wir implementieren diesen Rahmen mit SUmmarization augmented Policy Optimization (SUPO), einem LLM-RL-Algorithmus, der langfristiges Training über eine feste Kontextgrenze hinaus ermöglicht. Experimente zu interaktiven Funktionsaufrufen und Suchaufgaben zeigen, dass SUPO die Erfolgsrate signifikant verbessert, während die Arbeitskontextlänge im Vergleich zu Baselines gleich oder sogar geringer bleibt. Wir zeigen außerdem, dass SUPO bei komplexen Suchaufgaben die Evaluationsleistung weiter verbessern kann, wenn die maximale Zusammenfassungsrunde zur Testzeit über die der Trainingszeit hinaus skaliert wird. Unsere Ergebnisse etablieren die zusammenfassungsbasierte Kontextverwaltung als einen prinzipiellen und skalierbaren Ansatz für das Training von RL-Agenten über eine feste Kontextlängengrenze hinaus.
Multimodale Large Language Models (MLLMs) bergen das Potenzial, wissenschaftliche Entdeckungen zu beschleunigen, indem sie komplexe experimentelle Verfahren interpretieren. Ihre tatsächlichen Fähigkeiten sind jedoch kaum verstanden, da bestehende Benchmarks die feingranulare und langfristige Natur authentischer Laborarbeit, insbesondere in Nasslabors, vernachlässigen. Um diese Lücke zu schließen, stellen wir ExpVid vor, den ersten Benchmark, der systematisch die Leistung von MLLMs anhand von wissenschaftlichen Experimentvideos bewertet. ExpVid, das aus peer-reviewed Video-Publikationen kuratiert wurde, verfügt über eine neue dreistufige Aufgabenhierarchie, die den wissenschaftlichen Prozess widerspiegelt: (1) Fein granulare Wahrnehmung von Werkzeugen, Materialien und Handlungen; (2) Prozedurales Verständnis der Schrittreihenfolge und Vollständigkeit; und (3) Wissenschaftliches Denken, das das gesamte Experiment mit seinen veröffentlichten Schlussfolgerungen verbindet. Unsere visuell-zentrierte Annotationspipeline, die automatisierte Generierung mit multidisziplinärer Expertenvalidierung kombiniert, stellt sicher, dass die Aufgaben visuelle Verankerung erfordern. Wir evaluieren 19 führende MLLMs anhand von ExpVid und stellen fest, dass sie zwar bei grobkörniger Erkennung exzellent abschneiden, jedoch Schwierigkeiten haben, feine Details zu unterscheiden, Zustandsänderungen über die Zeit zu verfolgen und experimentelle Verfahren mit wissenschaftlichen Ergebnissen zu verknüpfen. Unsere Ergebnisse zeigen eine bemerkenswerte Leistungslücke zwischen proprietären und Open-Source-Modellen, insbesondere bei höherer Ordnung des Denkens. ExpVid bietet nicht nur ein Diagnosewerkzeug, sondern skizziert auch einen Fahrplan für die Entwicklung von MLLMs, die zu vertrauenswürdigen Partnern in der wissenschaftlichen Experimentation werden können.
Datenkontamination stellt eine erhebliche Bedrohung für die zuverlässige Bewertung von Large Language Models (LLMs) dar. Dieses Problem tritt auf, wenn Benchmark-Proben versehentlich in Trainingsdatensätzen auftauchen, was die Gültigkeit der berichteten Leistung beeinträchtigt. Während für die Vorverarbeitungs- und Supervised Fine-Tuning-Phasen bereits Methoden zur Erkennung entwickelt wurden, besteht eine kritische Forschungslücke für die zunehmend bedeutende Phase des Reinforcement Learning (RL) nach dem Training. Da RL nach dem Training entscheidend für die Weiterentwicklung der Argumentationsfähigkeit von LLMs ist, stellt das Fehlen spezialisierter Methoden zur Erkennung von Kontaminationen in diesem Paradigma eine kritische Schwachstelle dar. Um dies zu beheben, führen wir die erste systematische Studie zur Datenerkennung im Kontext von RL nach dem Training durch und schlagen Self-Critique vor. Unsere Methode basiert auf einer zentralen Beobachtung: Nach der RL-Phase neigt die Entropieverteilung der Ausgaben von LLMs dazu, in hochspezifische und spärliche Modi zusammenzubrechen. Self-Critique untersucht den zugrunde liegenden Zusammenbruch der Strategie, d. h. die Konvergenz des Modells auf einen engen Argumentationspfad, der diese Entropiereduktion verursacht. Um diese Forschung zu unterstützen, führen wir auch RL-MIA ein, einen Benchmark, der konstruiert wurde, um dieses spezifische Kontaminationsszenario zu simulieren. Umfangreiche Experimente zeigen, dass Self-Critique Baseline-Methoden bei mehreren Modellen und Kontaminationsaufgaben deutlich übertrifft und eine AUC-Verbesserung von bis zu 30 % erreicht. Während bestehende Methoden bei RL-Phasen-Kontamination nahezu zufällige Ergebnisse liefern, ermöglicht unsere Methode eine zuverlässige Erkennung.
Bestehende Multimodale Große Sprachmodelle (MLLMs) leiden unter erhöhten Inferenzkosten aufgrund der zusätzlichen Vision-Tokens, die durch Bildinputs eingeführt werden. In dieser Arbeit schlagen wir Visual Consistency Learning (ViCO) vor, einen neuartigen Trainingsalgorithmus, der es dem Modell ermöglicht, Bilder unterschiedlicher semantischer Komplexität mit einer variierenden Anzahl von Vision-Tokens darzustellen. Die zentrale Idee unserer Methode besteht darin, mehrere MLP-Connectors mit unterschiedlichen Bildkompressionsraten zu verwenden, um die Vision-Tokens basierend auf der semantischen Komplexität des Bildes herunterzurechnen. Während des Trainings minimieren wir die KL-Divergenz zwischen den Antworten, die auf verschiedenen MLP-Connectors basieren. Zur Inferenzzeit führen wir einen Bild-Router ein, den wir als Visual Resolution Router (ViR) bezeichnen, der automatisch die geeignete Kompressionsrate für jeden Bildausschnitt auswählt. Im Vergleich zu bestehenden dynamischen Hochauflösungsstrategien, die die Anzahl der visuellen Tokens basierend auf der Bildauflösung anpassen, passt unsere Methode die Anzahl der visuellen Tokens dynamisch entsprechend der semantischen Komplexität an. Experimentelle Ergebnisse zeigen, dass unsere Methode die Anzahl der Vision-Tokens um bis zu 50 % reduzieren kann, während die Wahrnehmungs-, Schlussfolgerungs- und OCR-Fähigkeiten des Modells erhalten bleiben. Wir hoffen, dass diese Arbeit zur Entwicklung effizienterer MLLMs beitragen wird. Der Code und die Modelle werden veröffentlicht, um zukünftige Forschung zu erleichtern.
Jüngste Fortschritte im Bereich des langen Ketten-denken (Chain-of-Thought, CoT) haben sich weitgehend auf die Genauigkeit der Antworten und die Effizienz der Token-Nutzung konzentriert, während Aspekte, die für die Vertrauenswürdigkeit entscheidend sind, vernachlässigt wurden. Wir argumentieren, dass nutzbare Denksysteme vertrauenswürdig sein müssen, was durch drei Eigenschaften gekennzeichnet ist: Interpretierbarkeit, Treue und Zuverlässigkeit. Zu diesem Zweck schlagen wir ReFIne vor, ein neues Trainingsframework, das überwachtes Feintuning mit GRPO kombiniert, um Modelle dazu zu ermutigen: (i) die Interpretierbarkeit zu verbessern, indem strukturierte, tag-basierte Spuren mit hochrangiger Planung erzeugt werden, die für Menschen leichter nachzuvollziehen sind; (ii) die Treue zu erhöhen, indem die entscheidenden Informationen, die jede Lösung leiten, explizit offengelegt werden, mit konsistenten Querschnittsreferenzen; und (iii) die Zuverlässigkeit zu fördern, indem Selbstbewertungen sowohl der Schlüssigkeit der Ableitung als auch des Vertrauens in die endgültige Antwort bereitgestellt werden. Wir wenden ReFIne auf die Qwen3-Modelle in verschiedenen Größen (1,7B/4B/8B) an und evaluieren sie anhand mathematischer Benchmarks mit unterschiedlichem Schwierigkeitsgrad. Unsere experimentellen Ergebnisse zeigen, dass ReFIne-Modelle klarere und besser strukturierte Denkspuren erzeugen (Interpretierbarkeit +44,0%), ihren zugrunde liegenden Entscheidungsprozess treuer offenlegen (Treue +18,8%) und informative Vertrauensschätzungen bieten (Zuverlässigkeit +42,4%). Diese Ergebnisse unterstreichen eine übersehene, aber wichtige Richtung: Denkmodelle sollten nicht nur auf Genauigkeit, sondern auch auf breitere Dimensionen der Vertrauenswürdigkeit optimiert werden. Unser Code ist verfügbar unter: https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine
Zeitreihenvorhersage (Time Series Forecasting, TSF) bleibt eine herausfordernde und weitgehend ungelöste Problemstellung im Bereich des maschinellen Lernens, trotz erheblicher jüngster Bemühungen, die auf Large Language Models (LLMs) setzen, die hauptsächlich auf Transformer-Architekturen basieren. Empirische Belege zeigen konsequent, dass selbst leistungsstarke Transformer oft nicht in der Lage sind, deutlich einfachere Modelle, wie z. B. lineare Modelle, bei TSF-Aufgaben zu übertreffen; jedoch bleibt ein rigoroses theoretisches Verständnis dieses Phänomens begrenzt. In diesem Artikel liefern wir eine theoretische Analyse der Grenzen von Transformern für TSF durch die Linse der In-Context Learning (ICL)-Theorie. Konkret zeigen wir unter AR(p)-Daten, dass: (1) Lineare Self-Attention (LSA)-Modelle keinen geringeren erwarteten mittleren quadratischen Fehler (MSE) als klassische lineare Modelle für die In-Context-Vorhersage erreichen können; (2) wenn die Kontextlänge gegen unendlich strebt, sich LSA asymptotisch dem optimalen linearen Prädiktor annähert; und (3) bei Chain-of-Thought (CoT)-artiger Inferenz die Vorhersagen exponentiell zum Mittelwert kollabieren. Wir validieren diese Erkenntnisse empirisch durch sorgfältig konzipierte Experimente. Unsere Theorie beleuchtet nicht nur mehrere bisher unzureichend erforschte Phänomene, sondern bietet auch praktische Einblicke für die Gestaltung effektiverer Vorhersagearchitekturen. Wir hoffen, dass unsere Arbeit die breitere Forschungsgemeinschaft dazu anregt, die grundlegenden theoretischen Grenzen der TSF neu zu betrachten und die direkte Anwendung zunehmend komplexer Architekturen ohne tiefergehende Prüfung kritisch zu hinterfragen.
Jüngste Fortschritte bei Large Language Models (LLMs) zeigen, dass die Verlängerung von Denkketten die Leistung bei komplexen Aufgaben erheblich verbessert. Während die Offenlegung dieser Denkspuren es Nutzern ermöglicht, den Problemlösungsprozess des Modells besser zu verfolgen, zu überprüfen und daraus zu lernen, macht sie diese auch stark anfällig für unbefugte Destillation. Um dieses Risiko zu mindern, setzen Anbieter proprietärer Modelle oft aggressive Schutzstrategien ein, wie z. B. das Ersetzen detaillierter Denkschritte durch kurze Zusammenfassungen, wodurch Nutzer wertvolle Zwischeninformationen verlieren. Um diesen Kompromiss zu adressieren, schlagen wir PART vor, eine informationserhaltende Antidestillationsreformulierung von Denkspuren. Motiviert durch den Unterschied zwischen der Art und Weise, wie Menschen Denkspuren verstehen, und der Art und Weise, wie LLMs sie für überwachtes Feinabstimmen nutzen, entwerfen wir eine einfache, aber effektive zweistufige Reformulierung: das Entfernen von Selbstgesprächen und das Neuordnen von Teilkonklusionen. Ein kleines Hilfsmodell wird trainiert, um diese Reformulierung durchzuführen, was nur minimalen Rechenaufwand verursacht. Umfangreiche Experimente zeigen, dass PART die Destillation bei Schülermodellen unterschiedlicher Größe und Art auf verschiedenen Denkbenchmarks konsequent stört. Beispielsweise sinkt die Leistung eines großen 32B-Schülermodells beim Training mit reformulierten Spuren von 54,17 auf 46,88 bei AIME 2024, was einer Verschlechterung von 13,5 % entspricht.
Chatbot-Anbieter (z. B. OpenAI) setzen auf gestaffelte Abonnementmodelle, um Einnahmen zu generieren, indem sie Basismodelle für kostenlose Nutzer und erweiterte Modelle für zahlende Abonnenten anbieten. Ein feiner abgestuftes Bezahl-zu-Freischalten-Schema für Premium-Funktionen (z. B. Mathematik, Programmierung) wird jedoch als wirtschaftlich tragfähiger für die Anbieter angesehen. Ein solches Schema erfordert eine Feature-Sperrtechnik (FLoTE), die (i) effektiv gesperrte Funktionen verweigert, (ii) die Nutzbarkeit freigeschalteter Funktionen erhält, (iii) robust gegen Umgehung oder unbefugte Weitergabe von Zugangsdaten ist und (iv) skalierbar für mehrere Funktionen und Nutzer ist. Bisherige FLoTEs (z. B. passwortgeschützte Modelle) sind jedoch weder robust noch skalierbar. Wir stellen Locket vor, die erste robuste und skalierbare FLoTE, die Bezahl-zu-Freischalten-Schemata ermöglicht. Locket verwendet einen neuartigen Merging-Ansatz, um Adapter an ein LLM anzuhängen, um unbefugte Funktionen zu verweigern. Unsere umfassende Auswertung zeigt, dass Locket effektiv (100 % Verweigerung bei gesperrten Funktionen), nutzungsbewahrend (≤ 7 % Nutzungseinbußen bei freigeschalteten Funktionen), robust (≤ 5 % Angriffserfolgsrate) und skalierbar für mehrere Funktionen und Clients ist.
Kürzlich entwickelte, auf logischem Denken basierende Sicherheitsvorkehrungen für Large Reasoning Models (LRMs), wie beispielsweise deliberative Ausrichtung, haben eine starke Abwehr gegen Jailbreak-Angriffe gezeigt. Indem sie die Fähigkeit der LRMs zum logischen Denken nutzen, helfen diese Sicherheitsvorkehrungen den Modellen, die Sicherheit von Benutzereingaben zu bewerten, bevor sie endgültige Antworten generieren. Die leistungsstarke Fähigkeit zum logischen Denken kann die Absicht der Eingabeabfrage analysieren und wird die Unterstützung verweigern, sobald sie die schädliche Absicht erkennt, die durch die Jailbreak-Methoden verborgen wird. Solche Sicherheitsvorkehrungen haben eine signifikante Verbesserung der Abwehr gezeigt, wie beispielsweise nahezu perfekte Verweigerungsraten bei der Open-Source-gpt-oss-Serie. Leider stellen wir fest, dass diese leistungsstarken, auf logischem Denken basierenden Sicherheitsvorkehrungen äußerst anfällig für subtile Manipulationen der Eingabeaufforderungen sein können und, sobald sie übernommen wurden, zu noch schädlicheren Ergebnissen führen können. Insbesondere decken wir zunächst einen überraschend fragilen Aspekt dieser Sicherheitsvorkehrungen auf: Das einfache Hinzufügen einiger Vorlagen-Tokens zur Eingabeaufforderung kann die scheinbar leistungsstarken Sicherheitsvorkehrungen erfolgreich umgehen und zu expliziten und schädlichen Antworten führen. Um weiter zu forschen, führen wir eine Sammlung von Jailbreak-Methoden ein, die die auf logischem Denken basierenden Sicherheitsvorkehrungen untergraben. Unsere Angriffe umfassen White-, Gray- und Black-Box-Szenarien und reichen von mühelosen Vorlagenmanipulationen bis hin zu vollständig automatisierten Optimierungen. Neben dem Potenzial für skalierbare Implementierungen erreichen diese Methoden auch alarmierend hohe Angriffserfolgsraten (z. B. über 90 % über 5 verschiedene Benchmarks der gpt-oss-Serie sowohl bei lokalen Host-Modellen als auch bei Online-API-Diensten). Bewertungen über verschiedene führende Open-Source-LRMs bestätigen, dass diese Schwachstellen systemisch sind, was die dringende Notwendigkeit stärkerer Ausrichtungstechniken für Open-Source-LRMs zur Verhinderung böswilligen Missbrauchs unterstreicht. Der Code ist unter https://chenxshuo.github.io/bag-of-tricks Open Source verfügbar.
Wir stellen SynthID-Image vor, ein auf Deep Learning basierendes System zur unsichtbaren Wasserzeichenkennzeichnung von KI-generierten Bildern. Dieses Papier dokumentiert die technischen Anforderungen, Bedrohungsmodelle und praktischen Herausforderungen bei der Implementierung eines solchen Systems im Internetmaßstab und behandelt dabei zentrale Anforderungen wie Wirksamkeit, Treue, Robustheit und Sicherheit. SynthID-Image wurde verwendet, um über zehn Milliarden Bilder und Videoframes in den Diensten von Google zu kennzeichnen, und der entsprechende Verifizierungsdienst steht vertrauenswürdigen Testern zur Verfügung. Der Vollständigkeit halber präsentieren wir eine experimentelle Bewertung einer externen Modellvariante, SynthID-O, die über Partnerschaften verfügbar ist. Wir vergleichen SynthID-O mit anderen nachträglichen Wasserzeichenmethoden aus der Literatur und zeigen dabei Spitzenleistungen sowohl in Bezug auf die visuelle Qualität als auch auf die Robustheit gegenüber gängigen Bildveränderungen. Während sich diese Arbeit auf visuelle Medien konzentriert, lassen sich die Schlussfolgerungen zu Implementierung, Einschränkungen und Bedrohungsmodellierung auf andere Modalitäten, einschließlich Audio, übertragen. Dieses Papier bietet eine umfassende Dokumentation für die großflächige Implementierung von Deep Learning-basierten Systemen zur Medienherkunft.
Kontrastives Audio-Sprache-Pretraining erzeugt leistungsstarke gemeinsame Repräsentationen, doch eine anhaltende Kluft zwischen den Audio-Text-Modalitäten begrenzt die Vorteile der Kopplung multimodaler Encoder mit großen Sprachmodellen (LLMs). Wir stellen Diffusion-Link vor, ein diffusionsbasiertes Modul zur Überbrückung von Modalitäten, das Audio-Embeddings generativ in die Text-Embedding-Verteilung abbildet. Das Modul wird an den Ausgabe-Embeddings des eingefrorenen multimodalen Encoders trainiert und als leichtgewichtiges Netzwerk mit drei residualen MLP-Blöcken implementiert. Um die Auswirkung von Diffusion-Link auf die Kopplung von multimodalen Encodern und LLMs zu bewerten, evaluieren wir es im Bereich der automatischen Audio-Beschreibung (AAC); unseres Wissens ist dies die erste Anwendung diffusionsbasierter Modalitätsüberbrückung in der AAC. Wir berichten zwei Ergebnisse. (1) Analyse der Modalitätskluft: Diffusion-Link reduziert die Modalitätskluft am stärksten im Vergleich zu früheren diffusionsbasierten Methoden und zeigt eine kollektive Migration von Audio-Embeddings in Richtung der Textverteilung, basierend auf Ähnlichkeits- und geometrischen Kriterien. (2) Downstream-AAC: Die Anbindung von Diffusion-Link an denselben multimodalen LLM-Baseline erreicht State-of-the-Art-Ergebnisse auf AudioCaps sowohl im Zero-Shot- als auch im vollständig überwachten Beschreibungsmodus ohne externes Wissen, mit relativen Gewinnen von bis zu 52,5 % bzw. 7,5 %. Diese Ergebnisse zeigen, dass die Schließung der Modalitätskluft entscheidend für eine effektive Kopplung zwischen multimodalen Encodern und LLMs ist und dass diffusionsbasierte Modalitätsüberbrückung eine vielversprechende Richtung jenseits von wissensbasierten Retrieval-Designs bietet. Der Code wird nach der Annahme veröffentlicht: https://github.com/DevKiHyun/Diffusion-Link.
Deep Research (DR)-Agenten, die auf Large Language Models (LLMs) basieren, können komplexe, mehrstufige Recherchen durchführen, indem sie Aufgaben zerlegen, Online-Informationen abrufen und detaillierte Berichte synthetisieren. Der Missbrauch von LLMs mit solch leistungsstarken Fähigkeiten kann jedoch zu noch größeren Risiken führen. Dies ist besonders besorgniserregend in hochriskanten und wissensintensiven Bereichen wie der Biosicherheit, wo DR einen professionellen Bericht mit detailliertem verbotenem Wissen generieren kann. Leider haben wir solche Risiken in der Praxis festgestellt: Das einfache Absenden einer schädlichen Anfrage, die ein eigenständiges LLM direkt ablehnt, kann einen detaillierten und gefährlichen Bericht von DR-Agenten hervorrufen. Dies unterstreicht die erhöhten Risiken und die Notwendigkeit einer tiefergehenden Sicherheitsanalyse. Dennoch reichen Jailbreak-Methoden, die für LLMs entwickelt wurden, nicht aus, um solche einzigartigen Risiken aufzudecken, da sie nicht die Recherchefähigkeit von DR-Agenten ins Visier nehmen. Um diese Lücke zu schließen, schlagen wir zwei neuartige Jailbreak-Strategien vor: Plan Injection, bei der bösartige Teilziele in den Plan des Agenten eingeschleust werden, und Intent Hijack, bei der schädliche Anfragen als akademische Forschungsfragen umformuliert werden. Wir haben umfangreiche Experimente mit verschiedenen LLMs und verschiedenen Sicherheitsbenchmarks durchgeführt, einschließlich allgemeiner und biosicherheitsrelevanter verbotener Prompts. Diese Experimente zeigen drei zentrale Erkenntnisse: (1) Die Ausrichtung der LLMs scheitert oft bei DR-Agenten, bei denen schädliche Prompts, die in akademischen Begriffen formuliert sind, die Absicht des Agenten kapern können; (2) Mehrstufige Planung und Ausführung schwächen die Ausrichtung und offenbaren systemische Schwachstellen, die durch Prompt-Level-Sicherheitsvorkehrungen nicht behoben werden können; (3) DR-Agenten umgehen nicht nur Ablehnungen, sondern produzieren im Vergleich zu eigenständigen LLMs auch kohärentere, professionellere und gefährlichere Inhalte. Diese Ergebnisse zeigen eine grundlegende Fehlausrichtung bei DR-Agenten und fordern bessere Ausrichtungstechniken, die speziell auf DR-Agenten zugeschnitten sind. Code und Datensätze sind verfügbar unter https://chenxshuo.github.io/deeper-harm.
Bestehende denoising-generative Modelle basieren auf der Lösung diskretisierter umgekehrter zeitlicher SDEs oder ODEs. In diesem Artikel identifizieren wir ein lange übersehenes, aber weit verbreitetes Problem in dieser Familie von Modellen: eine Fehlausrichtung zwischen dem vordefinierten Rauschpegel und dem tatsächlichen Rauschpegel, der in Zwischenzuständen während des Sampling-Prozesses kodiert ist. Wir bezeichnen diese Fehlausrichtung als Noise Shift. Durch empirische Analysen zeigen wir, dass Noise Shift in modernen Diffusionsmodellen weit verbreitet ist und einen systematischen Bias aufweist, was zu suboptimaler Generierung aufgrund von Out-of-Distribution-Generalisation und ungenauen Denoising-Updates führt. Um dieses Problem zu lösen, schlagen wir Noise Awareness Guidance (NAG) vor, eine einfache, aber effektive Korrekturmethode, die Sampling-Trajektorien explizit so steuert, dass sie mit dem vordefinierten Rauschplan konsistent bleiben. Wir führen außerdem eine klassifikatorfreie Variante von NAG ein, die ein rauschbedingtes und ein rauschunabhängiges Modell gemeinsam durch Rauschbedingungs-Dropout trainiert, wodurch der Bedarf an externen Klassifikatoren entfällt. Umfangreiche Experimente, einschließlich ImageNet-Generierung und verschiedenen überwachten Feinabstimmungsaufgaben, zeigen, dass NAG Noise Shift konsequent mildert und die Generierungsqualität von Mainstream-Diffusionsmodellen erheblich verbessert.
Diffusionsbasierte große Sprachmodelle (dLLMs) haben sich als vielversprechende Alternative zu autoregressiven (AR) LLMs etabliert, indem sie eine denoising-basierte Generierung nutzen, um inhärente Parallelität zu ermöglichen. Obwohl immer mehr Open-Source-dLLM-Modelle entstehen, bleibt ihre breite Anwendung durch das Fehlen eines standardisierten und effizienten Inferenz-Frameworks eingeschränkt. Wir stellen dInfer vor, ein effizientes und erweiterbares Framework für die Inferenz von dLLMs. dInfer zerlegt den Inferenz-Pipeline in vier modulare Komponenten – Modell, Diffusions-Iterationsmanager, Dekodierungsstrategie und KV-Cache-Manager – und integriert neuartige Algorithmen für jede Komponente sowie systemweite Optimierungen. Durch diese Kombination von algorithmischen Innovationen und Systemverbesserungen erzielt dInfer erhebliche Effizienzsteigerungen, ohne die Ausgabequalität bei LLaDA-MoE zu beeinträchtigen. Bei einer Batch-Größe von 1 übertrifft es 1.100 Tokens pro Sekunde auf HumanEval und erreicht im Durchschnitt über 800 Tokens pro Sekunde über sechs Benchmarks auf 8x H800 GPUs. Im Vergleich zu früheren Systemen bietet dInfer eine 10-fache Beschleunigung gegenüber Fast-dLLM bei ähnlicher Modellleistung. Selbst im Vergleich zum AR-Modell (mit einer vergleichbaren Anzahl von Aktivierungsparametern und Leistung) QWen2.5-3B, das mit dem neuesten vLLM-Inferenz-Engine hochoptimiert ist, liefert dInfer immer noch eine 2-3-fache Beschleunigung. Die Implementierung von dInfer ist unter https://github.com/inclusionAI/dInfer open-source verfügbar.