papers.description
In diesem technischen Bericht präsentieren wir die Ring-linear-Modellserie, insbesondere Ring-mini-linear-2.0 und Ring-flash-linear-2.0. Ring-mini-linear-2.0 umfasst 16B Parameter und 957M Aktivierungen, während Ring-flash-linear-2.0 104B Parameter und 6,1B Aktivierungen enthält. Beide Modelle verwenden eine hybride Architektur, die lineare Aufmerksamkeit und Softmax-Aufmerksamkeit effektiv integriert und den I/O- und Rechenaufwand in Langzeitkontext-Inferenzszenarien erheblich reduziert. Im Vergleich zu einem dichten Modell mit 32 Milliarden Parametern reduziert diese Serie die Inferenzkosten auf 1/10, und im Vergleich zur ursprünglichen Ring-Serie werden die Kosten ebenfalls um über 50 % gesenkt. Darüber hinaus haben wir durch systematische Untersuchung des Verhältnisses zwischen verschiedenen Aufmerksamkeitsmechanismen in der hybriden Architektur die derzeit optimale Modellstruktur identifiziert. Zusätzlich wurde durch die Nutzung unserer selbst entwickelten Hochleistungs-FP8-Operator-Bibliothek „linghe“ die Gesamttrainings effizienz um 50 % gesteigert. Dank der hohen Übereinstimmung zwischen den Trainings- und Inferenz-Engine-Operatoren können die Modelle während der Verstärkungslernphase langfristig, stabil und hocheffizient optimiert werden und dabei durchgängig Spitzenleistungen in mehreren anspruchsvollen komplexen Reasoning-Benchmarks erzielen.
Reinforcement Learning (RL) hat sich kürzlich als zentrales Paradigma für die Ausrichtung und Stärkung großer Sprachmodelle (LLMs) etabliert. Die Anwendung von RL in Off-Policy-Settings – bei denen veraltete Daten aus früheren Policies für das Training verwendet werden – verbessert zwar die Stichprobeneffizienz, bleibt jedoch herausfordernd: Die Policy-Entropie sinkt stark, die Optimierung wird oft instabil und kann sogar zusammenbrechen. Durch theoretische und empirische Analysen identifizieren wir zwei zentrale Erkenntnisse: (i) ein Ungleichgewicht in der Optimierung, bei dem Proben mit negativem Vorteil den Policy-Gradienten dominieren, nützliche Verhaltensweisen unterdrücken und das Risiko von Gradientenexplosionen erhöhen; und (ii) die abgeleitete Entropie-Clipping-Regel, die zeigt, dass der feste Clipping-Mechanismus in PPO-ähnlichen Zielen systematisch Entropie-erhöhende Updates blockiert und dadurch die Policy auf Kosten der Exploration in Richtung Überausbeutung treibt. Aufbauend auf diesen Erkenntnissen schlagen wir BAlanced Policy Optimization with Adaptive Clipping (BAPO) vor, eine einfache, aber effektive Methode, die Clipping-Grenzen dynamisch anpasst, um positive und negative Beiträge adaptiv auszugleichen, die Entropie zu bewahren und die RL-Optimierung zu stabilisieren. In verschiedenen Off-Policy-Szenarien – einschließlich Sample-Replay und partiellen Rollouts – erreicht BAPO schnelles, stabiles und dateneffizientes Training. Auf den AIME-2024- und AIME-2025-Benchmarks übertrifft unser 7B-BAPO-Modell Open-Source-Gegenstücke wie SkyWork-OR1-7B, während unser 32B-BAPO-Modell nicht nur state-of-the-art-Ergebnisse unter Modellen gleicher Größe erzielt, sondern auch führende proprietäre Systeme wie o3-mini und Gemini-2.5-Flash-Thinking übertrifft.
Das Schließen über lange Kontexte ist für große Sprachmodelle von entscheidender Bedeutung. Während Reinforcement Learning (RL) das Schließen in kurzen Kontexten durch die Induktion von „Aha“-Momenten in Ketten von Gedanken verbessert, bleiben die fortgeschrittenen Denkmuster, die für das Schließen über lange Kontexte erforderlich sind, weitgehend unerforscht, und hochschwierige RL-Daten sind rar. In diesem Artikel stellen wir LoongRL vor, eine datengetriebene RL-Methode für fortgeschrittenes Schließen über lange Kontexte. Kernstück von LoongRL ist KeyChain, ein Syntheseansatz, der kurze Multi-Hop-Fragen in hochschwierige Aufgaben mit langen Kontexten umwandelt, indem UUID-Ketten eingefügt werden, die die eigentliche Frage in großen Sammlungen von ablenkenden Dokumenten verbergen. Um diese Aufgaben zu lösen, muss das Modell die richtige Kette Schritt für Schritt verfolgen, die wahre Frage identifizieren, relevante Fakten abrufen und über sie schlussfolgern, um korrekt zu antworten. Das RL-Training mit KeyChain-Daten induziert ein emergentes Planen-Abrufen-Schließen-Überprüfen-Denkmuster, das weit über die Trainingslänge hinaus generalisiert. Modelle, die bei 16K trainiert wurden, lösen effektiv 128K-Aufgaben, ohne prohibitive RL-Rollout-Kosten für die volle Länge zu verursachen. Bei Qwen2.5-7B und 14B verbessert LoongRL die Genauigkeit von Multi-Hop-Fragen in langen Kontexten erheblich mit absoluten Gewinnen von +23,5 % und +21,1 %. Das resultierende LoongRL-14B erreicht einen Wert von 74,2 und konkurriert mit viel größeren Spitzenmodellen wie o3-mini (74,5) und DeepSeek-R1 (74,9). Es verbessert auch das Abrufen in langen Kontexten, besteht alle 128K-Nadel-im-Heuhaufen-Stresstests und bewahrt die Fähigkeiten zum Schließen in kurzen Kontexten.
Das Training von Vision-Language-Action (VLA)-Modellen für generalistische Roboter erfordert typischerweise groß angelegte reale Roboterdaten, deren Erfassung kostspielig und zeitaufwendig ist. Die Ineffizienz der physischen Datenerfassung schränkt die Skalierbarkeit und Generalisierungsfähigkeit aktueller VLA-Systeme erheblich ein. Um diese Herausforderung zu bewältigen, stellen wir GigaBrain-0 vor, ein neuartiges VLA-Foundation-Modell, das durch Weltmodell-generierte Daten (z. B. Videogenerierung, Real2Real-Transfer, Human-Transfer, View-Transfer, Sim2Real-Transfer-Daten) unterstützt wird. Durch die Nutzung von Weltmodellen zur Generierung vielfältiger Daten in großem Maßstab reduziert GigaBrain-0 die Abhängigkeit von realen Roboterdaten erheblich und verbessert gleichzeitig die übergreifende Aufgaben-Generalisierung. Unser Ansatz steigert die Robustheit der Politik durch RGBD-Eingabemodellierung und verkörperte Chain-of-Thought (CoT)-Überwachung, wodurch das Modell in der Lage ist, räumliche Geometrie, Objektzustände und langfristige Abhängigkeiten während der Aufgabenausführung zu berücksichtigen. Dies führt zu erheblichen Verbesserungen der Leistung in der realen Welt bei geschickten, langfristigen und mobilen Manipulationsaufgaben. Umfangreiche Experimente zeigen, dass GigaBrain-0 eine überlegene Generalisierung über Variationen in Erscheinungen (z. B. Texturen, Farben), Objektplatzierungen und Kameraperspektiven hinweg erreicht. Zusätzlich präsentieren wir GigaBrain-0-Small, eine optimierte, leichtgewichtige Variante, die effizient auf Geräten wie dem NVIDIA Jetson AGX Orin ausgeführt werden kann.
Transformer-Komponenten wie nicht-lineare Aktivierungen und Normalisierung sind von Natur aus nicht-injektiv, was darauf hindeutet, dass verschiedene Eingaben auf dieselbe Ausgabe abgebildet werden könnten und somit eine exakte Rekonstruktion der Eingabe aus den Repräsentationen eines Modells verhindern. In dieser Arbeit stellen wir diese Ansicht in Frage. Zunächst beweisen wir mathematisch, dass Transformer-Sprachmodelle, die diskrete Eingabesequenzen auf ihre entsprechenden Sequenzen kontinuierlicher Repräsentationen abbilden, injektiv und somit verlustfrei sind – eine Eigenschaft, die bei der Initialisierung festgelegt und während des Trainings beibehalten wird. Zweitens bestätigen wir dieses Ergebnis empirisch durch Milliarden von Kollisionstests an sechs state-of-the-art Sprachmodellen und beobachten dabei keine Kollisionen. Drittens operationalisieren wir die Injektivität: Wir stellen SipIt vor, den ersten Algorithmus, der nachweislich und effizient den exakten Eingabetext aus verborgenen Aktivierungen rekonstruiert, wobei wir lineare Zeitgarantien etablieren und die exakte Umkehrbarkeit in der Praxis demonstrieren. Insgesamt etabliert unsere Arbeit die Injektivität als eine grundlegende und nutzbare Eigenschaft von Sprachmodellen mit direkten Implikationen für Transparenz, Interpretierbarkeit und sichere Bereitstellung.
Das Training von Computer-Nutzungsagenten erfordert enorme Mengen an GUI-Interaktionsdaten, doch die manuelle Annotation von Aktionspfaden in großem Maßstab ist unverhältnismäßig teuer. Wir präsentieren VideoAgentTrek, eine skalierbare Pipeline, die automatisch Trainingsdaten aus öffentlich verfügbaren Bildschirmaufzeichnungen im Webmaßstab extrahiert und somit die Notwendigkeit manueller Annotation eliminiert. Unser Ansatz adressiert eine zentrale Herausforderung: Rohvideos enthalten implizite Demonstrationen, aber es fehlen explizite Aktionslabels. Um dies zu lösen, entwickeln wir Video2Action, ein inverses Dynamikmodul (IDM) mit zwei Komponenten: (1) ein Video-Grounding-Modell, das GUI-Aktionen mit präzisen zeitlichen Grenzen und Kontext detektiert und lokalisiert, und (2) ein Aktionsinhaltserkennungsmodul, das strukturierte Parameter wie Klickkoordinaten und eingegebenen Text mit hoher Genauigkeit extrahiert. Angewendet auf 39.000 YouTube-Tutorialvideos generiert unsere Pipeline automatisch 1,52 Millionen Interaktionsschritte. Wir nutzen diese Daten durch fortgesetztes Vortraining gefolgt von überwachtem Feinabstimmen. Auf OSWorld-Verified verbessert unser Ansatz die Aufgaben-Erfolgsrate von 9,3 % (nur SFT-Baseline) auf 15,8 %, was einer relativen Verbesserung von 70 % entspricht. Auf AgentNetBench steigt die Schrittgenauigkeit von 64,1 % auf 69,3 %. Unsere Ergebnisse zeigen, dass passive Internetvideos in hochwertige Überwachungsdaten für Computer-Nutzungsagenten umgewandelt werden können und somit eine skalierbare Alternative zur kostspieligen manuellen Annotation bieten.
Mobile Phone Agents (MPAs) haben sich aufgrund ihrer breiten Anwendbarkeit in diversen Szenarien als vielversprechende Forschungsrichtung etabliert. Während Multimodale Large Language Models (MLLMs) die Grundlage für MPAs bilden, bleibt ihre Effektivität bei der gleichzeitigen Bearbeitung mehrerer Mobiltelefonaufgaben begrenzt. Obwohl Multitask Supervised Fine-Tuning (SFT) weit verbreitet für Multitask-Lernen eingesetzt wird, haben bestehende Ansätze Schwierigkeiten, optimale Trainingsdatenzusammensetzungen für Spitzenleistungen zu bestimmen. Um diese Herausforderung zu bewältigen, schlagen wir DaMo (Data Mixture Optimizer) vor – eine neuartige Lösung, die ein trainierbares Netzwerk verwendet, um optimale Datenmischungen durch die Vorhersage der Leistung nachgelagerter Aufgaben für beliebige Datensatzverhältnisse zu ermitteln. Zur Unterstützung einer umfassenden Evaluierung führen wir PhoneAgentBench ein, den ersten spezialisierten Benchmark zur Bewertung von MLLMs bei multimodalen Mobiltelefonaufgaben, der 1235 QA-Paare umfasst, die verschiedene reale industrielle Mobilanwendungsszenarien abdecken. DaMo zeigt in kleinskaligen Pilotexperimenten eine starke Vorhersagefähigkeit (R^2=0,81) und extrapoliert effizient optimale Datenmischungskonfigurationen. Unsere Ergebnisse zeigen, dass DaMo auf PhoneAgentBench eine Leistungssteigerung von 3,38 % im Vergleich zu alternativen Methoden erzielt. Darüber hinaus offenbaren umfangreiche Experimente auf etablierten Benchmarks wie BFCL-v3, MME-Reasoning, MME-Perception und OCRBench die überlegene Generalisierungsfähigkeit von DaMo, das andere Ansätze um 2,57 % im Durchschnittswert übertrifft. Bei der ausschließlichen Optimierung von MLLMs für die BFCL-v3-Aufgabe verbessert DaMo die Metriken um 12,47 % im Vergleich zu anderen Methoden. Bemerkenswerterweise behält DaMo eine robuste Skalierbarkeit bei und bewahrt seine Effektivität, wenn es auf andere Modellarchitekturen angewendet wird. Der Code und der Datensatz sind unter https://github.com/OPPO-Mente-Lab/DaMo.git verfügbar.
Vision-Language Models (VLMs) haben bemerkenswerte Fortschritte erzielt, doch ihre große Skalierung macht sie oft unpraktisch für ressourcenbeschränkte Umgebungen. Dieses Papier stellt Unified Reinforcement and Imitation Learning (RIL) vor, einen neuartigen und effizienten Trainingsalgorithmus, der darauf abzielt, leistungsstarke, leichtgewichtige VLMs zu erstellen. RIL kombiniert auf einzigartige Weise die Stärken des Reinforcement Learning mit dem adversarischen Imitation Learning. Dadurch können kleinere Schüler-VLMs nicht nur die anspruchsvolle Textgenerierung großer Lehrermodelle nachahmen, sondern auch ihre generativen Fähigkeiten systematisch durch Verstärkungssignale verbessern. Ein zentrales Element unseres Imitationsframeworks ist ein LLM-basierter Diskriminator, der geschickt zwischen den Ausgaben von Schüler- und Lehrermodellen unterscheidet, ergänzt durch die Anleitung mehrerer großer Lehrer-VLMs, um eine vielfältige Lernumgebung zu gewährleisten. Diese vereinheitlichte Lernstrategie, die sowohl Verstärkung als auch Imitation nutzt, befähigt Schülermodelle, signifikante Leistungssteigerungen zu erzielen, wodurch sie mit führenden Closed-Source-VLMs konkurrieren können. Umfangreiche Experimente auf diversen Vision-Language-Benchmarks zeigen, dass RIL die Leistungslücke zu state-of-the-art Open- und Closed-Source-VLMs erheblich verringert und in mehreren Fällen sogar übertrifft.
Jüngste Fortschritte in multimodalen Modellen haben bemerkenswerte Fähigkeiten zur textgesteuerten Bildbearbeitung demonstriert, wobei Systeme wie GPT-4o und Nano-Banana neue Maßstäbe setzen. Der Fortschritt der Forschungsgemeinschaft bleibt jedoch durch das Fehlen groß angelegter, hochwertiger und frei zugänglicher Datensätze, die aus realen Bildern erstellt wurden, eingeschränkt. Wir stellen Pico-Banana-400K vor, einen umfassenden 400.000-Bilder-Datensatz für anweisungsbasierte Bildbearbeitung. Unser Datensatz wurde erstellt, indem Nano-Banana genutzt wurde, um vielfältige Bearbeitungspaare aus realen Fotografien der OpenImages-Sammlung zu generieren. Was Pico-Banana-400K von früheren synthetischen Datensätzen unterscheidet, ist unser systematischer Ansatz in Bezug auf Qualität und Vielfalt. Wir verwenden eine fein abgestufte Taxonomie der Bildbearbeitung, um eine umfassende Abdeckung der Bearbeitungstypen zu gewährleisten, während gleichzeitig eine präzise Inhaltserhaltung und Anweisungstreue durch MLLM-basierte Qualitätsbewertung und sorgfältige Kuratierung sichergestellt wird. Über die Einzelbearbeitung hinaus ermöglicht Pico-Banana-400K die Erforschung komplexer Bearbeitungsszenarien. Der Datensatz umfasst drei spezialisierte Teilmengen: (1) eine 72.000-Beispiel-Sammlung für Mehrfachbearbeitungen zur Untersuchung sequenzieller Bearbeitungen, Schlussfolgerungen und Planungen über aufeinanderfolgende Modifikationen hinweg; (2) eine 56.000-Beispiel-Präferenzteilmenge für die Ausrichtungsforschung und das Training von Belohnungsmodellen; und (3) gepaarte lange-kurze Bearbeitungsanweisungen zur Entwicklung von Fähigkeiten zur Anweisungsumformulierung und Zusammenfassung. Durch die Bereitstellung dieser groß angelegten, hochwertigen und aufgabenreichen Ressource schafft Pico-Banana-400K eine robuste Grundlage für das Training und die Bewertung der nächsten Generation textgesteuerter Bildbearbeitungsmodelle.
Die Erstellung professioneller Finanzberichte ist ein arbeitsintensiver und intellektuell anspruchsvoller Prozess, den aktuelle KI-Systeme nur schwer vollständig automatisieren können. Um diese Herausforderung zu bewältigen, stellen wir FinSight (Financial InSight) vor, ein neuartiges Multi-Agenten-Framework zur Erstellung hochwertiger, multimodaler Finanzberichte. Die Grundlage von FinSight bildet die Code Agent with Variable Memory (CAVM)-Architektur, die externe Daten, speziell entwickelte Tools und Agenten in einem programmierbaren variablen Raum vereint und so flexible Datenerfassung, -analyse und Berichterstellung durch ausführbaren Code ermöglicht. Um professionelle Visualisierungen zu gewährleisten, schlagen wir einen iterativen, visuell verbesserten Mechanismus vor, der rohe visuelle Ausgaben schrittweise in ausgefeilte Finanzdiagramme verfeinert. Darüber hinaus erweitert ein zweistufiges Schreibframework prägnante Chain-of-Analysis-Segmente zu kohärenten, zitierbewussten und multimodalen Berichten, wodurch sowohl analytische Tiefe als auch strukturelle Konsistenz sichergestellt werden. Experimente zu verschiedenen Unternehmens- und Branchenaufgaben zeigen, dass FinSight alle Baselines, einschließlich führender Deep-Research-Systeme, in Bezug auf faktische Genauigkeit, analytische Tiefe und Präsentationsqualität deutlich übertrifft und damit einen klaren Weg zur Erstellung von Berichten aufzeigt, die sich der Qualität von menschlichen Experten annähern.
Da große Sprachmodelle (LLMs) zunehmend in Mensch-KI-Interaktionen eingesetzt werden, sind ihre sozialen Denkfähigkeiten in zwischenmenschlichen Kontexten von entscheidender Bedeutung. Wir stellen SCRIPTS vor, einen Datensatz mit 1.000 Dialogen in Englisch und Koreanisch, der aus Filmskripten stammt. Die Aufgabe besteht darin, die Fähigkeit der Modelle zur sozialen Schlussfolgerung zu bewerten, um die zwischenmenschlichen Beziehungen (z. B. Freunde, Schwestern, Liebende) zwischen den Sprechern in jedem Dialog zu erschließen. Jeder Dialog wurde von muttersprachlichen (oder gleichwertigen) Koreanisch- und Englischsprechern aus Korea und den USA mit probabilistischen Beziehungslabels („Highly Likely“, „Less Likely“, „Unlikely“) annotiert. Bei der Bewertung von neun Modellen in unserer Aufgabe erreichen aktuelle proprietäre LLMs etwa 75–80 % auf dem englischen Datensatz, während ihre Leistung auf Koreanisch auf 58–69 % sinkt. Noch auffälliger ist, dass die Modelle in 10–25 % ihrer Antworten „Unlikely“-Beziehungen auswählen. Darüber hinaus stellen wir fest, dass Denkmodelle und Chain-of-Thought-Prompting, die für allgemeines Schlussfolgern effektiv sind, nur minimale Vorteile für soziales Denken bieten und gelegentlich soziale Vorurteile verstärken. Unsere Ergebnisse zeigen erhebliche Einschränkungen in den sozialen Denkfähigkeiten aktueller LLMs und unterstreichen die Notwendigkeit, sozial bewusste Sprachmodelle zu entwickeln.
Autonome Fahrweltmodelle sollen effektiv in drei Kernbereichen arbeiten: Zustand, Aktion und Belohnung. Bisherige Modelle sind jedoch typischerweise auf begrenzte Zustandsmodalitäten, kurze Videosequenzen, unpräzise Aktionssteuerung und mangelnde Belohnungsbewusstheit beschränkt. In diesem Artikel stellen wir OmniNWM vor, ein allwissendes panoramisches Navigationsweltmodell, das alle drei Dimensionen in einem einheitlichen Rahmen adressiert. Für den Zustand generiert OmniNWM gemeinsam Panoramavideos von RGB, Semantik, metrischer Tiefe und 3D-Besetzung. Eine flexible Forcing-Strategie ermöglicht eine hochwertige autoregressive Generierung über lange Zeithorizonte. Für die Aktion führen wir eine normalisierte panoramische Plücker-Strahlkarten-Darstellung ein, die Eingabetrajektorien in pixelgenaue Signale kodiert und eine hochpräzise und generalisierbare Steuerung der Panoramavideogenerierung ermöglicht. In Bezug auf die Belohnung gehen wir über das Lernen von Belohnungsfunktionen mit externen bildbasierten Modellen hinaus: Stattdessen nutzen wir die generierte 3D-Besetzung, um regelbasierte dichte Belohnungen für Fahrkonformität und Sicherheit direkt zu definieren. Umfangreiche Experimente zeigen, dass OmniNWM Spitzenleistungen in der Videogenerierung, der Steuerungsgenauigkeit und der Langzeitstabilität erreicht, während es durch besetzungsbasierte Belohnungen ein zuverlässiges geschlossenes Bewertungsframework bietet. Die Projektseite ist verfügbar unter https://github.com/Arlo0o/OmniNWM.
Masked Diffusion Language Models (DLMs) haben sich kürzlich als vielversprechende Alternative zu traditionellen Autoregressive Models (ARMs) etabliert. DLMs nutzen Transformer-Encoder mit bidirektionaler Aufmerksamkeit, was eine parallele Token-Generierung ermöglicht, während sie gleichzeitig eine wettbewerbsfähige Leistung aufrechterhalten. Obwohl ihre Effizienz und Wirksamkeit bereits umfassend untersucht wurden, sind die internen Mechanismen, die DLMs steuern, weitgehend unerforscht. In dieser Arbeit führen wir eine empirische Analyse der Aufmerksamkeitsmuster von DLMs durch, wobei wir uns auf das Phänomen des Attention Sinking konzentrieren, einen Effekt, der bereits in verschiedenen Transformer-basierten Architekturen beobachtet wurde. Unsere Ergebnisse zeigen, dass DLMs ebenfalls Attention Sinks aufweisen, jedoch mit besonderen Merkmalen. Erstens neigen die Sink-Positionen in DLMs im Gegensatz zu ARMs dazu, sich während des Generierungsprozesses zu verschieben, was ein dynamisches Verhalten zeigt. Zweitens bleiben DLMs robust gegenüber der Entfernung von Attention Sinks, während ARMs stark empfindlich darauf reagieren: Das Maskieren von Sinks führt nur zu einer geringfügigen Verschlechterung der Leistung. Diese Ergebnisse bieten neue Einblicke in die Funktionsweise von Diffusions-basierten Sprachmodellen und verdeutlichen grundlegende Unterschiede in der Art und Weise, wie sie Aufmerksamkeit zuweisen und nutzen, im Vergleich zu autoregressiven Modellen.
Wir stellen Chart2Code vor, einen neuen Benchmark zur Bewertung der Diagrammverständnis- und Codegenerierungsfähigkeiten von großen multimodalen Modellen (LMMs). Chart2Code wurde explizit aus einer nutzerzentrierten Perspektive entwickelt und erfasst vielfältige reale Szenarien mit progressiv ansteigender Aufgabenkomplexität. Es besteht aus drei Ebenen: Ebene 1 (Diagrammreproduktion) reproduziert Diagramme aus einer Referenzabbildung und einer Nutzeranfrage; Ebene 2 (Diagrammbearbeitung) umfasst komplexe Modifikationen wie das Ändern von Diagrammtypen oder das Hinzufügen von Elementen; und Ebene 3 (Langtabelle-zu-Diagramm-Generierung) erfordert, dass Modelle lange, informationsdichte Tabellen in präzise Diagramme gemäß Nutzeranweisungen umwandeln. Unseres Wissens ist dies der erste hierarchische Benchmark, der die praktische Nutzung von Chart2Code widerspiegelt und gleichzeitig die Aufgabenkomplexität systematisch skaliert. Insgesamt umfasst Chart2Code 2.023 Aufgaben über 22 Diagrammtypen, gepaart mit mehrstufigen Bewertungsmetriken, die sowohl die Codekorrektheit als auch die visuelle Treue der gerenderten Diagramme bewerten. Wir benchmarken 25 state-of-the-art (SoTA) LMMs, darunter sowohl proprietäre als auch die neuesten Open-Source-Modelle wie GPT-5, Qwen2.5-VL, InternVL3/3.5, MiMo-VL und Seed-1.6-VL. Die experimentellen Ergebnisse zeigen, dass selbst das SoTA-Modell GPT-5 im Durchschnitt nur 0,57 bei der codebasierten Bewertung und 0,22 bei der Diagrammqualitätsbewertung über die Bearbeitungsaufgaben erreicht, was die Schwierigkeit von Chart2Code unterstreicht. Wir erwarten, dass dieser Benchmark Fortschritte im multimodalen Denken vorantreiben und die Entwicklung robusterer und allgemeinerer LMMs fördern wird. Unser Code und unsere Daten sind auf Chart2Code verfügbar.
Große multimodale Modelle kodieren umfangreiches Faktenwissen in ihren vortrainierten Gewichten. Allerdings bleibt dieses Wissen statisch und begrenzt, unfähig, mit den Entwicklungen in der realen Welt Schritt zu halten, was den kontinuierlichen Wissenserwerb behindert. Effektive Wissenseinspeisung wird somit entscheidend, wobei zwei Ziele verfolgt werden: Wissensanpassung (Einspeisen neuen Wissens) und Wissensbewahrung (Erhaltung alten Wissens). Bestehende Methoden haben oft Schwierigkeiten, neues Wissen zu erlernen, und leiden unter katastrophalem Vergessen. Um dies zu adressieren, schlagen wir KORE vor, eine synergetische Methode aus Wissens-orientierten Erweiterungen und Einschränkungen, um neues Wissen in große multimodale Modelle einzuspeisen und gleichzeitig altes Wissen zu bewahren. Im Gegensatz zur allgemeinen Text- oder Bilddatenvergrößerung wandelt KORE automatisch einzelne Wissenselemente in strukturiertes und umfassendes Wissen um, um sicherzustellen, dass das Modell neues Wissen präzise erlernt und eine genaue Anpassung ermöglicht. Gleichzeitig speichert KORE vorheriges Wissen in der Kovarianzmatrix der linearen Schichtaktivierungen des LMM und initialisiert den Adapter, indem die ursprünglichen Gewichte in den Nullraum der Matrix projiziert werden, wodurch eine Feinabstimmungsrichtung definiert wird, die die Interferenz mit vorherigem Wissen minimiert und eine starke Bewahrung ermöglicht. Umfangreiche Experimente mit verschiedenen LMMs, einschließlich LLaVA-v1.5-7B, LLaVA-v1.5-13B und Qwen2.5-VL-7B, zeigen, dass KORE eine überlegene Leistung bei der Einspeisung neuen Wissens erzielt und katastrophales Vergessen effektiv mildert.
Wir präsentieren olmOCR 2, das neueste Mitglied unserer Familie leistungsstarker OCR-Systeme zur Konvertierung digitalisierter Druckdokumente, wie PDFs, in sauberen, natürlich geordneten Klartext. olmOCR 2 wird durch olmOCR-2-7B-1025 angetrieben, ein spezialisiertes, 7B großes Vision-Language-Modell (VLM), das mittels Verstärkungslernen mit überprüfbaren Belohnungen (RLVR) trainiert wurde, wobei unsere Belohnungen aus einer Vielzahl von binären Unit-Tests bestehen. Um die Erstellung von Unit-Tests zu skalieren, entwickelten wir eine Pipeline zur Generierung synthetischer Dokumente mit vielfältigen und anspruchsvollen Layouts, bekanntem HTML-Quellcode als Grundwahrheit und extrahierten Testfällen. Wir zeigen, dass das RL-Training auf diesen Testfällen zu state-of-the-art-Leistungen auf olmOCR-Bench, unserem englischsprachigen OCR-Benchmark, führt, mit den größten Verbesserungen bei der Konvertierung mathematischer Formeln, der Tabellenanalyse und der Verarbeitung mehrspaltiger Layouts im Vergleich zu früheren Versionen. Wir veröffentlichen unser Modell, die Daten und den Code unter permissiven Open-Source-Lizenzen.
Seit der Einführung des Model Context Protocol (MCP) hat die Anzahl der verfügbaren Werkzeuge für Large Language Models (LLMs) erheblich zugenommen. Diese aufgabenbezogenen Werkzeugsets bieten eine Alternative zu universellen Werkzeugen wie Webbrowsern und sind dabei einfacher zu entwickeln und zu pflegen als grafische Benutzeroberflächen (GUIs). Allerdings verlassen sich aktuelle universelle Agenten überwiegend auf Webbrowser, um mit der Umgebung zu interagieren. Hier stellen wir TheMCPCompany vor, einen Benchmark zur Bewertung von Werkzeug-aufrufenden Agenten bei Aufgaben, die die Interaktion mit verschiedenen realen Diensten beinhalten. Wir nutzen die REST-APIs dieser Dienste, um MCP-Server zu erstellen, die über 18.000 Werkzeuge umfassen. Zudem stellen wir manuell annotierte Ground-Truth-Werkzeuge für jede Aufgabe bereit. In unseren Experimenten verwenden wir die Ground-Truth-Werkzeuge, um das Potenzial von Werkzeug-aufrufenden Agenten sowohl zur Leistungssteigerung als auch zur Kostensenkung unter der Annahme einer perfekten Werkzeugabfrage zu demonstrieren. Anschließend untersuchen wir die Leistung von Agenten mithilfe der Werkzeugabfrage, um die praktische Anwendbarkeit von werkzeugbasierten Agenten in der realen Welt zu studieren. Während alle Modelle mit Werkzeugabfrage ähnlich oder besser abschneiden als browserbasierte Agenten, können kleinere Modelle die verfügbaren Werkzeuge durch Abfrage nicht vollständig nutzen. Andererseits liegt die Leistung von GPT-5 mit Werkzeugabfrage sehr nahe an seiner Leistung mit Ground-Truth-Werkzeugen. Insgesamt zeigt unsere Arbeit, dass die fortschrittlichsten Reasoning-Modelle effektiv darin sind, Werkzeuge in einfacheren Umgebungen zu entdecken, jedoch erhebliche Schwierigkeiten haben, sich in komplexen Unternehmensumgebungen zurechtzufinden. TheMCPCompany offenbart, dass die Navigation durch Zehntausende von Werkzeugen und deren nicht-triviale Kombination zur Lösung komplexer Probleme für aktuelle Modelle nach wie vor eine Herausforderung darstellt und sowohl bessere Reasoning- als auch bessere Abfragemodelle erfordert.
Multimodale große Sprachmodelle (MLLMs) zeigen eine starke Fähigkeit zur Videoverständnis, indem sie visuelle Tokens beachten, die für textuelle Anfragen relevant sind. Um dies direkt für die Lokalisierung in einer trainingsfreien Weise anzupassen, formulieren wir die Video-Reasoning-Segmentierung als eine Video-QA-Aufgabe und extrahieren Aufmerksamkeitskarten über einen Rollout-Mechanismus. Rohaufmerksamkeitskarten sind jedoch verrauscht und schlecht mit Objektregionen ausgerichtet. Wir schlagen Decomposed Attention Fusion (DecAF) vor, das diese Karten durch zwei Mechanismen verfeinert: (1) kontrastive Objekt-Hintergrund-Fusion und (2) komplementäre Video-Frame-Fusion. Diese Methode unterdrückt irrelevante Aktivierungen und verstärkt objektfokussierte Hinweise, wodurch eine direkte Umwandlung von Aufmerksamkeitskarten in grobe Segmentierungsmasken ermöglicht wird. Zusätzlich führen wir SAM2-Prompting mit Aufmerksamkeitsführung ein, um feinkörnige Masken zu erhalten. Im Gegensatz zu bestehenden Methoden, die MLLMs gemeinsam mit SAM trainieren, arbeitet unsere Methode vollständig ohne erneutes Training. DecAF übertrifft trainingsfreie Methoden und erreicht eine Leistung, die mit trainingsbasierten Methoden auf Referenz- und Reasoning-VOS-Benchmarks vergleichbar ist. Der Code wird unter https://github.com/HYUNJS/DecAF verfügbar sein.
Mit den Fortschritten in der Hardware, Software und den Technologien großer Sprachmodelle hat sich die Interaktion zwischen Menschen und Betriebssystemen von der Befehlszeilenschnittstelle hin zu den sich schnell entwickelnden Interaktionen mit KI-Agenten weiterentwickelt. Die Entwicklung eines Betriebssystem-Agenten (OS-Agent), der in der Lage ist, Benutzeranweisungen auszuführen und die Wünsche der Benutzer treu zu befolgen, wird zunehmend Realität. In diesem technischen Bericht stellen wir ColorAgent vor, einen OS-Agenten, der darauf ausgelegt ist, langfristige und robuste Interaktionen mit der Umgebung zu ermöglichen und gleichzeitig personalisierte und proaktive Benutzerinteraktionen zu unterstützen. Um langfristige Interaktionen mit der Umgebung zu ermöglichen, erweitern wir die Fähigkeiten des Modells durch schrittweises Reinforcement Learning und selbstentwickelndes Training, während wir gleichzeitig ein maßgeschneidertes Multi-Agenten-Framework entwickeln, das Allgemeingültigkeit, Konsistenz und Robustheit gewährleistet. Im Hinblick auf die Benutzerinteraktion untersuchen wir die personalisierte Erkennung von Benutzerabsichten und proaktives Engagement, wodurch der OS-Agent nicht nur als Automatisierungswerkzeug, sondern als ein warmer, kooperativer Partner positioniert wird. Wir evaluieren ColorAgent anhand der Benchmarks AndroidWorld und AndroidLab und erreichen Erfolgsquoten von 77,2 % bzw. 50,7 %, wodurch ein neuer Stand der Technik etabliert wird. Dennoch stellen wir fest, dass die derzeitigen Benchmarks für eine umfassende Bewertung von OS-Agenten nicht ausreichend sind und schlagen vor, in zukünftigen Arbeiten insbesondere die Bereiche Evaluationsparadigmen, Agentenkooperation und Sicherheit weiter zu erforschen. Unser Code ist unter https://github.com/MadeAgents/mobile-use verfügbar.
Große Multimodale Modelle (LMMs) kodieren umfangreiches Faktenwissen durch cross-modales Vortraining, doch ihre statischen Repräsentationen haben Schwierigkeiten, ein genaues Verständnis zeitkritischen Faktenwissens aufrechtzuerhalten. Bestehende Benchmarks bleiben durch statische Designs eingeschränkt und bewerten die Fähigkeit von LMMs, zeitkritisches Wissen zu verstehen, unzureichend. Um diese Lücke zu schließen, schlagen wir MINED vor, einen umfassenden Benchmark, der das zeitliche Bewusstsein entlang sechs Schlüsseldimensionen und elf anspruchsvollen Aufgaben bewertet: Kognition, Bewusstsein, Vertrauenswürdigkeit, Verständnis, Schlussfolgerung und Robustheit. MINED wurde von zwei professionellen Annotatoren aus Wikipedia erstellt und enthält 2.104 zeitkritische Wissensproben, die sechs Wissensarten umfassen. Die Bewertung von 15 weit verbreiteten LMMs anhand von MINED zeigt, dass Gemini-2.5-Pro mit einem durchschnittlichen CEM-Score von 63,07 am besten abschneidet, während die meisten Open-Source-LMMs noch immer kein Verständnis für zeitkritisches Wissen aufweisen. Gleichzeitig erzielen LMMs die besten Ergebnisse bei Organisationswissen, während ihre Leistung im Bereich Sport am schwächsten ist. Um diese Herausforderungen zu bewältigen, untersuchen wir die Machbarkeit der Aktualisierung zeitkritischen Wissens in LMMs durch Wissensbearbeitungsmethoden und beobachten, dass LMMs Wissen in Einzelbearbeitungsszenarien effektiv aktualisieren können.
Optimierungsmodellierung ermöglicht kritische Entscheidungen in verschiedenen Branchen, bleibt jedoch schwierig zu automatisieren: informelle Sprache muss in präzise mathematische Formulierungen und ausführbaren Solver-Code abgebildet werden. Bisherige LLM-Ansätze (Large Language Models) verlassen sich entweder auf anfällige Prompting-Techniken oder auf kostspieliges Retraining mit begrenzter Generalisierungsfähigkeit. Wir stellen AlphaOPT vor, eine sich selbst verbessernde Erfahrungsbibliothek, die es einem LLM ermöglicht, aus begrenzten Demonstrationen (sogar nur aus Antworten, ohne goldstandardisierte Programme) und Solver-Feedback zu lernen – ohne annotierte Begründungsspuren oder Parameteraktualisierungen. AlphaOPT arbeitet in einem kontinuierlichen Zwei-Phasen-Zyklus: (i) einer Bibliothekslernphase, die gescheiterte Versuche reflektiert und solver-verifizierte, strukturierte Erkenntnisse als {Taxonomie, Bedingung, Erklärung, Beispiel} extrahiert; und (ii) einer Bibliotheksentwicklungsphase, die Fehlausrichtungen bei der Abfrage diagnostiziert und die Anwendbarkeitsbedingungen gespeicherter Erkenntnisse verfeinert, um die Übertragbarkeit über Aufgaben hinweg zu verbessern. Dieser Ansatz (1) lernt effizient aus begrenzten Demonstrationen ohne kuratierte Begründungen, (2) erweitert sich kontinuierlich ohne kostspieliges Retraining, indem die Bibliothek anstelle der Modellgewichte aktualisiert wird, und (3) macht Wissen explizit und interpretierbar für menschliche Überprüfung und Eingriffe. Experimente zeigen, dass AlphaOPT mit mehr Daten stetig besser wird (65 % auf 72 % bei 100 bis 300 Trainingsbeispielen) und den stärksten Baseline-Ansatz um 7,7 % auf dem Out-of-Distribution-Datensatz OptiBench übertrifft, wenn es nur auf Antworten trainiert wird. Code und Daten sind verfügbar unter: https://github.com/Minw913/AlphaOPT.
Bestehende parameter-effiziente Feinabstimmungsmethoden (PEFT) lassen sich hauptsächlich in zwei Kategorien einteilen: additionsbasierte und selektive In-situ-Adaptation. Erstere, wie beispielsweise LoRA, führen zusätzliche Module ein, um das Modell an nachgelagerte Aufgaben anzupassen, und bieten dabei eine hohe Speichereffizienz. Ihre Repräsentationsfähigkeit ist jedoch oft begrenzt, was sie weniger geeignet für fein abgestimmte Anpassungen macht. Im Gegensatz dazu passt letztere direkt eine sorgfältig ausgewählte Teilmenge der ursprünglichen Modellparameter an, was eine präzisere und effektivere Adaptation ermöglicht, jedoch mit dem Nachteil eines deutlich erhöhten Speicherverbrauchs. Um diesen Kompromiss zu überwinden, schlagen wir NeuroAda vor, eine neuartige PEFT-Methode, die eine fein abgestimmte Modellanpassung ermöglicht, während gleichzeitig eine hohe Speichereffizienz gewährleistet wird. Unser Ansatz identifiziert zunächst wichtige Parameter (d. h. Verbindungen innerhalb des Netzwerks) wie bei der selektiven Adaptation und führt dann Umgehungsverbindungen für diese ausgewählten Parameter ein. Während der Feinabstimmung werden nur die Umgehungsverbindungen aktualisiert, während die ursprünglichen Modellparameter eingefroren bleiben. Empirische Ergebnisse auf über 23 Aufgaben aus den Bereichen der natürlichen Sprachgenerierung und -verarbeitung zeigen, dass NeuroAda mit nur ≤ 0,02 % trainierbaren Parametern Spitzenleistungen erzielt und dabei den CUDA-Speicherverbrauch um bis zu 60 % reduziert. Unser Code ist hier verfügbar: https://github.com/FightingFighting/NeuroAda.git.
Multimodale große Sprachmodelle (MLLMs) schreiten rasch voran, doch ihre Fähigkeit zum logischen Schlussfolgern bleibt oft hinter der starker textbasierter Modelle zurück. Bestehende Methoden, um diese Lücke zu schließen, basieren auf überwachtem Feinabstimmen über groß angelegte multimodale Schlussfolgerungsdaten oder auf Verstärkungslernen, die beide ressourcenintensiv sind. Eine vielversprechende Alternative ist das Modellzusammenführen, bei dem Parameter zwischen schlussfolgerungsoptimierten LLMs und multimodalen Varianten interpoliert werden. Unsere Analyse zeigt jedoch, dass naives Zusammenführen nicht immer ein „kostenloser Gewinn“ ist: Seine Wirksamkeit variiert stark zwischen Modellfamilien, wobei einige (z. B. LLaVA, Idefics) profitieren, während andere (z. B. Qwen) Leistungseinbußen erleiden. Um dies zu adressieren, schlagen wir Directional Reasoning Injection for Fine-Tuning (DRIFT) MLLMs vor, eine leichtgewichtige Methode, die Schlussfolgerungswissen im Gradientenraum überträgt, ohne die multimodale Ausrichtung zu destabilisieren. DRIFT berechnet im Voraus einen Schlussfolgerungsprior als Parameterraumdifferenz zwischen schlussfolgerungsoptimierten und multimodalen Varianten und nutzt diesen, um Gradienten während des multimodalen Feinabstimmens zu beeinflussen. Dieser Ansatz bewahrt die Einfachheit standardmäßiger überwachter Feinabstimmungspipelines und ermöglicht gleichzeitig einen effizienten Transfer von Schlussfolgerungswissen. Umfangreiche Experimente auf multimodalen Schlussfolgerungsbenchmarks, einschließlich MathVista und MathVerse, zeigen, dass DRIFT die Leistung beim logischen Schlussfolgern im Vergleich zu naivem Zusammenführen und überwachtem Feinabstimmen konsequent verbessert und dabei ressourcenintensive Methoden bei einem Bruchteil der Kosten erreicht oder übertrifft.
Hochwertige Vortrainingsdaten sind entscheidend für große Sprachmodelle, wobei Qualität die faktische Zuverlässigkeit und den semantischen Wert erfasst und Diversität eine breite Abdeckung und verteilungsbezogene Heterogenität sicherstellt. Bestehende Ansätze stützen sich typischerweise auf eine ein- oder mehrdimensionale, bewertungsbasierte Auswahl. Die direkte Auswahl der höchstbewerteten Daten führt jedoch oft zu einer Verschlechterung der Leistung, und eine Stichprobenziehung aus einem breiteren Spektrum ist erforderlich, um die Ergebnisse wiederherzustellen. Die oben beschriebene Nicht-Monotonie zwischen den Datensatzbewertungen und den Ergebnissen nachgelagerter Benchmarks offenbart eine grundlegende Verzerrung: Bewertungsbasierte Methoden kollabieren korrelierte Dimensionen, wodurch die höchstbewerteten Daten qualitativ hochwertig erscheinen, während die Diversität systematisch übersehen wird. Wir argumentieren, dass die Sicherstellung von Diversität die Zerlegung korrelierter Metriken in orthogonale Merkmalsdimensionen erfordert, aus denen die höchstbewerteten Daten direkt ausgewählt werden können. Daher haben wir den Orthogonal Diversity-Aware Selection (ODiS)-Algorithmus vorgeschlagen, der sowohl Qualität als auch Diversität während der Datenauswahl bewahrt. Zunächst bewertet ODiS Daten aus mehreren Dimensionen, die Sprachqualität, Wissensqualität und Verständnisschwierigkeit abdecken. Die mehrdimensionalen Bewertungen werden dann durch Hauptkomponentenanalyse (PCA) dekorreliert, wodurch orthogonale Bewertungsdimensionen entstehen. Für jede Dimension wird ein Roberta-basierter Bewerter trainiert, um die Daten auf die PCA-projizierten Bewertungen zu regressieren, was eine skalierbare Inferenz auf großen Korpora ermöglicht. Schließlich konstruiert ODiS den Trainingsdatensatz, indem die höchstbewerteten Daten innerhalb jeder orthogonalen Dimension ausgewählt werden, wodurch sowohl Qualität als auch Diversität sichergestellt werden. Empirische Ergebnisse zeigen, dass die von ODiS ausgewählten Daten weniger als 2 % Überlappung zwischen den Dimensionen aufweisen, was die Orthogonalität zwischen den Dimensionen bestätigt. Noch wichtiger ist, dass Modelle, die mit ODiS-ausgewählten Daten trainiert wurden, andere Baselines auf nachgelagerten Benchmarks deutlich übertreffen, was die Notwendigkeit einer orthogonalen, diversitätsbewussten Datenauswahl für LLMs unterstreicht.
Raumimpulsantworten sind eine zentrale Ressource für Dereverberation, robuste Spracherkennung, Quellenlokalisierung und die Schätzung von Raumakustikeigenschaften. Wir stellen RIR-Mega vor, eine umfangreiche Sammlung simulierte Raumimpulsantworten, die durch ein kompaktes, maschinenfreundliches Metadatenschema beschrieben und mit einfachen Werkzeugen zur Validierung und Wiederverwendung bereitgestellt werden. Der Datensatz wird mit einem Hugging Face Datasets-Loader, Skripten zur Überprüfung von Metadaten und Prüfsummen sowie einer Referenz-Regressionsbasislinie ausgeliefert, die RT60-ähnliche Ziele aus Wellenformen vorhersagt. Auf einer Trainings- und Validierungsaufteilung von 36.000 bzw. 4.000 Beispielen erreicht ein kleiner Random Forest auf leichtgewichtigen Zeit- und Spektralmerkmalen einen mittleren absoluten Fehler von etwa 0,013 s und einen mittleren quadratischen Fehler von etwa 0,022 s. Wir hosten eine Teilmenge mit 1.000 Raumimpulsantworten für lineare Arrays und 3.000 Raumimpulsantworten für kreisförmige Arrays auf Hugging Face für Streaming und schnelle Tests und bewahren das vollständige Archiv mit 50.000 Raumimpulsantworten auf Zenodo auf. Der Datensatz und der Code sind öffentlich zugänglich, um reproduzierbare Studien zu unterstützen.
Die Bewertung des Fortschritts bei großen Sprachmodellen (LLMs) wird häufig durch die Herausforderung eingeschränkt, Antworten zu überprüfen, was die Bewertungen auf Aufgaben wie Mathematik, Programmierung und kurze Frage-Antwort-Formate beschränkt. Viele reale Anwendungen erfordern jedoch die Bewertung von LLMs bei der Verarbeitung professioneller Dokumente, der Synthese von Informationen und der Erstellung umfassender Berichte als Reaktion auf Benutzeranfragen. Wir stellen ProfBench vor: eine Sammlung von über 7000 Antwort-Kriterium-Paaren, die von menschlichen Experten mit Fachwissen in den Bereichen Physik-Promotion, Chemie-Promotion, Finance-MBA und Consulting-MBA bewertet wurden. Wir entwickeln robuste und kostengünstige LLM-Bewerter, um die ProfBench-Kriterien zu evaluieren, indem wir den Selbstverstärkungsbias reduzieren und die Bewertungskosten um das 2-3-fache senken, um sie fair und zugänglich für die breitere Gemeinschaft zu machen. Unsere Ergebnisse zeigen, dass ProfBench selbst für modernste LLMs erhebliche Herausforderungen darstellt, wobei Spitzenmodelle wie GPT-5-high nur eine Gesamtleistung von 65,9\% erreichen. Darüber hinaus identifizieren wir bemerkenswerte Leistungsunterschiede zwischen proprietären und Open-Weight-Modellen und geben Einblicke in die Rolle, die erweitertes Denken bei der Bewältigung komplexer, professioneller Aufgaben spielt. Daten: https://huggingface.co/datasets/nvidia/ProfBench und Code: https://github.com/NVlabs/ProfBench
Menschen sehen Text. Beim Lesen erkennen sie Wörter als visuelle Objekte, einschließlich ihrer Formen, Anordnungen und Muster, bevor sie diese mit Bedeutung verknüpfen. Dies ermöglicht es uns, effektiv mit Tippfehlern, verzerrten Schriftarten und verschiedenen Schriftsystemen umzugehen. Moderne große Sprachmodelle (LLMs) hingegen basieren auf Subwort-Tokenisierung, bei der Text in Fragmente aus einem festen Vokabular zerlegt wird. Während dieser Ansatz für hochfrequentierte Sprachen effektiv ist, führt er bei ressourcenarmen Sprachen zu einer Übersegmentierung, die lange, linguistisch bedeutungslose Sequenzen erzeugt und den Rechenaufwand erhöht. In dieser Arbeit stellen wir dieses etablierte Paradigma in Frage und entwickeln eine vision-zentrierte Alternative. Unsere Methode, SeeTok, stellt Text als Bilder (visueller Text) dar und nutzt vortrainierte multimodale LLMs, um diese zu interpretieren, wobei starke OCR- und Text-Vision-Ausrichtungsfähigkeiten, die durch groß angelegtes multimodales Training erlernt wurden, wiederverwendet werden. In drei verschiedenen Sprachaufgaben erreicht SeeTok vergleichbare oder bessere Ergebnisse als Subwort-Tokenisierer, benötigt jedoch 4,43-mal weniger Tokens und reduziert die FLOPs um 70,5 %, mit zusätzlichen Verbesserungen in der cross-lingualen Generalisierung, der Robustheit gegenüber typografischem Rauschen und der linguistischen Hierarchie. SeeTok markiert einen Wandel von der symbolischen Tokenisierung hin zu einem menschenähnlichen visuellen Lesen und macht einen Schritt in Richtung natürlicherer und kognitiv inspirierter Sprachmodelle.
Text-to-Image (T2I)-Modelle haben sich rasant weiterentwickelt, bleiben jedoch anfällig für semantische Leckagen, den unbeabsichtigten Transfer semantisch verwandter Merkmale zwischen verschiedenen Entitäten. Bestehende Strategien zur Minderung dieses Problems basieren oft auf Optimierungsverfahren oder sind von externen Eingaben abhängig. Wir stellen DeLeaker vor, einen leichten, optimierungsfreien Ansatz zur Laufzeit, der Leckagen durch direkte Eingriffe in die Aufmerksamkeitskarten des Modells reduziert. Während des Diffusionsprozesses gewichtet DeLeaker die Aufmerksamkeitskarten dynamisch neu, um übermäßige Interaktionen zwischen Entitäten zu unterdrücken und gleichzeitig die Identität jeder Entität zu stärken. Um eine systematische Bewertung zu ermöglichen, führen wir SLIM (Semantic Leakage in IMages) ein, den ersten Datensatz, der sich speziell semantischen Leckagen widmet und 1.130 von Menschen verifizierte Proben aus verschiedenen Szenarien umfasst, zusammen mit einem neuartigen automatischen Bewertungsrahmen. Experimente zeigen, dass DeLeaker durchweg alle Vergleichsmodelle übertrifft, selbst wenn diese mit externen Informationen versorgt werden, und effektive Leckagenminderung ohne Einbußen bei der Treue oder Qualität erreicht. Diese Ergebnisse unterstreichen den Wert der Aufmerksamkeitssteuerung und ebnen den Weg für semantisch präzisere T2I-Modelle.
Obwohl Mitgliedschaftsinferenzangriffe (MIAs) und die Erkennung maschinell erzeugter Texte unterschiedliche Ziele verfolgen – die Identifizierung von Trainingsdaten und synthetischen Texten – nutzen ihre Methoden oft ähnliche Signale, die auf der Wahrscheinlichkeitsverteilung eines Sprachmodells basieren. Trotz dieser gemeinsamen methodischen Grundlage wurden die beiden Aufgaben unabhängig voneinander untersucht, was zu Schlussfolgerungen führen kann, die stärkere Methoden und wertvolle Erkenntnisse, die in der jeweils anderen Aufgabe entwickelt wurden, übersehen. In dieser Arbeit untersuchen wir theoretisch und empirisch die Übertragbarkeit, d. h. wie gut eine Methode, die ursprünglich für eine Aufgabe entwickelt wurde, auf die andere Aufgabe anwendbar ist, zwischen MIAs und der Erkennung maschinell erzeugter Texte. Für unseren theoretischen Beitrag beweisen wir, dass die Metrik, die die asymptotisch höchste Leistung bei beiden Aufgaben erzielt, dieselbe ist. Wir vereinen einen großen Teil der bestehenden Literatur im Kontext dieser optimalen Metrik und stellen die Hypothese auf, dass die Genauigkeit, mit der eine gegebene Methode diese Metrik annähert, direkt mit ihrer Übertragbarkeit korreliert. Unsere umfangreichen empirischen Experimente, darunter 7 state-of-the-art MIA-Methoden und 5 state-of-the-art Erkennungsmethoden für maschinell erzeugte Texte über 13 Domänen und 10 Generatoren hinweg, zeigen eine sehr starke Rangkorrelation (rho > 0,6) in der leistungsübergreifenden Anwendung. Bemerkenswerterweise stellen wir fest, dass Binoculars, das ursprünglich für die Erkennung maschinell erzeugter Texte entwickelt wurde, auch bei MIA-Benchmarks state-of-the-art Leistung erzielt, was die praktische Bedeutung der Übertragbarkeit unterstreicht. Unsere Ergebnisse verdeutlichen die Notwendigkeit eines stärkeren Bewusstseins und einer stärkeren Zusammenarbeit zwischen den beiden Forschungsgemeinschaften. Um übergreifende Entwicklungen und faire Bewertungen zu erleichtern, führen wir MINT ein, eine einheitliche Evaluationsplattform für MIAs und die Erkennung maschinell erzeugter Texte, mit der Implementierung von 15 aktuellen Methoden aus beiden Aufgabenbereichen.
Transformer scheitern oft daran, verallgemeinerbare Algorithmen zu erlernen, und verlassen sich stattdessen auf spröde Heuristiken. Anhand der Graphenkonnektivität als Testumgebung erklären wir dieses Phänomen sowohl theoretisch als auch empirisch. Wir betrachten eine vereinfachte Transformer-Architektur, den entflochtenen Transformer, und beweisen, dass ein Modell mit L Schichten die Kapazität besitzt, Graphen mit Durchmessern bis genau 3^L zu lösen, wobei es einen Algorithmus implementiert, der der Berechnung von Potenzen der Adjazenzmatrix entspricht. Wir analysieren die Trainingsdynamik und zeigen, dass die erlernte Strategie davon abhängt, ob die meisten Trainingsinstanzen innerhalb dieser Modellkapazität liegen. Innerhalb der Kapazität liegende Graphen (Durchmesser ≤ 3^L) fördern das Erlernen einer korrekten algorithmischen Lösung, während Graphen, die die Kapazität überschreiten, das Erlernen einer einfachen Heuristik basierend auf Knotengraden begünstigen. Schließlich demonstrieren wir empirisch, dass die Beschränkung der Trainingsdaten auf die Kapazität eines Modells dazu führt, dass sowohl Standard- als auch entflochtene Transformer den exakten Algorithmus anstelle der gradbasierten Heuristik erlernen.