Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen Green-VLA vor, ein gestuftes Vision-Language-Action (VLA)-Framework für den realen Einsatz auf dem humanoiden Roboter Green, das gleichzeitig die Generalisierbarkeit über verschiedene Embodiments hinweg beibehält. Green-VLA folgt einem fünfstufigen Curriculum: (L0) grundlegende VLMs, (L1) multimodales Grounding, (R0) Multi-Embodiment-Pre-Training, (R1) embodimentspezifische Anpassung und (R2) Reinforcement-Learning (RL)-Policy-Alignment. Wir kombinieren eine skalierbare Datenverarbeitungspipeline (3.000 Stunden Demonstrationen) mit temporaler Ausrichtung und Qualitätsfilterung und verwenden eine einheitliche, embodiment-sensitive Aktionsschnittstelle, die es einer einzelnen Policy ermöglicht, humanoide Roboter, mobile Manipulatoren und stationäre Roboterarme zu steuern. Zur Inferenzzeit wird der VLA-Controller durch Episodenfortschrittsvorhersage, Out-of-Distribution-Erkennung und joint-prediction-basierte Führung erweitert, um die Sicherheit und präzise Zielauswahl zu verbessern. Experimente auf Simpler BRIDGE WidowX und CALVIN ABC-D sowie Evaluierungen mit realen Robotern zeigen eine starke Generalisierung und Leistungssteigerungen durch das RL-Alignment bei Erfolgsquote, Robustheit und Effizienz bei langen Zeithorizonten.
Wir stellen Kimi K2.5 vor, ein quelloffenes multimodales agentisches Modell, das entwickelt wurde, um die allgemeine agentische Intelligenz voranzutreiben. K2.5 legt den Schwerpunkt auf die gemeinsame Optimierung von Text und Vision, sodass sich beide Modalitäten gegenseitig verstärken. Dies umfasst eine Reihe von Techniken wie gemeinsames Text-Vision-Pre-Training, Zero-Vision-SFT und gemeinsames Text-Vision-Reinforcement-Learning. Auf dieser multimodalen Grundlage aufbauend führt K2.5 Agent Swarm ein, ein selbstgesteuertes Framework zur Parallel-Orchestrierung von Agenten, das komplexe Aufgaben dynamisch in heterogene Teilprobleme zerlegt und sie parallel ausführt. Umfangreiche Evaluationen zeigen, dass Kimi K2.5 state-of-the-art Ergebnisse in verschiedenen Bereichen erzielt, darunter Coding, Vision, Reasoning und agentische Aufgaben. Agent Swarm reduziert die Latenz zudem um bis zu das 4,5-fache im Vergleich zu Single-Agent-Baselines. Wir veröffentlichen den nachtrainierten Modell-Checkpoint von Kimi K2.5, um zukünftige Forschung und praktische Anwendungen agentischer Intelligenz zu fördern.
Multimodale große Sprachmodelle (MLLMs) haben bemerkenswerte Erfolge in einem breiten Spektrum von Vision-Aufgaben erzielt. Allerdings sind sie durch den Umfang ihres internen Weltwissens begrenzt. Frühere Arbeiten schlugen daher vor, MLLMs durch einen „Reasoning-then-Tool-Call“-Ansatz zu erweitern, um visuelle und textuelle Suchmaschinen anzusteuern und so erhebliche Verbesserungen bei Aufgaben zu erzielen, die umfangreiche Fakteninformationen erfordern. Diese Ansätze definieren multimodale Suche jedoch typischerweise in einer naiven Umgebung, indem sie annehmen, dass eine einzige bildbasierte Abfrage auf Vollbild- oder Entitätsebene in Kombination mit wenigen Textabfragen ausreicht, um die Schlüsselevidenz zur Beantwortung der Frage zu finden. Dies ist in realen Szenarien mit erheblichem visuellen Rauschen unrealistisch. Darüber hinaus sind sie oft in ihrer Reasoning-Tiefe und Suchbreite eingeschränkt, was es schwierig macht, komplexe Fragen zu lösen, die das Zusammenführen von Evidenz aus verschiedenen visuellen und textuellen Quellen erfordern. Aufbauend darauf schlagen wir Vision-DeepResearch vor, das ein neues multimodales Deep-Research-Paradigma einführt, d.h. es führt mehrstufige, multi-Entitäten- und multi-skalen visuelle und textuelle Suchen durch, um robust unter starkem Rauschen in realen Suchmaschinen zu bestehen. Unser Vision-DeepResearch unterstützt Dutzende von Reasoning-Schritten und Hunderte von Maschineninteraktionen, während es gleichzeitig Deep-Research-Fähigkeiten durch Cold-Start-Supervision und RL-Training im MLLM verinnerlicht, was zu einem starken end-to-end multimodalen Deep-Research-MLLM führt. Es übertrifft bestehende multimodale Deep-Research-MLLMs sowie Workflows, die auf starken Closed-Source-Foundation-Modellen wie GPT-5, Gemini-2.5-pro und Claude-4-Sonnet basieren, erheblich. Der Code wird unter https://github.com/Osilly/Vision-DeepResearch veröffentlicht.
Multimodale Large Language Models (MLLMs) haben Fortschritte im Bereich Visual Question Answering (VQA) erzielt und unterstützen nun Vision-DeepResearch-Systeme, die Suchmaschinen für komplexe visuell-textuelle Faktenrecherchen nutzen. Die Bewertung dieser visuellen und textuellen Suchfähigkeiten gestaltet sich jedoch nach wie vor schwierig, und bestehende Benchmarks weisen zwei gravierende Einschränkungen auf. Erstens sind bestehende Benchmarks nicht visuell-suchzentriert: Antworten, die eine visuelle Suche erfordern sollten, werden häufig durch textübergreifende Hinweise in den Textfragen preisgegeben oder können aus dem Weltwissen aktueller MLLMs abgeleitet werden. Zweitens ein übermäßig idealisiertes Bewertungsszenario: Auf der Bildsuchseite können die erforderlichen Informationen oft durch nahezu exaktes Abgleichen des gesamten Bildes gewonnen werden, während die Textsuchseite zu direkt und unzureichend anspruchsvoll ist. Um diese Probleme zu addressieren, konstruieren wir den Vision-DeepResearch-Benchmark (VDR-Bench) mit 2.000 VQA-Instanzen. Alle Fragen werden durch einen sorgfältigen, mehrstufigen Kuratierungsprozess und strenge Expertenüberprüfung erstellt, um das Verhalten von Vision-DeepResearch-Systemen unter realistischen, praxisnahen Bedingungen zu bewerten. Darüber hinaus schlagen wir, um die unzureichenden visuellen Retrieval-Fähigkeiten aktueller MLLMs zu addressieren, einen einfachen Workflow für die mehrfache Suche in Bildausschnitten vor. Diese Strategie erweist sich als wirksam zur Verbesserung der Modellleistung in realistischen visuellen Retrieval-Szenarien. Insgesamt liefern unsere Ergebnisse praktische Leitlinien für die Gestaltung zukünftiger multimodaler DeepResearch-Systeme. Der Code wird unter https://github.com/Osilly/Vision-DeepResearch veröffentlicht.
Aktuelle Repository-Agenten stoßen auf eine Denkdiskrepanz aufgrund fragmentierter Repräsentationen, da bestehende Methoden auf isolierten API-Dokumentationen oder Abhängigkeitsgraphen beruhen, denen semantische Tiefe fehlt. Wir betrachten Repository-Verständnis und -Generierung als inverse Prozesse innerhalb eines vereinheitlichten Zyklus: Generierung erweitert Absicht in Implementierung, während Verständnis Implementierung zurück in Absicht komprimiert. Um dies zu adressieren, schlagen wir RPG-Encoder vor, ein Framework, das den Repository-Planungsgraphen (RPG) von einer statischen generativen Blaupause in eine vereinheitlichte, hochpräzise Repräsentation verallgemeinert. RPG-Encoder schließt den Denkkreislauf durch drei Mechanismen: (1) Kodierung von Rohcode in den RPG, der angehobene semantische Merkmale mit Code-Abhängigkeiten kombiniert; (2) inkrementelle Evolution der Topologie, um Wartungskosten von der Repository-Größe zu entkoppeln, was den Overhead um 95,7 % reduziert; und (3) Betrieb als vereinheitlichte Schnittstelle für strukturbewusste Navigation. In Evaluierungen etabliert RPG-Encoder state-of-the-art Repository-Verständnis auf SWE-bench Verified mit 93,7 % Acc@5 und übertrifft die beste Baseline auf SWE-bench Live Lite um über 10 %. Diese Ergebnisse unterstreichen unsere überlegene feinkörnige Lokalisierungsgenauigkeit in komplexen Codebasen. Darüber hinaus erreicht es 98,5 % Rekonstruktionsabdeckung auf RepoCraft, was die hochpräzise Fähigkeit des RPG bestätigt, die ursprüngliche Codebasis abzubilden und den Kreislauf zwischen Absicht und Implementierung zu schließen.
Einheitliche multimodale Modelle haben oft Schwierigkeiten mit komplexen Syntheseaufgaben, die tiefgehendes Schlussfolgern erfordern, und behandeln Text-zu-Bild-Generierung und Bildbearbeitung typischerweise als isolierte Fähigkeiten statt als miteinander verbundene Denkschritte. Um dies zu adressieren, schlagen wir UniReason vor, einen einheitlichen Rahmen, der diese beiden Aufgaben durch ein duales Denkparadigma harmonisiert. Wir formulieren Generierung als planungsbasierte Wissenserweiterung, um implizite Beschränkungen einzuführen, und nutzen Bearbeitungsfähigkeiten zur feinkörnigen visuellen Verfeinerung, um visuelle Fehler durch Selbstreflexion weiter zu korrigieren. Dieser Ansatz vereint Generierung und Bearbeitung innerhalb einer gemeinsamen Repräsentation, was den menschlichen kognitiven Prozess von Planung gefolgt von Verfeinerung widerspiegelt. Wir untermauern diesen Rahmen durch die systematische Erstellung eines groß angelegten, reasoning-zentrierten Datensatzes (~300k Beispiele), der fünf Hauptwissensdomänen (z.B. kulturelles Alltagswissen, Physik etc.) für die Planung abdeckt, sowie eines durch Agenten generierten Korpus für visuelle Selbstkorrektur. Umfangreiche Experimente zeigen, dass UniReason fortschrittliche Leistung auf reasoning-intensiven Benchmarks wie WISE, KrisBench und UniREditBench erzielt, bei gleichzeitiger Aufrechterhaltung überlegener allgemeiner Synthesefähigkeiten.
Wir stellen SWE-Universe vor, ein skalierbares und effizientes Framework zur automatischen Konstruktion verifizierbarer Software Engineering (SWE)-Umgebungen aus realen GitHub-Pull-Requests (PRs). Um die vorherrschenden Herausforderungen des automatischen Buildprozesses – wie geringe Produktionsausbeute, schwache Verifizierer und prohibitive Kosten – zu überwinden, nutzt unser Framework einen Build-Agenten, der von einem effizienten, speziell trainierten Modell angetrieben wird. Dieser Agent setzt iterative Selbstverifikation und In-Loop-Hacking-Erkennung ein, um die zuverlässige Generierung hochwertiger, verifizierbarer Aufgaben sicherzustellen. Mit dieser Methode skalieren wir die Anzahl realer, mehrsprachiger SWE-Umgebungen auf eine Million Einheiten (807.693). Wir demonstrieren den erheblichen Wert unserer Umgebungen durch groß angelegtes agentenbasiertes Mid-Training und Reinforcement Learning. Abschließend wendeten wir diese Technik auf Qwen3-Max-Thinking an und erzielten eine Bewertung von 75,3 % im SWE-Bench Verified. Unsere Arbeit liefert sowohl eine kritische Ressource als auch eine robuste Methodik, um die nächste Generation von Coding-Agenten voranzubringen.
Tiefenrecherche etabliert sich zunehmend als repräsentative Langzeitaufgabe für Agenten auf Basis großer Sprachmodelle (LLMs). Lange Trajektorien bei der Tiefenrecherche überschreiten jedoch häufig die Kontextlimits der Modelle, was das Token-Budget für sowohl die Evidenzsammlung als auch das Verfassen des Berichts komprimiert und eine effektive Skalierung zur Testzeit verhindert. Wir stellen FS-Researcher vor, ein dateisystembasiertes, dual-agent Framework, das Tiefenrecherche über das Kontextfenster hinaus skaliert, indem es einen persistenten Arbeitsbereich nutzt. Konkret agiert ein Context Builder-Agent als Bibliothekar, der das Internet durchsucht, strukturierte Notizen anfertigt und Rohquellen in einer hierarchischen Wissensbasis archiviert, die weit über die Kontextlänge hinauswachsen kann. Ein Report Writer-Agent verfasst anschließend abschnittsweise den endgültigen Bericht und behandelt dabei die Wissensbasis als Faktenquelle. In diesem Framework dient das Dateisystem als dauerhafter externer Speicher und als gemeinsames Koordinationsmedium für Agenten und Sitzungen, was iterative Verbesserungen über das Kontextfenster hinaus ermöglicht. Experimente mit zwei Open-Ended-Benchmarks (DeepResearch Bench und DeepConsult) zeigen, dass FS-Researcher eine state-of-the-art Berichtsqualität über verschiedene Backbone-Modelle hinweg erreicht. Weitere Analysen demonstrieren eine positive Korrelation zwischen der endgültigen Berichtsqualität und der dem Context Builder zugewiesenen Rechenleistung, was eine effektive Skalierung zur Testzeit unter dem Dateisystem-Paradigma validiert. Der Code und die Daten sind anonym unter https://github.com/Ignoramus0817/FS-Researcher quelloffen verfügbar.
Die Pixeldiffusion erzeugt Bilder direkt im Pixelraum auf end-to-end Weise und vermeidet dadurch die Artefakte und Engpässe, die durch VAEs in zweistufiger latenter Diffusion eingeführt werden. Allerdings ist es herausfordernd, hochdimensionale Pixelmannigfaltigkeiten zu optimieren, die viele perceptuell irrelevante Signale enthalten, weshalb bestehende Pixeldiffusionsmethoden hinter latenten Diffusionsmodellen zurückbleiben. Wir schlagen PixelGen vor, ein einfaches Pixeldiffusionsframework mit perceptueller Überwachung. Anstatt die vollständige Bildmannigfaltigkeit zu modellieren, führt PixelGen zwei komplementäre perceptuelle Verluste ein, um das Diffusionsmodell dabei anzuleiten, eine bedeutungsvollere perceptuelle Mannigfaltigkeit zu erlernen. Ein LPIPS-Verlust erleichtert das Erlernen besserer lokaler Muster, während ein auf DINO basierender perceptueller Verlust die globale Semantik stärkt. Durch die perceptuelle Überwachung übertrifft PixelGen starke latente Diffusions-Baselines. Es erreicht einen FID von 5,11 auf ImageNet-256 ohne Classifier-Free Guidance bei nur 80 Trainingsepochen und zeigt eine günstige Skalierungsleistung bei großskaliger Text-zu-Bild-Generierung mit einem GenEval-Score von 0,79. PixelGen benötigt weder VAEs noch latente Repräsentationen oder Hilfsstufen und bietet somit ein einfacheres, aber leistungsfähigeres generatives Paradigma. Codes sind öffentlich verfügbar unter https://github.com/Zehong-Ma/PixelGen.
Progressives Lernen (PL) reduziert den Rechenaufwand beim Vorab-Training durch schrittweise Vergrößerung des Modellmaßstabs. Während frühere Arbeiten die Erweiterung der Tiefe umfassend untersucht haben, ist die Erweiterung der Breite deutlich weniger erforscht, wobei die wenigen existierenden Methoden auf die frühen Trainingsphasen beschränkt sind. Die Erweiterung der Breite in der mittleren Phase ist jedoch entscheidend, um Recheneinsparungen zu maximieren, stellt jedoch aufgrund schwerwiegender Trainingsinstabilitäten eine enorme Herausforderung dar. Empirisch zeigen wir, dass eine naive Initialisierung in dieser Phase die Aktivierungsstatistik stört und Verlustspitzen auslöst, während eine kopierbasierte Initialisierung Gradientensymmetrie einführt, die die Merkmalsvielfalt beeinträchtigt. Um diese Probleme zu lösen, schlagen wir SPARKLING (Abstimmung von {S}ignalerhaltung u{A}nd symmet{R}iebrechung für die breitenprogressive{L}ern{ING}) vor, ein neuartiges Framework für die Breitenerweiterung in der mittleren Phase. Unsere Methode erreicht Signalerhaltung durch RMS-Skalenkonsistenz, was die Aktivierungsstatistik während der Erweiterung stabilisiert. Die Symmetrieunterbrechung wird durch asymmetrische Zurücksetzung des Optimiererzustands und erneutes Aufwärmen der Lernrate sichergestellt. Umfangreiche Experimente mit Mixture-of-Experts (MoE)-Modellen zeigen, dass SPARKLING über mehrere Breitenachsen und Optimiererfamilien hinweg konsistent besser abschneidet als das Training von Grund auf und die Trainingskosten bei einer 2-fachen Breitenerweiterung um bis zu 35 % senkt.
Semantic-ID (SID)-basierte Empfehlung ist ein vielversprechendes Paradigma zur Skalierung sequenzieller Empfehlungssysteme. Bisherige Methoden folgen jedoch weitgehend einer semantikzentrierten Pipeline: Item-Embeddings werden aus Foundation Models gelernt und mit generischen Quantisierungsschemata diskretisiert. Dieses Design steht nicht im Einklang mit generativen Empfehlungszielen: Semantische Embeddings sind schwach mit der kollaborativen Vorhersage gekoppelt, und generische Quantisierung ist ineffizient bei der Reduzierung sequenzieller Unsicherheit für die autoregressive Modellierung. Um diese Probleme zu lösen, schlagen wir ReSID vor, ein empfehlungsnatives, prinzipielles SID-Framework, das Representation Learning und Quantisierung aus der Perspektive der Informationserhaltung und sequenziellen Vorhersagbarkeit neu konzipiert, ohne auf LLMs angewiesen zu sein. ReSID besteht aus zwei Komponenten: (i) Field-Aware Masked Auto-Encoding (FAMAE), das prädiktiv suffiziente Item-Repräsentationen aus strukturierten Merkmalen lernt, und (ii) Globally Aligned Orthogonal Quantization (GAOQ), das durch gemeinsame Reduzierung von semantischer Ambiguität und präfix-konditionaler Unsicherheit kompakte und vorhersagbare SID-Sequenzen erzeugt. Theoretische Analysen und umfangreiche Experimente über zehn Datensätze hinweg zeigen die Wirksamkeit von ReSID. ReSID übertrifft durchgängig starke sequenzielle und SID-basierte generative Baseline-Methoden im Durchschnitt um über 10 %, bei gleichzeitiger Reduzierung der Tokenisierungskosten um bis zum 122-Fachen. Code ist verfügbar unter https://github.com/FuCongResearchSquad/ReSID.
Das Nachtraining von Reasoning-LLMs ist ein ganzheitlicher Prozess, der typischerweise aus einer Offline-SFT-Phase gefolgt von einer Online-Reinforcement-Learning (RL)-Phase besteht. Allerdings wird SFT oft isoliert optimiert, um lediglich die SFT-Leistung zu maximieren. Wir zeigen, dass Modelle, die von stärkeren SFT-Checkpoints initialisiert werden, nach identischem RL-Training signifikant schlechter abschneiden können als solche, die von schwächeren Checkpoints initialisiert werden. Wir führen dies auf eine für aktuelle SFT-RL-Pipelines typische Diskrepanz zurück: Die Verteilung, die die Offline-SFT-Daten generiert, kann sich erheblich von der Policy unterscheiden, die während des Online-RL optimiert wird und aus ihren eigenen Rollouts lernt. Wir schlagen PEAR (Policy Evaluation-inspired Algorithm for Offline Learning Loss Re-weighting) vor, eine SFT-Phasen-Methode, die diese Diskrepanz korrigiert und das Modell besser auf RL vorbereitet. PEAR verwendet Importance Sampling, um den SFT-Loss neu zu gewichten, mit drei Varianten, die auf Token-, Block- und Sequenzebene operieren. Es kann verwendet werden, um standardmäßige SFT-Ziele zu erweitern, und verursacht nur geringen zusätzlichen Trainingsaufwand, sobald die Wahrscheinlichkeiten für die Offline-Daten gesammelt sind. Wir führen kontrollierte Experimente mit überprüfbaren Reasoning-Spielen und mathematischen Reasoning-Aufgaben an Qwen 2.5- und 3- sowie DeepSeek-distilled-Modellen durch. PEAR verbessert konsistent die Leistung nach dem RL-Training im Vergleich zur kanonischen SFT, mit Pass@8-Steigerungen von bis zu 14,6 Prozent bei AIME2025. Unsere Ergebnisse deuten darauf hin, dass PEAR ein effektiver Schritt hin zu einem ganzheitlicheren Nachtraining von LLMs ist, indem SFT mit Blick auf das nachgelagerte RL entworfen und evaluiert wird, anstatt es isoliert zu betrachten.
Mobile Graphical User Interface (GUI) World Models (WMs) bieten einen vielversprechenden Ansatz zur Verbesserung der Leistung mobiler GUI-Agenten während des Trainings und Inferenz. Allerdings stehen aktuelle Ansätze vor einem kritischen Zielkonflikt: textbasierte WMs opfern visuelle Genauigkeit, während die Unfähigkeit visueller WMs zur präzisen Textdarstellung zu ihrer Abhängigkeit von langsamen, komplexen Pipelines mit zahlreichen externen Modellen führte. Wir schlagen ein neuartiges Paradigma vor: visuelle Weltmodellierung durch renderbare Codegenerierung, bei der ein einziges Vision-Language Model (VLM) den nächsten GUI-Zustand als ausführbaren Webcode vorhersagt, der in Pixel gerendert wird, anstatt Pixel direkt zu generieren. Dies kombiniert die Stärken beider Ansätze: VLMs behalten ihre linguistischen Priors für präzise Textdarstellung, während ihr Vortraining an strukturiertem Webcode hochwertige visuelle Generierung ermöglicht. Wir stellen gWorld (8B, 32B) vor, die ersten Open-Weight visuellen mobilen GUI-WMs, die auf diesem Paradigma basieren, zusammen mit einem Datengenerierungsframework (gWorld), das automatisch codebasierte Trainingsdaten synthetisiert. In umfangreichen Evaluationen über 4 In-Distribution- und 2 Out-of-Distribution-Benchmarks setzt gWorld eine neue Pareto-Grenze in Bezug auf Genauigkeit versus Modellgröße und übertrifft 8 führende Open-Weight-Modelle, die bis zu 50,25-mal größer sind. Weitere Analysen zeigen, dass (1) Skalierung der Trainingsdaten durch gWorld signifikante Verbesserungen bringt, (2) jede Komponente unserer Pipeline die Datenqualität steigert und (3) stärkere Weltmodellierung die Leistung nachgelagerter mobiler GUI-Policies verbessert.
Graph-basierte Retrieval-Augmented Generation (GraphRAG) organisiert externes Wissen als hierarchischen Graphen und ermöglicht so die effiziente Abfrage und Aggregation verstreuter Belege über mehrere Dokumente hinweg. Viele bestehende Benchmarks für GraphRAG stützen sich jedoch auf kurze, aufbereitete Textpassagen als externes Wissen und können Systeme in realistischen Szenarien mit langen Kontexten und großen Mengen heterogener Dokumente nicht angemessen evaluieren. Um diese Lücke zu schließen, stellen wir WildGraphBench vor, einen Benchmark zur Bewertung der GraphRAG-Leistung unter realen Bedingungen. Wir nutzen die einzigartige Struktur von Wikipedia, bei der kohärente Narrative auf langen und heterogenen externen Referenzdokumenten basieren, um einen Benchmark zu konstruieren, der realistische Szenarien widerspiegelt. Konkret sampeln wir Artikel aus 12 übergeordneten Themenbereichen, verwenden deren externe Referenzen als Retrieval-Korpus und zitierverknüpfte Aussagen als Ground Truth, was zu 1.100 Fragen über drei Komplexitätsstufen führt: Einzelfakt-Fragen, Multifakt-Fragen und Abschnittszusammenfassungen. Experimente mit mehreren Baseline-Modellen zeigen, dass aktuelle GraphRAG-Pipelines bei der Multifakt-Aggregation helfen, wenn die Belege aus einer moderaten Anzahl von Quellen stammen. Dieses Aggregationsparadigma kann jedoch hochrangige Aussagen überbetonen auf Kosten feinkörniger Details, was zu schwächerer Leistung bei Zusammenfassungsaufgaben führt. Projektseite: https://github.com/BstWPY/WildGraphBench.
Chain-of-Thought-Reasoning hat große Sprachmodelle dazu gebracht, vom Denken mit Text zum Denken mit Bildern und Videos überzugehen. Allerdings weisen verschiedene Modalitäten nach wie vor deutliche Einschränkungen auf: Statische Bilder können zeitliche Strukturen nur unzureichend abbilden, während Videos erhebliche Redundanzen und Rechenkosten verursachen. In dieser Arbeit schlagen wir „Thinking with Comics“ vor – ein Paradigma des visuellen Denkens, das Comics als medium mit hoher Informationsdichte zwischen Bildern und Videos positioniert. Comics bewahren zeitliche Strukturen, eingebetteten Text und narrative Kohärenz, erfordern dabei jedoch deutlich geringere Denkkosten. Wir untersuchen systematisch zwei auf Comics basierende Denkpfade und evaluieren diese anhand einer Reihe von Denkaufgaben und Aufgaben zum Verständnis langer Kontexte. Experimentelle Ergebnisse zeigen, dass „Thinking with Comics“ bei mehrstufigen zeitlichen und kausalen Denkaufgaben besser abschneidet als „Thinking with Images“, während es gleichzeitig erheblich effizienter bleibt als „Thinking with Video“. Weitere Analysen zeigen, dass verschiedene Comic-Erzählstrukturen und -stile die Leistung über verschiedene Aufgaben hinweg konsistent beeinflussen, was darauf hindeutet, dass Comics als effektive visuelle Zwischendarstellung zur Verbesserung multimodalen Denkens dienen.
Wir stellen RLAnything vor, ein Reinforcement-Learning-Framework, das Umgebungs-, Policy- und Belohnungsmodelle durch Closed-Loop-Optimierung dynamisch formt, Lernsignale verstärkt und das gesamte RL-System für beliebige LLM- oder agentenbasierte Szenarien stärkt. Konkret wird die Policy mit integriertem Feedback aus schrittweisen und ergebnisbasierten Signalen trainiert, während das Belohnungsmodell gemeinsam durch Konsistenzfeedback optimiert wird, was wiederum das Policy-Training weiter verbessert. Darüber hinaus verbessert unsere theoriegestützte automatische Umgebungsanpassung das Training sowohl für die Belohnungs- als auch die Policy-Modelle, indem sie Kritiker-Feedback von beiden nutzt und so Lernen aus Erfahrung ermöglicht. Empirisch führt jede hinzugefügte Komponente konsequent zu Verbesserungen des Gesamtsystems, und RLAnything erzielt substantiale Gewinne über verschiedene repräsentative LLM- und agentenbasierte Aufgaben hinweg – es steigert Qwen3-VL-8B-Thinning um 9,1 % auf OSWorld und Qwen2.5-7B-Instruct um 18,7 % bzw. 11,9 % auf AlfWorld und LiveBench. Wir zeigen auch, dass optimierte Belohnungsmodell-Signale Ergebnisse übertreffen, die auf menschlichen Labels basieren. Code: https://github.com/Gen-Verse/Open-AgentRL
Deep Research Agents (DRAs) haben bemerkenswerte Fähigkeiten bei der autonomen Informationsbeschaffung und Berichterstellung demonstriert und zeigen großes Potenzial, Menschen bei komplexen Forschungsaufgaben zu unterstützen. Aktuelle Evaluierungsrahmen stützen sich primär auf LLM-generierte Referenzen oder LLM-abgeleitete Bewertungsdimensionen. Obwohl diese Ansätze Skalierbarkeit bieten, mangelt es ihnen oft an der Zuverlässigkeit expertengeprüfter Inhalte, und sie können keine objektiven, feingranularen Bewertungen kritischer Dimensionen liefern. Um diese Lücke zu schließen, stellen wir Wiki Live Challenge (WLC) vor, einen Live-Benchmark, der die neuesten Wikipedia-Exzellente Artikel (GAs) als Expertenreferenzen nutzt. Wikipedias strenge Standards für Neutralität, Umfassendheit und Überprüfbarkeit stellen eine große Herausforderung für DRAs dar, wobei GAs die Spitze dieser Anforderungen repräsentieren. Wir haben einen Datensatz mit 100 aktuellen Exzellenten Artikeln kuratiert und schlagen Wiki Eval vor, einen umfassenden Evaluierungsrahmen, der eine feingranulare Bewertungsmethode mit 39 Kriterien für die Schreibqualität sowie strenge Metriken für faktische Überprüfbarkeit umfasst. Umfangreiche Experimente mit verschiedenen DRA-Systemen zeigen eine signifikante Lücke zwischen aktuellen DRAs und menschlichen Experten-artikeln auf Wikipedia und validieren die Wirksamkeit von WLC für die Weiterentwicklung der Agentenforschung. Unser Benchmark ist unter https://github.com/WangShao2000/Wiki_Live_Challenge verfügbar.
Methoden zur direkten Präferenzoptimierung haben sich als recheneffiziente Alternative zu Reinforcement Learning from Human Feedback (RLHF) für die Ausrichtung von Large Language Models (LLMs) etabliert. Neuere Ansätze haben den Ausrichtungsprozess durch die Ableitung impliziter Belohnungsfunktionen optimiert, leiden jedoch häufig unter einem kritischen Zielkonflikt: Die Optimierung der relativen Marge zwischen gewählten und abgelehnten Antworten gewährleistet nicht die Erhaltung der absoluten Wahrscheinlichkeit der gewählten Antwort. Dies kann zu „Verlernen“ führen, bei dem das Modell die Wahrscheinlichkeit hochwertiger Ausgaben verschlechtert, um Margenanforderungen zu erfüllen, sowie zu einem „Formatierungszusammenbruch“, verursacht durch die Überbestrafung abgelehnter Sequenzen. In dieser Arbeit stellen wir SLIME (Stabilized Likelihood Implicit Margin Enforcement) vor, ein referenzfreies Ausrichtungsziel, das entwickelt wurde, um Präferenzlernen von der Generierungsqualität zu entkoppeln. SLIME umfasst einen dreigliedrigen Ansatz: (1) einen Verankerungsterm zur Maximierung der Wahrscheinlichkeit bevorzugter Antworten; (2) eine stabilisierende Straffunktion, die verhindert, dass die Wahrscheinlichkeiten abgelehnter Tokens auf null kollabieren; und (3) einen Dual-Margin-Mechanismus, der harte und weiche Einschränkungen für eine präzise Grenzformung kombiniert. Unsere Ergebnisse zeigen, dass SLIME im Vergleich zu modernen Baseline-Methoden eine überlegene Leistung erzielt und dabei eine höhere Generierungsstabilität beibehält.
Autoregressive Video-Diffusionsmodelle ermöglichen Streaming-Generierung und eröffnen damit die Tür zu Langform-Synthese, Video-Weltmodellen und interaktiven neuronalen Spiel-Engines. Allerdings werden ihre zentralen Attention-Schichten zur Laufzeit zu einem großen Engpass: Mit fortschreitender Generierung wächst der KV-Cache, was sowohl zu steigender Latenz als auch zu ansteigendem GPU-Speicherverbrauch führt, was wiederum den nutzbaren zeitlichen Kontext einschränkt und die Langreichweiteneinheitlichkeit beeinträchtigt. In dieser Arbeit untersuchen wir Redundanzen in der autoregressiven Video-Diffusion und identifizieren drei beständige Quellen: nahezu identische zwischengespeicherte Keys über Frames hinweg, sich langsam entwickelnde (überwiegend semantische) Queries/Keys, die viele Attention-Berechnungen redundant machen, und Cross-Attention bei langen Prompts, bei denen nur eine kleine Teilmenge von Tokens pro Frame relevant ist. Aufbauend auf diesen Beobachtungen schlagen wir einen einheitlichen, trainingsfreien Attention-Rahmen für autoregressive Diffusion vor: TempCache komprimiert den KV-Cache über temporale Korrespondenz, um das Cache-Wachstum zu begrenzen; AnnCA beschleunigt Cross-Attention, indem es frame-relevante Prompt-Tokens mittels schneller approximativer Nearest-Neighbor(ANN)-Zuordnung auswählt; und AnnSA verdünnt Self-Attention, indem jede Query auf semantisch passende Keys beschränkt wird, ebenfalls unter Verwendung eines leichtgewichtigen ANN. Zusammen reduzieren diese Module Aufmerksamkeits-, Rechen- und Speicheraufwand und sind kompatibel mit bestehenden autoregressiven Diffusions-Backbones und Weltmodellen. Experimente zeigen bis zu 5–10-fache End-to-End-Beschleunigungen bei nahezu identischer visueller Qualität und, entscheidend, stabiler Durchsatzrate sowie nahezu konstantem GPU-Spitzenspeicherverbrauch über lange Generierungssequenzen, während bisherige Methoden fortschreitend verlangsamen und unter steigendem Speicherverbrauch leiden.
Um echtzeitfähige interaktive Videogenerierung zu erreichen, distillieren aktuelle Methoden vortrainierte bidirektionale Videodiffusionsmodelle zu autoregressiven (AR) Modellen mit wenigen Schritten, wodurch eine architektonische Lücke entsteht, wenn volle Aufmerksamkeit durch kausale Aufmerksamkeit ersetzt wird. Bisherige Ansätze schließen diese Lücke jedoch nicht theoretisch. Sie initialisieren den AR-Studenten durch ODE-Distillation, was Frame-Injektivität erfordert – d.h., jedes verrauschte Frame muss unter der PF-ODE eines AR-Lehrers auf ein eindeutiges cleanes Frame abgebildet werden. Die Distillation eines AR-Studenten aus einem bidirektionalen Lehrer verletzt diese Bedingung, verhindert die Wiederherstellung der Flussabbildung des Lehrers und führt stattdessen zu einer Lösung als konditionale Erwartung, was die Leistung beeinträchtigt. Um dieses Problem zu lösen, schlagen wir Causal Forcing vor, das einen AR-Lehrer zur ODE-Initialisierung verwendet und so die architektonische Lücke schließt. Empirische Ergebnisse zeigen, dass unsere Methode alle Baseline-Methoden in allen Metriken übertrifft und den State-of-the-Art-Ansatz Self Forcing um 19,3 % im Dynamic Degree, 8,7 % im VisionReward und 16,7 % im Instruction-Following überbietet. Projektseite und Code: https://thu-ml.github.io/CausalForcing.github.io/
Die Text-zu-Video (T2V)-Generierung zielt darauf ab, Videos mit hoher visueller Qualität und zeitlicher Konsistenz zu synthetisieren, die semantisch mit dem Eingabetext übereinstimmen. Belohnungsbasiertes Nachtraining hat sich als vielversprechende Richtung erwiesen, um die Qualität und semantische Übereinstimmung generierter Videos zu verbessern. Allerdings stützen sich aktuelle Methoden entweder auf umfangreiche menschliche Präferenzannotationen oder arbeiten mit fehlausgerichteten Embeddings aus vortrainierten Vision-Language-Modellen, was zu begrenzter Skalierbarkeit oder suboptimaler Supervision führt. Wir stellen PISCES vor, einen annotierungsfreien Nachtrainingsalgorithmus, der diese Einschränkungen durch ein neuartiges Dual Optimal Transport (OT)-aligned Rewards Modul adressiert. Um Belohnungssignale mit menschlichem Urteilsvermögen in Einklang zu bringen, verwendet PISCES OT, um Text- und Video-Embeddings sowohl auf verteilungsbasierter als auch auf diskreter Token-Ebene zu verbinden. Dies ermöglicht eine Belohnungssupervision, die zwei Ziele erfüllt: (i) einen Distributional OT-aligned Quality Reward, der die allgemeine visuelle Qualität und zeitliche Kohärenz erfasst; und (ii) einen Discrete Token-level OT-aligned Semantic Reward, der die semantische, räumlich-zeitliche Übereinstimmung zwischen Text- und Video-Tokens erzwingt. Unseres Wissens ist PISCES die erste Methode, die die annotierungsfreie Belohnungssupervision im generativen Nachtraining durch die Linse der OT verbessert. Experimente zur Generierung kurzer und langer Videos zeigen, dass PISCES sowohl annotierungsbasierte als auch annotierungsfreie Methoden auf VBench hinsichtlich Qualitäts- und Semantik-Scores übertrifft, wobei menschliche Präferenzstudien die Wirksamkeit weiter validieren. Wir zeigen, dass das Dual OT-aligned Rewards Modul mit mehreren Optimierungsparadigmen kompatibel ist, einschließlich direkter Backpropagation und Reinforcement Learning Fine-Tuning.
Während die Text-zu-Bild-Generierung beispiellose Detailtreue erreicht hat, funktionieren die allermeisten bestehenden Modelle im Wesentlichen als statische Text-zu-Pixel-Decoder. Folglich erfassen sie oft nicht die impliziten Absichten des Nutzers. Obwohl neu aufkommende vereinheitlichte Verstehens- und Generierungsmodelle das Verständnis für Intentionen verbessert haben, haben sie immer noch Schwierigkeiten, Aufgaben zu bewältigen, die komplexe Wissensabfolgen innerhalb eines einzelnen Modells erfordern. Darüber hinaus können diese Modelle, beschränkt durch statische interne Priors, sich nicht an die sich entwickelnde Dynamik der realen Welt anpassen. Um diese Lücken zu schließen, stellen wir Mind-Brush vor, einen vereinheitlichten agentenbasierten Rahmen, der Generierung in einen dynamischen, wissensgesteuerten Workflow transformiert. Indem es ein menschenähnliches „Denken-Recherchieren-Erstellen“-Paradigma simuliert, ruft Mind-Brush aktiv multimodale Evidenzen ab, um Out-of-Distribution-Konzepte zu verankern, und setzt Reasoning-Tools ein, um implizite visuelle Randbedingungen aufzulösen. Um diese Fähigkeiten rigoros zu bewerten, schlagen wir Mind-Bench vor, einen umfassenden Benchmark, der 500 verschiedene Samples umfasst, die Echtzeit-Nachrichten, neu aufkommende Konzepte und Domänen wie mathematisches und Geo-Reasoning abdecken. Umfangreiche Experimente zeigen, dass Mind-Brush die Fähigkeiten vereinheitlichter Modelle signifikant steigert und einen Fähigkeitssprung von null auf eins für die Qwen-Image-Baseline auf Mind-Bench realisiert, während es gleichzeitig überlegene Ergebnisse auf etablierten Benchmarks wie WISE und RISE erzielt.
Zunehmende Bemühungen zur Verbesserung der Wissensdistillation (KD) bei großen Sprachmodellen (LLMs) ersetzen die dichte Lehrerüberwachung durch selektive Distillation, die eine Teilmenge von Token-Positionen, Vokabularklassen oder Trainingsbeispielen zur Überwachung verwendet. Es bleibt jedoch unklar, welche Signale für die Wichtigkeit, Auswahlstrategien und deren Zusammenspiel am effektivsten sind. In dieser Arbeit untersuchen wir erneut, wo und wie bei autoregressiven LLMs zu distillieren ist. Wir trennen selektive KD entlang der Positions-, Klassen- und Beispiel-Achsen auf und vergleichen systematisch Signale für die Wichtigkeit und Auswahlstrategien. Anschließend identifizieren wir, geleitet durch diese Analyse, unzureichend erforschte Möglichkeiten und führen eine positionsselektion basierend auf der Entropie des Schülers (SE-KD) ein. Über eine Reihe von Benchmarks hinweg verbessert SE-KD oft die Genauigkeit, die Einhaltung von Downstream-Aufgaben und die Speichereffizienz im Vergleich zur dichten Distillation. Die Ausweitung dieses Ansatzes über die Klassen- und Beispiel-Achsen (SE-KD 3X) führt zu komplementären Effizienzgewinnen, die ein Offline-Caching des Lehrers praktikabel machen. In der Praxis reduziert dies die Echtzeit um 70 % und den Spitzenspeicherbedarf um 18 %, während die Speichernutzung im Vergleich zu früheren Methoden um 80 % gesenkt wird, ohne die Leistung zu beeinträchtigen.
LLM-basierte Deep-Research-Agents basieren weitgehend auf dem ReAct-Framework. Dieser lineare Ansatz erschwert es, frühere Zustände erneut zu betrachten, alternative Suchrichtungen zu verfolgen oder ein globales Verständnis bei langen Kontexten aufrechtzuerhalten, was häufig zu lokalen Optima, redundanter Exploration und ineffizienter Suche führt. Wir schlagen Re-TRAC vor, ein agentenbasiertes Framework, das eine trajektorienübergreifende Exploration durchführt, indem es nach jeder Trajektorie eine strukturierte Zustandsrepräsentation erzeugt, um Evidenzen, Unsicherheiten, Fehler und zukünftige Pläne zusammenzufassen, und nachfolgende Trajektorien auf dieser Zustandsrepräsentation konditioniert. Dies ermöglicht iterative Reflexion und global informierte Planung und stellt Forschung als einen fortschreitenden Prozess dar. Empirische Ergebnisse zeigen, dass Re-TRAC auf BrowseComp mit modernen LLMs durchgängig eine um 15–20 % bessere Leistung als ReAct erzielt. Für kleinere Modelle führen wir ein Re-TRAC-bewusstes supervidiertes Fine-Tuning ein, das state-of-the-art Leistung bei vergleichbarer Größe erreicht. Bemerkenswerterweise zeigt Re-TRAC eine monotone Reduktion von Tool-Aufrufen und Token-Verbrauch über mehrere Runden, was auf eine zunehmend zielgerichtete Exploration durch trajektorienübergreifende Reflexion statt redundante Suche hindeutet.
Wir stellen FSVideo vor, ein auf dem Transformer basierendes Bild-zu-Video (I2V) Diffusionsframework für hohe Geschwindigkeiten. Unser Framework basiert auf den folgenden Schlüsselkomponenten: 1.) einem neuen Video-Autoencoder mit hochkomprimiertem latentem Raum (räumlich-zeitliches Downsampling-Verhältnis von 64x64x4), der eine wettbewerbsfähige Rekonstruktionsqualität erreicht; 2.) einer Diffusion-Transformer (DIT)-Architektur mit einem neuen Layer-Memory-Design, um den Informationsfluss zwischen den Schichten und die Wiederverwendung von Kontext innerhalb des DIT zu verbessern, und 3.) einer Multi-Resolution-Generierungsstrategie mittels eines DIT-Upsamplers mit wenigen Schritten, um die Videotreue zu erhöhen. Unser finales Modell, das ein 14B DIT-Basismodell und einen 14B DIT-Upsampler umfasst, erzielt eine wettbewerbsfähige Performance im Vergleich zu anderen populären Open-Source-Modellen, ist dabei jedoch um eine Größenordnung schneller. In diesem Bericht erörtern wir unser Modell-Design sowie die Trainingsstrategien.
Der japanische Finanzsektor vereint eine agglutinierende, kopffinale Sprachstruktur, gemischte Schriftsysteme und hochkontextuelle Kommunikationsnormen, die auf indirekte Ausdrucksweisen und implizite Verpflichtungen angewiesen sind, was eine erhebliche Herausforderung für große Sprachmodelle (LLMs) darstellt. Wir stellen Ebisu vor, einen Benchmark für das native Verständnis der japanischen Finanzsprache, der zwei linguistisch und kulturell fundierte, von Experten annotierte Aufgaben umfasst: JF-ICR, das die Erkennung impliziter Verpflichtungen und Ablehnungen in investororientierten Frage-Antwort-Szenarien bewertet, und JF-TE, das die hierarchische Extraktion und Rangfolge verschachtelter Finanzbegriffe aus professionellen Offenlegungen prüft. Wir evaluieren eine Vielzahl von Open-Source- und proprietären LLMs, darunter allgemeine, japanisch-adaptierte und finanzspezifische Modelle. Die Ergebnisse zeigen, dass selbst modernste Systeme bei beiden Aufgaben Schwierigkeiten haben. Während größere Modelle nur begrenzte Verbesserungen bringen, führt sprach- und domainspezifische Anpassung nicht zuverlässig zu besserer Leistung, sodass erhebliche Lücken bestehen bleiben. Ebisu bietet einen fokussierten Benchmark für die Weiterentwicklung linguistisch und kulturell fundierter Finanz-NLP. Alle Datensätze und Auswertungsskripte sind öffentlich zugänglich.
Ein visuelles Metapher stellt eine hochgradige Form menschlicher Kreativität dar, die domänenübergreifende semantische Fusion nutzt, um abstrakte Konzepte in wirkungsvolle visuelle Rhetorik zu transformieren. Trotz der bemerkenswerten Fortschritte generativer KI bleiben bestehende Modelle weitgehend auf Pixel-basierte Befehlsausrichtung und oberflächliche Darstellungserhaltung beschränkt und erfassen nicht die zugrundeliegende abstrakte Logik, die für echte metaphorische Generierung notwendig ist. Um diese Lücke zu schließen, führen wir die Aufgabe des Visuellen Metapher-Transfers (VMT) ein, die Modelle dazu herausfordert, das "kreative Wesen" autonom von einem Referenzbild zu entkoppeln und diese abstrakte Logik auf ein benutzerdefiniertes Zielsubjekt neu zu materialisieren. Wir schlagen einen kognitionsinspirierten, Multi-Agenten-Ansatz vor, der die Conceptual Blending Theory (CBT) durch eine neuartige Schema-Grammatik ("G") operationalisiert. Diese strukturierte Repräsentation entkoppelt relationale Invarianten von spezifischen visuellen Entitäten und bietet eine rigorose Grundlage für domänenübergreifende Logik-Reinstanziierung. Unsere Pipeline führt VMT durch ein kollaboratives System spezialisierter Agenten aus: einen Wahrnehmungs-Agenten, der die Referenz in ein Schema destilliert, einen Transfer-Agenten, der Invarianz im generischen Raum aufrechterhält, um geeignete Träger zu entdecken, einen Generierungs-Agenten für hochwertige Synthese und einen hierarchischen Diagnose-Agenten, der einem professionellen Kritiker nachempfunden ist und Closed-Loop-Rückverfolgung durchführt, um Fehler in abstrakter Logik, Komponentenauswahl und Prompt-Codierung zu identifizieren und zu korrigieren. Umfangreiche Experimente und menschliche Evaluationen zeigen, dass unsere Methode state-of-the-art Baseline-Verfahren in metaphorischer Konsistenz, Analogieangemessenheit und visueller Kreativität signifikant übertrifft und den Weg für automatisierte, kreative Hochimpact-Anwendungen in Werbung und Medien ebnet. Der Quellcode wird öffentlich verfügbar gemacht.
Multimodale Large Language Models (MLLMs) haben bemerkenswerte Erfolge bei Open-Vocabulary-Wahrnehmungsaufgaben erzielt, doch ihre Fähigkeit, komplexe kognitive Probleme zu lösen, bleibt begrenzt, insbesondere wenn visuelle Details abstrakt sind und visuelles Gedächtnis erfordern. Aktuelle Ansätze skalieren primär das Chain-of-Thought (CoT)-Reasoning im Textraum, selbst wenn Sprache allein für klares und strukturiertes Schlussfolgern unzureichend ist, und vernachlässigen weitgehend visuelle Reasoning-Mechanismen, die dem menschlichen visuell-räumlichen Notizblock und der Visual Imagery analog sind. Um dieses Defizit zu beheben, führen wir Cognitive Supersensing ein, ein neuartiges Trainingsparadigma, das MLLMs menschenähnliche Visual-Imagery-Fähigkeiten verleiht, indem es einen Latent Visual Imagery Prediction (LVIP)-Head integriert. Dieser lernt gemeinsam Sequenzen visuell-kognitiver latenter Einbettungen und richtet sie an der Antwort aus, wodurch visionsbasierte interne Reasoning-Ketten gebildet werden. Wir führen zudem eine Verstärkungslern-Phase ein, die Text-Reasoning-Pfade auf Basis dieses fundierten visuellen Latent-Zustands optimiert. Um die kognitiven Fähigkeiten von MLLMs zu bewerten, präsentieren wir CogSense-Bench, einen umfassenden Benchmark für Visual Question Answering (VQA), der fünf kognitive Dimensionen erfasst. Umfangreiche Experimente zeigen, dass mit Cognitive Supersensing trainierte MLLMs state-of-the-art Baselines auf CogSense-Bench signifikant übertreffen und eine überlegene Generalisierung auf domänenfremden Mathematik- und Science-VQA-Benchmarks aufweisen. Dies legt nahe, dass interne Visual Imagery potenziell der Schlüssel ist, um die Lücke zwischen perzeptiver Erkennung und kognitivem Verständnis zu schließen. Wir werden CogSense-Bench und unsere Modellgewichte open-source verfügbar machen.
Kürzlich haben generative Modelle bemerkenswerte Fortschritte in der Bildbearbeitung erzielt. Allerdings sind bestehende Systeme und Benchmarks größtenteils textgesteuert. Im Gegensatz dazu ist die menschliche Kommunikation inhärent multimodal, wobei visuelle Anweisungen wie Skizzen räumliche und strukturelle Absichten effizient vermitteln. Um diese Lücke zu schließen, stellen wir VIBE vor, den Visual Instruction Benchmark for Image Editing mit einer dreistufigen Interaktionshierarchie, die deiktische Verankerung, morphologische Manipulation und kausales Schließen erfasst. Für diese Ebenen kuratieren wir hochwertige und vielfältige Testfälle, die eine progressiv steigende Komplexität in der Befolgung visueller Anweisungen widerspiegeln. Darüber hinaus schlagen wir einen robusten LMM-as-a-Judge-Bewertungsrahmen mit aufgabenspezifischen Metriken vor, um eine skalierbare und feingranulare Bewertung zu ermöglichen. Durch eine umfassende Evaluation von 17 repräsentativen Open-Source- und proprietären Bildbearbeitungsmodellen stellen wir fest, dass proprietäre Modelle frühe Fähigkeiten zur Befolgung visueller Anweisungen aufweisen und durchgängig besser abschneiden als Open-Source-Modelle. Allerdings verschlechtert sich die Leistung mit zunehmender Aufgabenschwierigkeit selbst für die stärksten Systeme deutlich, was vielversprechende Richtungen für zukünftige Forschung aufzeigt.
Die Erzeugung sprechender Avatare ist eine grundlegende Aufgabe in der Videogenerierung. Obwohl bestehende Methoden sprechende Ganzkörperavatare mit einfachen menschlichen Bewegungen erzeugen können, stellt die Ausweitung dieser Aufgabe auf fundierte Mensch-Objekt-Interaktionen (Grounded Human-Object Interaction, GHOI) nach wie vor eine ungelöste Herausforderung dar, da der Avatar textkonforme Interaktionen mit umgebenden Objekten ausführen muss. Diese Herausforderung ergibt sich aus der Notwendigkeit der Umgebungswahrnehmung und dem Kontroll-Qualitäts-Dilemma bei der GHOI-Generierung. Um dies zu bewältigen, schlagen wir ein neuartiges Dual-Stream-Framework namens InteractAvatar vor, das Wahrnehmung und Planung von der Videosynthese für fundierte Mensch-Objekt-Interaktionen entkoppelt. Unter Nutzung von Objekterkennung zur Verbesserung der Umgebungswahrnehmung führen wir ein Wahrnehmungs- und Interaktionsmodul (Perception and Interaction Module, PIM) ein, um textkonforme Interaktionsbewegungen zu erzeugen. Zusätzlich wird ein audio-interaktionsbasiertes Generierungsmodul (Audio-Interaction Aware Generation Module, AIM) vorgeschlagen, um lebendige sprechende Avatare zu synthetisieren, die Objektinteraktionen durchführen. Mit einem speziell entwickelten Bewegung-zu-Video-Aligner teilen PIM und AIM eine ähnliche Netzwerkstruktur und ermöglichen eine parallele Ko-Generierung von Bewegungen und plausiblen Videos, wodurch das Kontroll-Qualitäts-Dilemma effektiv gemildert wird. Abschließend etablieren wir einen Benchmark, GroundedInter, zur Bewertung der GHOI-Videogenerierung. Umfangreiche Experimente und Vergleiche demonstrieren die Wirksamkeit unserer Methode zur Erzeugung fundierter Mensch-Objekt-Interaktionen für sprechende Avatare. Projektseite: https://interactavatar.github.io
Herkömmliche Belohnungsmodelle sagen in der Regel skalare Werte vorher, die der vielschichtigen Natur der Antwortqualität in nicht überprüfbaren Domänen wie kreativem Schreiben oder offenen Instruktionsbefolgungen nicht gerecht werden. Um diese Einschränkung zu adressieren, schlagen wir Rubric-ARM vor, einen Rahmen, der einen Rubrik-Generator und ein Bewertungsmodul gemeinsam durch Verstärkungslernen aus Präferenzfeedback optimiert. Im Gegensatz zu bestehenden Methoden, die auf statischen Rubriken oder getrennten Trainingspipelines basieren, behandelt unser Ansatz die Rubrik-Generierung als latente Aktion, die erlernt wird, um die Bewertungsgenauigkeit zu maximieren. Wir führen eine abwechselnde Optimierungsstrategie ein, um der Nichtstationarität gleichzeitiger Aktualisierungen entgegenzuwirken, und liefern eine theoretische Analyse, die zeigt, wie dieser Zeitplan die Gradientenvarianz während des Trainings reduziert. Umfangreiche Experimente belegen, dass Rubric-ARM state-of-the-art Leistung unter Baseline-Modellen auf mehreren Benchmarks erreicht und die nachgelagerte Policy-Ausrichtung in Offline- und Online-Verstärkungslernsettings signifikant verbessert.
Computernutzende Agenten (CUAs) zielen darauf ab, Computersysteme autonom zu bedienen, um reale Aufgaben zu erfüllen. Allerdings bleiben bestehende agentenbasierte Systeme schwer skalierbar und liegen hinter der menschlichen Leistungsfähigkeit zurück. Eine wesentliche Einschränkung ist das Fehlen wiederverwendbarer und strukturierter Fähigkeitsabstraktionen, die erfassen, wie Menschen mit grafischen Benutzeroberflächen interagieren und wie diese Fähigkeiten genutzt werden können. Wir stellen CUA-Skill vor, eine Wissensbasis für computernutzende Agenten, die menschliches Computeranwendungswissen als Fähigkeiten kodiert, die mit parametrisierter Ausführung und Kompositionsgraphen verknüpft sind. CUA-Skill ist eine umfangreiche Bibliothek sorgfältig entwickelter Fähigkeiten, die gängige Windows-Anwendungen abdeckt und als praktische Infrastruktur und Werkzeuggrundlage für skalierbare, zuverlässige Agentenentwicklung dient. Aufbauend auf dieser Fähigkeitsbasis entwickeln wir CUA-Skill Agent, einen durchgängigen computernutzenden Agenten, der dynamische Fähigkeitsabfrage, Argumentinstanziierung und speicherbewusste Fehlerbehebung unterstützt. Unsere Ergebnisse zeigen, dass CUA-Skill die Ausführungs-Erfolgsquote und Robustheit anspruchsvoller End-to-End-Agenten-Benchmarks erheblich verbessert und damit eine solide Grundlage für die zukünftige Entwicklung computernutzender Agenten schafft. Auf WindowsAgentArena erreicht CUA-Skill Agent mit 57,5 % (bester von drei Versuchen) eine state-of-the-art Erfolgsquote und ist dabei deutlich effizienter als frühere und parallele Ansätze. Die Projektseite ist unter https://microsoft.github.io/cua_skill/ verfügbar.
Methoden zur Steuerung großer Sprachmodelle (LLMs), einschließlich lokaler Gewichts-Finetuning, LoRA-basierter Anpassung und aktivierungsbasierter Interventionen, werden häufig isoliert untersucht, was ihre Verbindungen verschleiert und einen Vergleich erschwert. In dieser Arbeit präsentieren wir eine einheitliche Sichtweise, die diese Interventionen als dynamische Gewichtsaktualisierungen durch ein Steuersignal darstellt und sie in einen einzigen konzeptuellen Rahmen einordnet. Aufbauend auf dieser Sichtweise schlagen wir eine einheitliche Präferenz-Nutzen-Analyse vor, die Steuerungseffekte in Präferenz (definiert als Tendenz zu einem Zielkonzept) und Nutzen (definiert als kohärente und aufgabengültige Generierung) trennt und beide auf einer gemeinsamen Log-Odds-Skala mittels polaritätsgepaarter kontrastiver Beispiele misst. Über alle Methoden hinweg beobachten wir einen konsistenten Zielkonflikt zwischen Präferenz und Nutzen: Stärkere Steuerung erhöht die Präferenz, verringert aber vorhersehbar den Nutzen. Wir erklären dieses Verhalten weiter durch eine Aktivierungsmannigfaltigkeits-Perspektive, bei der Steuerung Repräsentationen entlang von Zielkonzept-Richtungen verschiebt, um die Präferenz zu erhöhen, während der Nutzen primär dann abnimmt, wenn Interventionen Repräsentationen von der gültigkeitserhaltenden Generierungsmannigfaltigkeit des Modells wegdrücken. Schließlich stellen wir einen neuen Steuerungsansatz namens SPLIT vor, der von dieser Analyse geleitet wird und die Präferenz verbessert, während der Nutzen besser erhalten bleibt. Code ist verfügbar unter https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md.
In dieser Arbeit identifizieren wir ein spärliches Belohnungssubsystem innerhalb der verborgenen Zustände von Large Language Models (LLMs) und ziehen eine Analogie zum biologischen Belohnungssubsystem im menschlichen Gehirn. Wir zeigen, dass dieses Subsystem Wertneuronen enthält, die die interne Erwartung des Zustandswerts des Modells repräsentieren, und durch Interventionsexperimente belegen wir die Bedeutung dieser Neuronen für das Schlussfolgern. Unsere Experimente zeigen, dass diese Wertneuronen robust über verschiedene Datensätze, Modellgrößen und Architekturen hinweg sind; darüber hinaus weisen sie eine signifikante Übertragbarkeit über verschiedene Datensätze und Modelle hinweg auf, die aus demselben Basismodell feinabgestimmt wurden. Durch die Untersuchung von Fällen, in denen die Wertvorhersagen und die tatsächlichen Belohnungen voneinander abweichen, identifizieren wir Dopaminneuronen innerhalb des Belohnungssubsystems, die Belohnungsvorhersagefehler (RPE) kodieren. Diese Neuronen zeigen eine hohe Aktivierung, wenn die Belohnung höher als erwartet ausfällt, und eine niedrige Aktivierung, wenn die Belohnung niedriger als erwartet ausfällt.
Jüngste Fortschritte im Bereich des visuellen Schließens haben Vision-Transformer eingesetzt, um den ARC-AGI-Benchmark zu bewältigen. Wir vertreten jedoch die Auffassung, dass die Feedforward-Architektur, bei der die rechnerische Tiefe strikt an die Parametergröße gebunden ist, nicht in der Lage ist, die iterative, algorithmische Natur menschlicher Induktion zu erfassen. In dieser Arbeit schlagen wir eine rekursive Architektur namens Loop-ViT vor, die die Schließtiefe von der Modellkapazität durch gewichtsgebundene Rekurrenz entkoppelt. Loop-ViT iteriert einen gewichtsgebundenen Hybrid-Block, der lokale Faltungen und globale Aufmerksamkeit kombiniert, um eine latente Gedankenkette zu bilden. Entscheidend ist, dass wir einen parameterfreien Dynamic-Exit-Mechanismus einführen, der auf prädiktiver Entropie basiert: Das Modell beendet den Inferenzvorgang, wenn sein interner Zustand in einen Attraktor mit geringer Unsicherheit „kristallisiert“. Empirische Ergebnisse auf dem ARC-AGI-1-Benchmark validieren diese Perspektive: Unser 18-Millionen-Parameter-Modell erreicht eine Genauigkeit von 65,8 % und übertrifft damit massive Ensembles mit 73 Millionen Parametern. Diese Ergebnisse zeigen, dass adaptive iterative Berechnung eine weitaus effizientere Skalierungsachse für visuelles Schließen bietet als das bloße Erhöhen der Netzwerkbreite. Der Code ist unter https://github.com/WenjieShu/LoopViT verfügbar.
Große Sprachmodelle (LLMs) haben durch schrittweise Chain-of-Thought (CoT)-Argumentation beeindruckende Fähigkeiten im logischen Denken demonstriert. Dennoch erweist sich CoT an den Grenzen der Modellfähigkeiten oft als unzureichend, und seine streng sequenzielle Natur schränkt die Skalierbarkeit zur Testzeit ein. Eine potenzielle Alternative ist Divide-and-Conquer (DAC)-Argumentation, die ein komplexes Problem in Teilprobleme zerlegt, um eine effektivere Lösungsfindung zu ermöglichen. Obwohl vielversprechend, zeigt unsere Analyse eine grundlegende Fehlausrichtung zwischen allgemeinem Post-Training und DAC-artiger Inferenz, die die Fähigkeit des Modells einschränkt, dieses Potenzial vollständig auszuschöpfen. Um diese Lücke zu schließen und die Denkfähigkeiten von LLMs bei den anspruchsvollsten Aufgaben vollständig zu entfesseln, schlagen wir ein End-to-End-Reinforcement-Learning (RL)-Framework vor, um ihre DAC-artige Denkfähigkeit zu verbessern. In jedem Schritt zerlegt die Policy ein Problem in eine Gruppe von Teilproblemen, löst diese sequenziell und bearbeitet das ursprüngliche Problem basierend auf den Teillösungen, wobei sowohl die Zerlegung als auch die Lösung in das RL-Training integriert werden. Unter vergleichbaren Trainingsbedingungen verleiht unser DAC-basiertes Framework dem Modell eine höhere Leistungsobergrenze und eine stärkere Skalierbarkeit zur Testzeit, wobei es CoT auf wettbewerbsfähigen Benchmarks um 8,6 % in Pass@1 und 6,3 % in Pass@32 übertrifft.
Die Text-zu-Bild-Generierung (T2I) hat bemerkenswerte Fortschritte erzielt, doch bestehenden Methoden fehlt oft die Fähigkeit, während der Generierung dynamisch zu schlussfolgern und zu verfeinern – ein Kennzeichen menschlicher Kreativität. Aktuelle, mit Reasoning angereicherte Paradigmen basieren meist auf expliziten Denkprozessen, bei denen Zwischenreasoning in festen Schritten in diskreten Text decodiert wird, was häufige Bilddecodierung und -rekodierung erfordert und zu Ineffizienz, Informationsverlust und kognitiven Diskrepanzen führt. Um diese Lücke zu schließen, stellen wir LatentMorph vor, einen neuartigen Rahmen, der implizites latentes Reasoning nahtlos in den T2I-Generierungsprozess integriert. Kern von LatentMorph sind vier leichtgewichtige Komponenten: (i) einen Kondensator zur Verdichtung von Zwischengenerierungszuständen in kompakten visuellen Speicher, (ii) einen Übersetzer zur Konvertierung latenter Gedanken in handlungsrelevante Steuerung, (iii) einen Former zur dynamischen Lenkung der nächsten Bild-Token-Vorhersagen und (iv) einen RL-trainierten Aufrufer zur adaptiven Bestimmung des Zeitpunkts für Reasoning-Aufrufe. Indem LatentMorph das Reasoning vollständig in kontinuierlichen latenten Räumen durchführt, umgeht es die Engpässe expliziten Reasonings und ermöglicht eine adaptivere Selbstverfeinerung. Umfangreiche Experimente zeigen, dass LatentMorph (I) das Basismodell Janus-Pro auf GenEval um 16 % und auf T2I-CompBench um 25 % verbessert; (II) explizite Paradigmen (z.B. TwiG) bei abstrakten Reasoning-Aufgaben wie WISE und IPV-Txt um 15 % bzw. 11 % übertrifft; (III) dabei die Inferenzzeit um 44 % und den Token-Verbrauch um 51 % reduziert; und (IV) eine 71 %ige kognitive Übereinstimmung mit der menschlichen Intuition bezüglich des Reasoning-Aufrufs aufweist.
Die Fähigkeit von KI-Agenten, Aufgaben mit zunehmender Dauer und Komplexität effektiv zu bewältigen, wächst stetig und zeigt außergewöhnliche Leistungen in den Bereichen Programmierung, tiefgehende Recherche und komplexe Problemlösungsbewertungen. Im Alltagsszenario bleibt die Wahrnehmung dieser fortgeschrittenen KI-Fähigkeiten unter allgemeinen Anwendern jedoch begrenzt. Wir vertreten die Auffassung, dass aktuelle Evaluationen die Steigerung der Aufgabenschwierigkeit priorisieren, ohne ausreichend die Vielfalt agentenbasierter Aufgaben zu berücksichtigen, die notwendig ist, um die täglichen Arbeits-, Lebens- und Lernaktivitäten einer breiten Demografie abzudecken. Um dies zu adressieren, schlagen wir AgentIF-OneDay vor, das darauf abzielt festzustellen, ob allgemeine Anwender natürliche Sprachbefehle und KI-Agenten nutzen können, um ein diverses Spektrum täglicher Aufgaben zu bewältigen. Diese Aufgaben erfordern nicht nur die Lösung von Problemen durch Dialog, sondern auch das Verständnis verschiedener Anhangtypen und die Lieferung konkreter dateibasierter Ergebnisse. Der Benchmark ist um drei anwenderzentrierte Kategorien strukturiert: Open Workflow Execution, welches die Einhaltung expliziter und komplexer Arbeitsabläufe bewertet; Latent Instruction, das von Agenten verlangt, implizite Anweisungen aus Anhängen abzuleiten; und Iterative Refinement, das die Modifikation oder Erweiterung laufender Arbeiten umfasst. Wir verwenden instanzbasierte Bewertungsraster und eine verfeinerte Evaluierungspipeline, die LLM-basierte Verifikation mit menschlicher Beurteilung in Einklang bringt und eine Übereinstimmungsrate von 80,1 % mit Gemini-3-Pro erreicht. AgentIF-OneDay umfasst 104 Aufgaben mit 767 Bewertungspunkten. Wir haben vier führende allgemeine KI-Agenten benchmarkgetestet und festgestellt, dass auf APIs basierende Agentenprodukte und auf Agent-RL basierende ChatGPT-Agenten gleichzeitig in der ersten Leistungsklasse verbleiben. Führende LLM-APIs und Open-Source-Modelle haben agentenbasierte Fähigkeiten internalisiert, was KI-Anwendungsteams ermöglicht, wegweisende Agentenprodukte zu entwickeln.
Da LLM-basierte Agenten in zunehmend komplexeren realen Umgebungen eingesetzt werden, bilden bestehende Benchmarks wichtige Herausforderungen nur unzureichend ab, wie z.B. die Durchsetzung globaler Einschränkungen, die Koordination von Multi-Tool-Reasoning und die Anpassung an sich entwickelndes Nutzerverhalten über lange, mehrschrittige Interaktionen hinweg. Um diese Lücke zu schließen, stellen wir TRIP-Bench vor, einen Benchmark für langfristige Planung, der auf realistischen Reiseplanungsszenarien basiert. TRIP-Bench nutzt reale Daten, bietet 18 sorgfältig ausgewählte Tools und über 40 Reiserequisiten und unterstützt die automatisierte Auswertung. Es umfasst Aufteilungen mit unterschiedlichem Schwierigkeitsgrad; der schwierige Teil legt den Schwerpunkt auf lange und mehrdeutige Interaktionen, Stilwechsel, Machbarkeitsänderungen und iterative Versionsüberarbeitung. Dialoge erstrecken sich über bis zu 15 Nutzereingaben, können über 150 Tool-Aufrufe umfassen und einen Kontext von über 200.000 Tokens überschreiten. Experimente zeigen, dass selbst fortgeschrittene Modelle auf der einfachen Aufteilung höchstens 50 % Erfolg erzielen, wobei die Leistung bei schwierigen Teilmengen unter 10 % fällt. Wir schlagen weiterhin GTPO vor, eine Online-Multi-Turn-Verstärkungslernmethode mit spezieller Reward-Normalisierung und Reward-Differenzierung. Angewendet auf Qwen2.5-32B-Instruct verbessert GTPO die Einhaltung von Einschränkungen und die Interaktionsrobustheit und übertrifft in unserer Evaluation Gemini-3-Pro. Wir erwarten, dass TRIP-Bench die Entwicklung praktischer, langfristig interagierender Agenten vorantreibt und GTPO ein effektives Online-RL-Verfahren für robustes Training über lange Zeithorizonte bereitstellt.
Flow-Matching-Modelle (FMs) haben die Text-zu-Bild-Generierung (T2I) revolutioniert, wobei Reinforcement Learning (RL) als kritische Nachtrainingsstrategie zur Ausrichtung an Belohnungszielen dient. In dieser Forschung zeigen wir, dass aktuelle RL-Pipelines für FMs unter zwei unterschätzten, aber wichtigen Einschränkungen leiden: Probenineffizienz aufgrund unzureichender Generierungsvielfalt und ausgeprägtes Prompt-Overfitting, bei dem Modelle spezifische Trainingsformulierungen auswendig lernen und einen dramatischen Leistungseinbruch zeigen, wenn sie mit semantisch äquivalenten, aber stilistisch variierten Prompts evaluiert werden. Wir stellen PromptRL (Prompt Matters in RL for Flow-Based Image Generation) vor, einen Framework, der Sprachmodelle (LMs) als trainierbare Prompt-Verfeinerungsagenten direkt in den flow-basierten RL-Optimierungsloop integriert. Dieses Design bietet zwei komplementäre Vorteile: die schnelle Entwicklung anspruchsvoller Prompt-Umformulierungsfähigkeiten und, entscheidend, ein synergetisches Trainingsregime, das die Optimierungsdynamik neu gestaltet. PromptRL erreicht state-of-the-art Leistung in mehreren Benchmarks, mit Werten von 0,97 bei GenEval, 0,98 bei OCR-Genauigkeit und 24,05 bei PickScore. Darüber hinaus validieren wir die Wirksamkeit unseres RL-Ansatzes an großskaligen Bildbearbeitungsmodellen und verbessern den EditReward von FLUX.1-dev von 1,19 auf 1,43 mit nur 0,06 Millionen Rollouts. Damit übertrifft es Gemini 2.5 Flash Image (auch bekannt als Nano Banana), das 1,37 erreicht, und erzielt eine vergleichbare Leistung wie ReasonNet (1,44), das auf feinkörnigen Datenannotationen zusammen mit einem komplexen mehrstufigen Training basierte. Unsere umfangreichen Experimente zeigen empirisch, dass PromptRL konsistent höhere Leistungsgrenzen erreicht, während es im Vergleich zu naivem flow-only RL über 2-mal weniger Rollouts benötigt. Unser Code ist verfügbar unter https://github.com/G-U-N/UniRL.
Sparse Autoencoder (SAE) haben sich als vielversprechende Methode zur Interpretation neuronaler Netzwerkrepräsentationen etabliert, indem sie Aktivierungen in sparsame Kombinationen von Wörterbuch-Atomen zerlegen. Allerdings gehen SAEs davon aus, dass sich Merkmale additiv durch lineare Rekonstruktion kombinieren – eine Annahme, die kompositionelle Strukturen nicht erfassen kann: Lineare Modelle können nicht unterscheiden, ob "Starbucks" aus der Komposition von "Star"- und "Coffee"-Merkmalen entsteht oder lediglich aus deren gemeinsamen Auftreten. Dies zwingt SAEs dazu, monolithische Merkmale für zusammengesetzte Konzepte zuzuordnen, anstatt sie in interpretierbare Bestandteile zu zerlegen. Wir stellen PolySAE vor, das den SAE-Decoder um Terme höherer Ordnung erweitert, um Merkmalsinteraktionen zu modellieren, während der für die Interpretierbarkeit essentielle lineare Encoder beibehalten wird. Durch Low-Rank-Tensor-Faktorisierung auf einem gemeinsamen Projektionsunterraum erfasst PolySAE paarweise und dreifache Merkmalsinteraktionen mit geringem Parameteroverhead (3 % bei GPT2). Über vier Sprachmodelle und drei SAE-Varianten hinweg erzielt PolySAE eine durchschnittliche Verbesserung von etwa 8 % im F1-Score beim Probing bei vergleichbarem Rekonstruktionsfehler und erzeugt 2-10 mal größere Wasserstein-Distanzen zwischen klassenbedingten Merkmalsverteilungen. Entscheidend ist, dass die gelernten Interaktionsgewichte eine vernachlässigbare Korrelation mit der Kookkurrenzhäufigkeit aufweisen (r = 0,06 vs. r = 0,82 für die SAE-Merkmalskovarianz), was darauf hindeutet, dass die polynomiellen Terme kompositionelle Strukturen wie morphologische Bindung und phrasale Komposition erfassen, die weitgehend unabhängig von Oberflächenstatistiken sind.
Große Reasoning-Modelle (LRMs) profitieren erheblich vom Training mit herausfordernden Wettbewerbsfragen. Bisherige automatisierte Methoden zur Fragengenerierung bieten jedoch keine präzise Schwierigkeitskontrolle, verursachen hohe Rechenkosten und scheitern daran, Wettbewerbsfragen in großem Maßstab zu erzeugen. In diesem Artikel stellen wir CoDiQ (Controllable Difficult Question Generation) vor, einen neuartigen Rahmen, der eine feingranulare Schwierigkeitssteuerung durch Test-Time-Scaling ermöglicht und gleichzeitig die Lösbarkeit der Fragen gewährleistet. Konkret identifizieren wir erstens eine Test-Time-Scaling-Tendenz (ein erweiterter Reasoning-Token-Budget erhöht die Schwierigkeit, verringert aber die Lösbarkeit) und die intrinsischen Eigenschaften, die die Obergrenze der Fähigkeit eines Modells definieren, gültige Hochschwierigkeitsfragen zu generieren. Anschließend entwickeln wir CoDiQ-Generator auf Basis von Qwen3-8B, der die Obergrenze für die Generierung schwieriger Fragen anhebt und es besonders gut für die Erstellung anspruchsvoller Fragen eignet. Aufbauend auf dem CoDiQ-Rahmen erstellen wir CoDiQ-Corpus (44.000 Wettbewerbs-Fragensequenzen). Humanevaluationen zeigen, dass diese Fragen signifikant schwieriger sind als LiveCodeBench/AIME bei über 82% Lösbarkeit. Das Training von LRMs auf CoDiQ-Corpus verbessert die Reasoning-Leistung erheblich, was bestätigt, dass die Skalierung von Trainingfragen mit kontrollierter Schwierigkeit die Reasoning-Fähigkeiten steigert. Wir veröffentlichen CoDiQ-Corpus, CoDiQ-Generator und Implementierungen als Open Source, um verwandte Forschung zu unterstützen.
Der Einsatz moderner Sprachsprachmodelle (SpeechLMs) in Streaming-Umgebungen erfordert Systeme, die niedrige Latenz, hohen Durchsatz und starke Garantien für die Streamfähigkeit bieten. Bisherige Systeme unterstützen verschiedene Modelle nicht flexibel und effizient genug. Wir stellen VoxServe vor, ein einheitliches Bereitstellungssystem für SpeechLMs, das die Streaming-Leistung optimiert. VoxServe führt eine Modellausführungsabstraktion ein, die die Modellarchitektur von systemweiten Optimierungen entkoppelt und so die Unterstützung verschiedener SpeechLM-Architekturen innerhalb eines einzigen Frameworks ermöglicht. Aufbauend auf dieser Abstraktion implementiert VoxServe eine streaming-bewusste Planung und eine asynchrone Inferenz-Pipeline, um die Ende-zu-Ende-Effizienz zu verbessern. Evaluierungen mit mehreren modernen SpeechLMs zeigen, dass VoxServe im Vergleich zu bestehenden Implementierungen bei vergleichbarer Latenz einen 10-20 mal höheren Durchsatz erreicht und gleichzeitig eine hohe Streaming-Tauglichkeit gewährleistet. Der Code von VoxServe ist unter https://github.com/vox-serve/vox-serve verfügbar.
Abfragebasierte universelle Schalltrennung ist grundlegend für intelligente Audiosysteme und zielt darauf ab, spezifische Quellen aus Gemischen zu isolieren. Trotz jüngster Fortschritte leiden bestehende Methoden weiterhin unter Restinterferenzen in komplexen akustischen Szenen. Diese Leistungsbegrenzung resultiert hauptsächlich aus einem Datenengpass: In-the-Wild-Datensätze enthalten schwache Labels und starke Kookkurrenz von Ereignissen. Diese Mängel veranlassen Modelle dazu, scheinbare Korrelationen zwischen Hintergrundgeräuschen und Zielkategorien statt robuster akustischer Merkmale zu erlernen. Um dies zu adressieren, schlagen wir eine automatisierte Pipeline vor, die die Kookkurrenz von Ereignissen eliminiert, indem hochreine Einzelereignis-Segmente aus In-the-Wild-Datensätzen durch ein semantisch konsistentes Syntheseprotokoll extrahiert werden. Mithilfe dieser Pipeline erstellten wir Hive, einen hochwertigen synthetischen Datensatz mit 2,4 Tausend Stunden Rohaudio. Experimentelle Ergebnisse zeigen, dass verglichen mit dem state-of-the-art Modell SAM-Audio, das auf einem etwa 500-mal größeren Datensatz trainiert wurde, bestimmte auf Hive trainierte Open-Source-Modelle konkurrenzfähige Trenngenauigkeit und wahrgenommene Qualität erreichen. Darüber hinaus zeigten diese Modelle bemerkenswerte Zero-Shot-Generalisierung auf Out-of-Distribution-Evaluierungsbenchmarks. Diese Ergebnisse unterstreichen, dass die Priorisierung der Reinheit überwachter Signale eine signifikante Dateneffizienz ermöglicht und ein neues Paradigma für das Training robuster auditiver Foundation Models mit reduzierten Rechenkosten bietet. Code und Datensatz sind verfügbar unter https://shandaai.github.io/Hive.
Multimodale große Sprachmodelle (MLLMs) leiden unter hohen Rechenkosten aufgrund übermäßiger visueller Tokens, insbesondere in hochauflösenden und videobasierten Szenarien. Bestehende Token-Reduktionsmethoden konzentrieren sich typischerweise auf isolierte Pipeline-Komponenten und vernachlässigen oft die textuelle Ausrichtung, was zu Leistungseinbußen führt. In diesem Artikel schlagen wir VisionTrim vor, einen einheitlichen Rahmen für trainierungsfreie MLLM-Beschleunigung, der zwei effektive Plug-and-Play-Module integriert: 1) das Modul zur Dominanten Visuellen Token-Auswahl (DVTS), das essentielle visuelle Tokens mittels einer global-lokalen Betrachtung bewahrt, und 2) das Textgesteuerte Visuelle Ergänzungsmodul (TGVC), das kontextbewusstes Token-Zusammenführen anhand textueller Hinweise ermöglicht. Umfangreiche Experimente über diverse multimodale Bild- und Video-Benchmarks demonstrieren die Leistungsüberlegenheit unseres VisionTrim und fördern die praktische MLLM-Implementierung in realen Anwendungen. Der Code ist verfügbar unter: https://github.com/hanxunyu/VisionTrim.
Weltmodelle erlernen eine interne Repräsentation der Umgebungsdynamik, die es Agenten ermöglicht, zukünftige Zustände innerhalb eines kompakten latenten Raums für Aufgaben wie Planung, Vorhersage und Inferenz zu simulieren und darüber zu schlussfolgern. Der Betrieb von Weltmodellen ist jedoch mit hohen Rechenkosten und Speicherbedarf verbunden, was Modellquantisierung für einen effizienten Einsatz unerlässlich macht. Bislang sind die Auswirkungen der Post-Training-Quantisierung (PTQ) auf Weltmodelle weitgehend unerforscht. In dieser Arbeit präsentieren wir eine systematische empirische Untersuchung der Quantisierung von Weltmodellen am repräsentativen Fallbeispiel DINO-WM, bei der wir verschiedene PTQ-Methoden sowohl unter reinen Gewichts- als auch unter gemeinsamen Gewichts-Aktivierungs-Einstellungen evaluieren. Wir führen umfangreiche Experimente zu verschiedenen visuellen Planungsaufgaben über eine breite Spanne von Bit-Breiten, Quantisierungsgranularitäten und Planungshorizonten von bis zu 50 Iterationen durch. Unsere Ergebnisse zeigen, dass sich Quantisierungseffekte in Weltmodellen über reine Genauigkeits- und Bit-Breiten-Kompromisse hinaus erstrecken: gruppenweise Gewichtsquantisierung kann Rollouts mit niedriger Bit-Breite stabilisieren, die Granularität der Aktivierungsquantisierung bringt uneinheitliche Vorteile, und die Quantisierungsempfindlichkeit ist zwischen Encoder- und Prädiktor-Modulen hochgradig asymmetrisch. Darüber hinaus verschlechtert aggressive Quantisierung mit niedriger Bit-Breite die Ausrichtung zwischen dem Planungsziel und dem Aufgaben-erfolg erheblich, was zu Fehlschlägen führt, die durch zusätzliche Optimierung nicht behoben werden können. Diese Erkenntnisse offenbaren distincte, quantisierungsinduzierte Fehlermodi in der weltmodellbasierten Planung und liefern praktische Leitlinien für den Einsatz quantisierter Weltmodelle unter strengen Rechenbeschränkungen. Der Code wird unter https://github.com/huawei-noah/noah-research/tree/master/QuantWM verfügbar sein.
Große Sprachmodelle (LLMs) werden häufig als referenzfreie Bewertungssysteme mittels Prompting eingesetzt, doch dieses "LLM-als-Richter"-Paradigma ist kostspielig, intransparent und anfällig für das Prompt-Design. In dieser Arbeit untersuchen wir, ob kleinere Modelle durch Nutzung interner Repräsentationen anstelle von Oberflächengenerierung als effiziente Bewerter dienen können. Wir decken ein konsistentes empirisches Muster auf: Kleine Sprachmodelle, trotz schwacher Generierungsfähigkeit, kodieren reichhaltige Bewertungssignale in ihren verborgenen Zuständen. Dies motiviert uns zur Formulierung der Hypothese der semantischen Kapazitätsasymmetrie: Bewertung erfordert signifikant weniger semantische Kapazität als Generierung und kann in Zwischenrepräsentationen verankert werden, was nahelegt, dass Bewertung nicht notwendigerweise auf großskalige generative Modelle angewiesen ist, sondern stattdessen latente Merkmale kleinerer Modelle nutzen kann. Unsere Ergebnisse motivieren einen Paradigmenwechsel von "LLM-als-Richter" zu "Repräsentation-als-Richter", einer dekodierungsfreien Bewertungsstrategie, die die interne Modellstruktur abtastet, anstatt sich auf gepromptete Outputs zu verlassen. Wir instanziieren dieses Paradigma durch INSPECTOR, ein auf Abtastung basierendes Framework, das Aspekt-bewertungsscores aus Repräsentationen kleiner Modelle vorhersagt. Experimente auf Reasoning-Benchmarks (GSM8K, MATH, GPQA) zeigen, dass INSPECTOR prompt-basierte kleine Sprachmodelle erheblich übertrifft und sich vollwertigen LLM-Bewertern eng annähert, während es eine effizientere, zuverlässigere und interpretierbare Alternative für skalierbare Evaluation bietet.
Die Handlungsfähigkeit agentiver großer Sprachmodelle geht über korrekte Antworten hinaus und erfordert Autonomie bei der Zielsetzung und Entscheidung über Untersuchungsgegenstände. Wir bezeichnen dies als investigative Intelligenz, die wir von exekutiver Intelligenz abgrenzen, die lediglich zugewiesene Aufgaben erledigt. Die Data Science bietet ein natürliches Testfeld, da reale Analysen mit Rohdaten beginnen statt mit expliziten Abfragen, doch wenige Benchmarks konzentrieren sich darauf. Um dies zu adressieren, führen wir Deep Data Research (DDR) ein – eine offene Aufgabe, bei der LLMs eigenständig zentrale Erkenntnisse aus Datenbanken extrahieren – sowie DDR-Bench, einen groß angelegten, checklistenbasierten Benchmark, der verifizierbare Evaluation ermöglicht. Ergebnisse zeigen, dass Spitzenmodelle zwar aufkeimende Handlungsfähigkeit demonstrieren, langfristige Exploration jedoch herausfordernd bleibt. Unsere Analyse unterstreicht, dass effektive investigative Intelligenz nicht nur von Agenten-Scaffolding oder bloßer Skalierung abhängt, sondern auch von intrinsischen Strategien agentiver Modelle.
Große Vision-Sprach-Modelle (LVLMs) erzielen starke Leistungen bei Einzelbild-Aufgaben, doch ihre Leistung lässt nach, wenn mehrere Bilder als Eingabe bereitgestellt werden. Ein Hauptgrund ist die übergreifende Informationsweitergabe zwischen den Bildern, bei der das Modell Schwierigkeiten hat, Informationen über verschiedene Bilder hinweg zu unterscheiden. Bestehende LVLMs verwenden bereits Trennzeichen-Tokens, um den Beginn und das Ende jedes Bildes zu markieren, doch unsere Analyse zeigt, dass diese Tokens nicht effektiv verhindern können, dass Informationen zwischen den Bildern durchsickern. Um ihre Wirksamkeit zu steigern, schlagen wir eine Methode vor, die die verborgenen Zustände der Trennzeichen-Tokens skaliert. Dies verstärkt die Fähigkeit des Modells, bildspezifische Informationen zu bewahren, indem die Interaktion innerhalb eines Bildes gestärkt und unerwünschte übergreifende Interaktionen eingeschränkt werden. Folglich kann das Modell Bilder besser unterscheiden und genauer über sie schlussfolgern. Experimente zeigen Leistungssteigerungen bei Multi-Image-Benchmarks wie Mantis, MuirBench, MIRB und QBench2. Wir evaluieren unsere Methode weiterhin an reinen Textaufgaben, die eine klare Unterscheidung erfordern. Die Methode verbessert die Leistung bei Benchmarks für das Verständnis mehrerer Dokumente und Tabellen, einschließlich TQABench, MultiNews und WCEP-10. Bemerkenswerterweise erfordert unsere Methode keine zusätzlichen Trainings- oder Inferenzkosten.
Verstärkendes Lernen mit verifizierbaren Belohnungen (RLVR) hat großes Potenzial gezeigt, um die Fähigkeit großer Sprachmodelle (LLMs) zum logischen Schließen zu verbessern. Aufgrund der begrenzten Informationsmenge, die während des RLVR-Prozesses bereitgestellt wird, kann das Modell jedoch nur eine weitgehend blinde Exploration durchführen, was häufig zum Scheitern bei anspruchsvollen Problemen führt. Um den RLVR-Prozess ohne Rückgriff auf ein Lehrermodell mit zusätzlichen Informationen zu versorgen, schlagen wir A^2D vor, eine adaptive Fähigkeitszerlegungsmethode zur Steigerung der Wirksamkeit von RLVR. Konkret trainieren wir zunächst einen Zerleger mittels RLVR ohne Distillation, der in der Lage ist, komplexe Fragen in eine Reihe einfacherer Teilfragen zu zerlegen. Anschließend nutzen wir diesen Zerleger, um für jede Frage im Trainingsdatensatz Teilfragen zu annotieren, und trainieren dann den Schlussfolgerer unter RLVR mit Anleitung durch Teilfragen. Um A^2D besser zu verstehen, vergleichen wir zunächst seine Leistung mit wettbewerbsfähigen Baselines, um seine Wirksamkeit zu demonstrieren. Anschließend beobachten wir, dass unsere Methode als Plug-and-Play-Modul fungiert, das auf verschiedene RLVR-Algorithmen angewendet werden kann. Darüber hinaus führen wir eine Analyse des Zerlegers durch, die Aufschluss darüber gibt, wie der RLVR-Prozess seine Leistung und sein Verhalten beeinflusst, und welche Art von Anleitung besser geeignet ist, um die Explorations- und Exploitationsfähigkeiten des Schlussfolgerers zu verbessern.
Die 3D-Linienkartierung aus Multi-View-RGB-Bildern bietet eine kompakte und strukturierte visuelle Darstellung von Szenen. Wir untersuchen das Problem aus einer physikalischen und topologischen Perspektive: Eine 3D-Linie entsteht am natürlichsten als Kante einer endlichen 3D-Ebene. Wir stellen LiP-Map vor, ein gemeinsames Optimierungsframework für Linien und Ebenen, das lernbare Linien- und Ebenenprimitive explizit modelliert. Diese Kopplung ermöglicht eine präzise und detaillierte 3D-Linienkartierung bei gleichzeitig hoher Effizienz (typischerweise abgeschlossen in 3 bis 5 Minuten pro Szene). LiP-Map integriert Pionierarbeit in der Integration planarer Topologie in die 3D-Linienkartierung, nicht durch Auferlegen paarweiser Koplanaritätsbedingungen, sondern durch explizite Konstruktion von Interaktionen zwischen Ebenen- und Linienprimitiven, und bietet damit einen prinzipiellen Ansatz für strukturierte Rekonstruktionen in menschengemachten Umgebungen. Auf über 100 Szenen aus ScanNetV2, ScanNet++, Hypersim, 7Scenes und Tanks\&Temple verbessert LiP-Map sowohl die Genauigkeit als auch die Vollständigkeit gegenüber state-of-the-art Methoden. Über die Linienkartierungsqualität hinaus verbessert LiP-Map die linienassistierte visuelle Lokalisierung signifikant und erzielt starke Leistungen auf 7Scenes. Unser Code ist unter https://github.com/calmke/LiPMap für reproduzierbare Forschung veröffentlicht.
Aktuelle Arbeiten haben gezeigt, dass Layer-Pruning große Sprachmodelle (LLMs) komprimieren kann, während eine hohe Leistung auf Klassifizierungs-Benchmarks mit wenig oder keinem Finetuning erhalten bleibt. Bestehende Pruning-Techniken leiden jedoch häufig unter erheblichen Einbußen bei generativen Reasoning-Aufgaben. Durch eine systematische Studie über mehrere Modellfamilien hinweg stellen wir fest, dass Aufgaben, die mehrstufiges Reasoning erfordern, besonders empfindlich auf Tiefenreduktion reagieren. Über oberflächliche Textdegeneration hinaus beobachten wir einen Abbau kritischer algorithmischer Fähigkeiten, einschließlich arithmetischer Berechnungen für mathematisches Reasoning und der Generierung ausgeglichener Klammern für Code-Synthese. Unter realistischen Post-Training-Beschränkungen, ohne Zugang zu Pretraining-Daten oder Rechenleistung in entsprechender Größenordnung, evaluieren wir eine einfache Gegenstrategie basierend auf supervised Finetuning mit selbstgenerierten Antworten (Self-Generated Responses). Dieser Ansatz erreicht eine starke Wiederherstellung der Leistung bei Klassifizierungsaufgaben, wobei bis zu 90 % der Baseline-Leistung erhalten bleiben, und erzielt substanzielle Gewinne von bis zu 20–30 Prozentpunkten auf generativen Benchmarks im Vergleich zu bisherigen Post-Pruning-Techniken. Entscheidend ist, dass trotz dieser Gewinne die Wiederherstellung bei generativem Reasoning im Vergleich zu Klassifizierungsaufgaben grundsätzlich begrenzt bleibt und hauptsächlich bei niedrigeren Pruning-Raten praktikabel ist. Insgesamt charakterisieren wir die praktischen Grenzen des Layer-Prunings für generatives Reasoning und geben Leitlinien, wann Tiefenreduktion unter eingeschränkten Post-Training-Bedingungen effektiv angewendet werden kann.
Wissensdistillation bietet einen vielversprechenden Ansatz, um Reasoning-Fähigkeiten von großen Lehrer- zu effizienten Schülermodellen zu übertragen. Bestehende On-Policy-Distillationsmethoden auf Token-Ebene erfordern jedoch eine Token-für-Token-Ausrichtung zwischen Schüler- und Lehrermodellen. Dies schränkt die Explorationsfähigkeit des Schülermodells ein, verhindert die effektive Nutzung von Feedback aus interaktiven Umgebungen und führt zu erheblichen Memory-Engpässen beim Reinforcement Learning. Wir stellen On-policy Verbal Distillation (OVD) vor, einen speichereffizienten Rahmen, der die Wahrscheinlichkeitsabgleichung auf Token-Ebene durch einen Trajektorienabgleich mittels diskreter verbaler Bewertungen (0–9) der Lehrermodelle ersetzt. OVD reduziert den Speicherverbrauch drastisch, ermöglicht On-Policy-Distillation mit verbalem Feedback von Lehrermodellen und umgeht die Notwendigkeit einer Token-Level-Ausrichtung, wodurch das Schülermodell den Ausgaberaum frei explorieren kann. Umfangreiche Experimente zu Web-Frage-Antwort-Aufgaben und mathematischem Reasoning zeigen, dass OVD bestehende Methoden erheblich übertrifft: Es erzielt einen absoluten Anstieg des durchschnittlichen EM-Scores von bis zu +12,9 % bei Web-Q&A-Aufgaben und einen Zuwachs von bis zu +25,7 % auf mathematischen Benchmarks (selbst bei Training mit nur einer zufälligen Stichprobe), bei gleichzeitig überlegener Trainingseffizienz. Unsere Projektseite ist unter https://OVD.github.io verfügbar.
Rechenaufwand zur Inferenzzeit hat sich erneut als praktischer Ansatz zur Verbesserung des logischen Denkvermögens von LLMs erwiesen. Die meisten Test-Time-Scaling (TTS)-Algorithmen basieren auf autoregressiver Decodierung, die für diskrete Diffusions-Sprachmodelle (dLLMs) aufgrund ihrer parallelen Decodierung über die gesamte Sequenz ungeeignet ist. Daher bleibt die Entwicklung effektiver und effizienter TTS-Methoden zur Entfaltung des vollen generativen Potenzials von dLLMs eine kaum erforschte Herausforderung. Um dies zu adressieren, schlagen wir Prism (Pruning, Remasking, and Integrated Self-verification Method) vor, einen effizienten TTS-Rahmen für dLLMs, der (i) eine hierarchische Trajektoriensuche (HTS) durchführt, die Rechenaufwand in einem frühen bis mittleren Entrauschungsfenster dynamisch beschneidet und neu zuweist, (ii) lokale Verzweigung mit teilweiser Neumaskierung einführt, um diverse Implementierungen zu erkunden und gleichzeitig hochkonfidente Tokens zu bewahren, und (iii) externe Verifizierer durch selbstverifiziertes Feedback (SVF) ersetzt, das durch Selbstevaluations-Prompts für Zwischenergebnisse gewonnen wird. In vier Benchmarks für mathematisches Reasoning und Code-Generierung mit drei dLLMs, einschließlich LLaDA 8B Instruct, Dream 7B Instruct und LLaDA 2.0-mini, erzielt unser Prism eine vorteilhafte Leistungs-Effizienz-Abwägung, die Best-of-N-Leistung mit deutlich weniger Funktionsauswertungen (NFE) erreicht. Der Code ist unter https://github.com/viiika/Prism verfügbar.
Während große Sprachmodelle (LLMs) einen bedeutenden Fortschritt in der künstlichen Intelligenz darstellen, sind die Hardware- und Rechenkosten für das Training von LLMs ebenfalls erheblich belastend. Unter den modernsten Optimierern verlässt sich AdamW auf diagonale Krümmungsschätzungen und ignoriert strukturelle Eigenschaften, während Muon globale spektrale Normalisierung auf Kosten des Verlusts von Krümmungsinformationen anwendet. In dieser Studie untersuchen wir Methoden der Mannigfaltigkeitsoptimierung für das Training von LLMs neu, welche die Limitierungen beider Optimierer adressieren könnten, obwohl konventionelle Methoden der Mannigfaltigkeitsoptimierung aufgrund ihrer schwachen Leistung bei der Optimierung großer Modelle weitgehend unbeachtet geblieben sind. Durch innovative Projektion des Momentums auf den Tangentialraum der Modellparameter und dessen Beschränkung auf eine rotatorische Oblique-Mannigfaltigkeit schlagen wir einen neuartigen, leistungsstarken und effizienten Optimierer **Mano** vor, der als erster die Leistungslücke zwischen Mannigfaltigkeitsoptimierung und modernen Optimierern schließt. Umfangreiche Experimente mit den Modellen LLaMA und Qwen3 zeigen, dass Mano AdamW und Muon konsistent und signifikant übertrifft, und dies sogar bei geringerem Speicherverbrauch bzw. geringerer Rechenkomplexität, was auf eine erweiterte Pareto-Front in Bezug auf Raum- und Zeiteffizienz hindeutet.
Diffusion Transformer sind grundlegend für die Video- und Bildgenerierung, doch ihre Effizienz wird durch die quadratische Komplexität der Attention-Funktion begrenzt. Während block-sparse Attention die Berechnung beschleunigt, indem nur kritische Key-Value-Blöcke berücksichtigt werden, leidet sie bei hoher Sparsity unter Qualitätseinbußen durch den Verlust von Kontextinformationen. In dieser Arbeit zeigen wir, dass die Attention-Scores nicht-kritischer Blöcke eine verteilungsmäßige Stabilität aufweisen, was es erlaubt, sie präzise und effizient zu approximieren, anstatt sie zu verwerfen – eine essentielle Erkenntnis für das Design sparser Attention. Aufbauend auf dieser Schlüsselbeobachtung schlagen wir PISA vor, eine trainierungsfreie Piecewise Sparse Attention, die die volle Attention-Spanne mit subquadratischer Komplexität abdeckt. Im Gegensatz zum konventionellen Keep-or-Drop-Paradigma, das nicht-kritische Blockinformationen verwirft, führt PISA eine neuartige Exact-or-Approximate-Strategie ein: Kritische Blöcke werden exakt berechnet, während der Rest effizient durch blockweise Taylor-Approximation angenähert wird. Dieser Ansatz ermöglicht es PISA, als treue Stellvertreterin der vollständigen Attention zu fungieren und so die Lücke zwischen Geschwindigkeit und Qualität zu schließen. Experimentelle Ergebnisse zeigen, dass PISA auf Wan2.1-14B und Hunyuan-Video Beschleunigungen um den Faktor 1,91 bzw. 2,57 erzielt und dabei durchgängig die höchste Qualität unter sparse-Attention-Methoden beibehält. Bemerkenswerterweise erreicht PISA selbst bei der Bildgenerierung mit FLUX eine 1,2-fache Beschleunigung ohne Einbußen bei der visuellen Qualität. Der Code ist verfügbar unter: https://github.com/xie-lab-ml/piecewise-sparse-attention.
Wir untersuchen die Beziehung zwischen der Geometrie der Repräsentation und der Leistung neuronaler Netze. Durch die Analyse von 52 vortrainierten ImageNet-Modellen aus 13 Architekturfamilien zeigen wir, dass die effektive Dimension – eine unbeaufsichtigte geometrische Metrik – die Genauigkeit stark vorhersagt. Die effektive Dimension der Ausgabe erreicht eine partielle Korrelation von r=0,75 (p < 10^(-10)) nach Kontrolle der Modellkapazität, während die totale Kompression eine partielle Korrelation von r=-0,72 erreicht. Diese Ergebnisse replizieren sich über ImageNet und CIFAR-10 hinaus und generalisieren auf NLP: Die effektive Dimension sagt die Leistung für 8 Encoder-Modelle auf SST-2/MNLI (r=0,69, p=0,004) und für 15 Decoder-only-LLMs auf AG News vorher, während die Modellgröße dies nicht tut (r=0,07). Wir stellen eine bidirektionale Kausalität fest: Die Verschlechterung der Geometrie durch Rauschen führt zu einem Genauigkeitsverlust (r=-0,94, p < 10^(-9)), während die Verbesserung der Geometrie mittels PCA die Genauigkeit über Architekturen hinweg erhält (-0,03 Prozentpunkte bei 95 % Varianz). Diese Beziehung ist rauschtyp-unabhängig – Gaußsches, Gleichverteilungs-, Dropout- und Salz-und-Pfeffer-Rauschen zeigen alle |r| > 0,90. Diese Ergebnisse belegen, dass die effektive Dimension domainsübergreifend prädiktive und kausale Informationen über die Leistung neuronaler Netze liefert, die vollständig ohne Labels berechnet wird.
Reinforcement Learning ist zentral für das Post-Training großer Sprachmodelle geworden, doch dominante Algorithmen stützen sich auf Clipping-Mechanismen, die in großem Maßstab Optimierungsprobleme verursachen, darunter Null-Gradienten-Bereiche, Reward Hacking und Trainingsinstabilität. Wir schlagen Clipping-Free Policy Optimization (CFPO) vor, das heuristisches Clipping durch eine konvexe quadratische Straffunktion ersetzt, die aus Total-Variation-Divergenz-Beschränkungen abgeleitet wird. Dies ergibt ein überall differenzierbares Ziel, das stabile Policy-Updates ohne harte Grenzen erzwingt. Wir evaluieren CFPO sowohl in Reasoning- als auch in Alignment-Szenarien. Beim Reasoning erreicht CFPO vergleichbare Ergebnisse wie Clipping-basierte Methoden in Downstream-Benchmarks und erweitert dabei das stabile Trainingsregime. Beim Alignment mildert CFPO die Ausnutzung von Weitschweifigkeit und verringert Fähigkeitsverluste, bei gleichzeitig wettbewerbsfähiger Instruction-Following-Leistung. CFPO erfordert nur eine einzeilige Code-Änderung und keine zusätzlichen Hyperparameter. Unsere Ergebnisse deuten darauf hin, dass CFPO eine vielversprechende Drop-in-Alternative zu Clipping-basierten Methoden für das Post-Training von LLMs ist.
Bestehende Tool-Integrated Reasoning (TIR)-Modelle haben die Frage-Antwort-Fähigkeiten von LLMs effektiv erweitert, indem sie externe Werkzeuge einbinden. In realen Szenarien treten jedoch zahlreiche offene Probleme auf, bei denen feste Werkzeuge oft den Aufgabenanforderungen nicht gerecht werden. Darüber hinaus führt das Fehlen von Selbstoptimierungsmechanismen dazu, dass fehlerhafte Werkzeugausgaben die Antworten des LLM in die Irre leiten können. Zusätzlich erfordert die Konstruktion bestehender Werkzeuge erheblichen manuellen Aufwand, was deren Anwendbarkeit einschränkt. Da die Reasoning-Traces von LLMs implizite Problemlösungsfähigkeiten verkörpern, schlagen wir UCT vor, ein neuartiges trainingsfreies Framework, das Agenten von Werkzeugnutzern zu Werkzeugschöpfern transformiert. Dieser Ansatz erntet Reasoning-Erfahrungen und destilliert sie zu wiederverwendbaren Assets. Die Methode verwandelt den Agenten von einem bloßen Werkzeugnutzer in einen Werkzeugersteller, der adaptive Werkzeuggestaltung und Selbstaktualisierung während des Inferenzprozesses ermöglicht. Wir führen zudem einen Mechanismus zur Gedächtniskonsolidierung ein, um die Werkzeugbibliothek zu verwalten und die hohe Wiederverwendbarkeit beibehaltener Erfahrungserinnerungen für nachfolgende Reasoning-Aufgaben sicherzustellen. Dieses neuartige Paradigma der automatisierten Werkzeugkonstruktion verbessert kontinuierlich die Werkzeugqualität während des Reasonings, sodass das gesamte Agentensystem ohne zusätzliches Training fortschreiten kann. Umfangreiche Experimente belegen, dass unsere Methode ein neuartiges Paradigma zur Erweiterung der Fähigkeiten von TIR-Modellen darstellt. Insbesondere die signifikanten Leistungssteigerungen von +20,86%↑ und +23,04%↑ auf Benchmarks für multidisziplinäre mathematische und wissenschaftliche Reasoning-Aufgaben validieren die selbstevolutionäre Fähigkeit des Agenten.
Kulturell sensibilisierte Schutzmechanismen sind entscheidend für die KI-Ausrichtung in realen Anwendungsszenarien, bei denen Sicherheit über gesunden Menschenverstand hinausgeht und vielfältige lokale Werte, Normen und regionsspezifische Vorschriften umfasst. Die Erstellung groß angelegter, kulturell fundierter Datensätze ist jedoch aufgrund begrenzter Ressourcen und eines Mangels an muttersprachlichen Annotatoren eine Herausforderung. Folglich stützen sich viele Schutzmodelle auf maschinelle Übersetzungen englischer Datensätze, wobei häufig regionale und kulturelle Nuancen verloren gehen. Wir stellen einen neuartigen agentenbasierten Rahmen zur Datengenerierung vor, um skalierbar authentische, regionsspezifische Sicherheitsdatensätze für Südostasien (SEA) zu erstellen. Auf dieser Grundlage präsentieren wir die SEA-Guard-Modellfamilie, die ersten mehrsprachigen Schutzmodelle, die in SEA-Kulturkontexten verankert sind. Bewertungen über mehrere Benchmarks und kulturelle Varianten hinweg zeigen, dass SEA-Guard durchgängig bestehende Schutzmechanismen bei der Erkennung regional sensibler oder schädlicher Inhalte übertrifft und gleichzeitig eine hohe allgemeine Sicherheitsleistung beibehält.
Reinforcement Learning verbessert die Reasoning-Fähigkeiten großer Sprachmodelle, ist jedoch aufgrund des aufwendigen Rollout-basierten Optimierungsprozesses oft mit hohen Rechenkosten verbunden. Die Online-Prompt-Auswahl bietet eine vielversprechende Lösung, indem sie informative Prompts priorisiert, um die Trainingseffizienz zu steigern. Allerdings basieren bestehende Methoden entweder auf kostspieligen exakten Evaluationen oder erstellen promptspezifische Vorhersagemodelle, die nicht generalisierbar sind. Diese Studie stellt Generalizable Predictive Prompt Selection (GPS) vor, das mithilfe eines leichtgewichtigen generativen Modells – trainiert auf der gemeinsamen Optimierungshistorie – einen Bayes’schen Rückschluss auf die Prompt-Schwierigkeit vornimmt. Eine Priorisierung mittelschwerer Prompts und eine an der Historie orientierte Diversität werden in das Batch-Akquisitionsprinzip integriert, um informative Prompt-Batches auszuwählen. Das kleine Vorhersagemodell generalisiert zudem zur Testzeit, um Rechenressourcen effizient zuzuteilen. Experimente über verschiedene Reasoning-Benchmarks hinweg zeigen, dass GPS im Vergleich zu überlegenen Baseline-Methoden erhebliche Verbesserungen in Bezug auf Trainingseffizienz, finale Performanz und Testzeit-Effizienz erzielt.
Einleitung. Die ethische Bewertung von KI wird von verschiedenen Akteuren und Interessengruppen unterschiedlich gerahmt. Wir berichten über die Ergebnisse einer Fallstudie zu OpenAI, die den ethischen KI-Diskurs analysiert. Methode. Die Forschung untersuchte: Wie hat der öffentliche Diskurs von OpenAI im Zeitverlauf die Begriffe ‚Ethik‘, ‚Sicherheit‘, ‚Ausrichtung‘ (Alignment) und verwandte Konzepte aufgegriffen, und was signalisiert der Diskurs über die praktische Rahmung? Ein strukturiertes Korpus, das zwischen Kommunikation für ein allgemeines Publikum und Kommunikation mit einem akademischen Publikum differenziert, wurde aus öffentlichen Dokumenten zusammengestellt. Analyse. Die qualitative Inhaltsanalyse ethischer Themen kombinierte induktiv abgeleitete und deduktiv angewandte Codes. Die quantitative Analyse nutzte computergestützte Inhaltsanalysemethoden mittels NLP, um Themen zu modellieren und Veränderungen in der Rhetorik über die Zeit zu quantifizieren. Visualisierungen stellen aggregierte Ergebnisse dar. Um reproduzierbare Ergebnisse zu gewährleisten, haben wir unseren Code unter https://github.com/famous-blue-raincoat/AI_Ethics_Discourse veröffentlicht. Ergebnisse. Die Ergebnisse deuten darauf hin, dass Sicherheits- und Risikodiskurse die öffentliche Kommunikation und Dokumentation von OpenAI dominieren, ohne dass akademische ethische Rahmenwerke oder Vokabulare von Interessenvertretungen angewendet werden. Schlussfolgerungen. Implikationen für die Governance werden dargestellt, zusammen mit einer Diskussion über Ethik-Washing-Praktiken in der Industrie.
Große Sprachmodelle (LLMs) werden zunehmend als Bewertungssysteme eingesetzt, um die Leistung von Agenten zu beurteilen, insbesondere in nicht verifizierbaren Kontexten, in denen die Bewertungen auf Agententrajektorien inklusive Chain-of-Thought (CoT)-Argumentation basieren. Dieses Paradigma geht implizit davon aus, dass die CoT des Agenten sowohl seine interne Argumentation als auch den Zustand der zugrundeliegenden Umgebung getreu widerspiegelt. Wir zeigen, dass diese Annahme anfällig ist: LLM-Bewerter sind hochgradig anfällig für Manipulationen der Argumentationsspuren von Agenten. Durch systematisches Umschreiben der Agenten-CoTs bei konstant gehaltenen Aktionen und Beobachtungen demonstrieren wir, dass manipulierte Argumentation allein die Falsch-Positiv-Raten modernster VLM-Bewerter über 800 Trajektorien hinweg, die verschiedene Web-Aufgaben umfassen, um bis zu 90% erhöhen kann. Wir untersuchen Manipulationsstrategien, die von stilbasierten Ansätzen, die nur die Darstellung der Argumentation verändern, bis hin zu inhaltsbasierten Ansätzen, die Anzeichen von Aufgabenfortschritt fälschen, reichen, und stellen fest, dass inhaltsbasierte Manipulationen durchweg wirksamer sind. Wir evaluieren prompt-basierte Techniken und die Skalierung der Rechenleistung zur Bewertungszeit, welche die Anfälligkeit für Manipulationen verringern, aber nicht vollständig beseitigen. Unsere Ergebnisse decken eine grundlegende Schwachstelle in der LLM-basierten Evaluation auf und unterstreichen die Notwendigkeit von Bewertungsmechanismen, die Argumentationsbehauptungen anhand beobachtbarer Evidenz überprüfen.
Moderne, auf Deep Learning basierende Inpainting-Verfahren ermöglichen realistische lokale Bildmanipulationen, was kritische Herausforderungen für eine zuverlässige Erkennung aufwirft. Wir beobachten jedoch, dass sich aktuelle Detektoren primär auf globale Artefakte stützen, die als Nebeneffekte des Inpaintings auftreten, und nicht auf den lokal synthetisierten Inhalt. Wir zeigen, dass dieses Verhalten auftritt, weil die rekonstruktionsbedingte VAE-Architektur eine subtile, aber allgegenwärtige spektrale Verschiebung über das gesamte Bild induziert, einschließlich unveränderter Regionen. Um diesen Effekt zu isolieren, führen wir Inpainting Exchange (INP-X) ein, eine Operation, die die Originalpixel außerhalb des bearbeiteten Bereichs wiederherstellt, während der gesamte synthetisierte Inhalt erhalten bleibt. Wir erstellen einen Testdatensatz mit 90.000 Bildern, der reale, inpaintierte und ausgetauschte Bilder enthält, um dieses Phänomen zu bewerten. Unter dieser Intervention zeigt sich bei vortrainierten State-of-the-Art-Detektoren, einschließlich kommerzieller, ein dramatischer Genauigkeitsverlust (z.B. von 91\% auf 55\%), der häufig auf das Zufallsniveau abfällt. Wir liefern eine theoretische Analyse, die dieses Verhalten mit der Hochfrequenzdämpfung in Verbindung bringt, die durch Informationsengpässe in VAEs verursacht wird. Unsere Ergebnisse unterstreichen die Notwendigkeit einer inhaltsbewussten Erkennung. Tatsächlich führt ein Training mit unserem Datensatz zu einer besseren Generalisierung und Lokalisierung als Standard-Inpainting. Unser Datensatz und Code sind öffentlich verfügbar unter https://github.com/emirhanbilgic/INP-X.
Multi-Agent-Systeme haben sich als leistungsstarkes Paradigma für die Automatisierung wissenschaftlicher Entdeckungen etabliert. Um das Verhalten von Agenten in einem Multi-Agenten-System zu differenzieren, weisen aktuelle Frameworks typischerweise generische, rollenbasierte Personas wie „Gutachter“ oder „Autor“ zu oder stützen sich auf grobgranulare, schlüsselwortbasierte Personas. Obwohl funktional, vereinfacht dieser Ansatz die Arbeitsweise menschlicher Wissenschaftler zu stark, deren Beiträge durch ihre einzigartigen Forschungslaufbahnen geprägt sind. Als Antwort darauf schlagen wir INDIBATOR vor, ein Framework für die Molekülentdeckung, das Agenten auf individualisierte Wissenschaftlerprofile gründet, die aus zwei Modalitäten konstruiert werden: Publikationshistorie für literaturbasiertes Wissen und Molekülhistorie für strukturelle A-priori-Informationen. Diese Agenten führen eine Mehrschritt-Debatte durch Phasen des Vorschlags, der Kritik und der Abstimmung durch. Unsere Auswertung zeigt, dass diese feingranularen, auf Individualität basierenden Agenten Systeme mit grobgranularen Personas konsequent übertreffen und wettbewerbsfähige oder state-of-the-art Leistungen erzielen. Diese Ergebnisse bestätigen, dass die Erfassung der „wissenschaftlichen DNA“ einzelner Agenten für hochwertige Entdeckungen entscheidend ist.
Allgemeine Open-Domain-Dense-Retrieval-Systeme werden üblicherweise mit einer großen, eklektischen Mischung aus Korpora und Suchaufgaben trainiert. Wie sollten diese diversen Korpora und Aufgaben für das Training ausgewählt werden? Konventionelle Ansätze wählen sie gleichmäßig aus, proportional zu ihren Instanzenumfängen, oder stützen sich auf menschliche Expertensupervision. Es ist bekannt, dass die Strategie zur Stichprobenziehung der Trainingsdaten die Modellleistung erheblich beeinflussen kann. Wie jedoch die optimale Strategie gefunden werden kann, wurde im Kontext von Embedding-Modellen nicht ausreichend untersucht. Wir schlagen Inf-DDS vor, ein neuartiges, durch Reinforcement Learning gesteuertes Sampling-Framework, das Trainingsdatensätze adaptiv neu gewichtet, geleitet durch einflussbasierte Belohnungssignale, und das deutlich ressourcenschonender im Hinblick auf den GPU-Verbrauch ist. Unsere Technik verfeinert iterativ die Sampling-Policy, priorisiert Datensätze, die die Modellleistung auf einem Ziel-Development-Set maximieren. Wir evaluieren die Wirksamkeit unserer Sampling-Strategie für eine breite Palette von Text-Retrieval-Aufgaben und demonstrieren deutliche Verbesserungen der Retrieval-Leistung und eine bessere Anpassung im Vergleich zu bestehenden gradientenbasierten Sampling-Methoden, bei gleichzeitig 1,5x bis 4x geringerem GPU-Bedarf. Unsere Sampling-Strategie erzielt eine absolute NDCG@10-Verbesserung von 5,03 beim Training eines multilingualen bge-m3-Modells und eine absolute NDCG@10-Verbesserung von 0,94 beim Training von all-MiniLM-L6-v2, selbst wenn von expertengesteuert zugewiesenen Gewichten auf einem großen Pool von Trainingsdatensätzen ausgegangen wird.
Die cross-linguale Evaluation großer Sprachmodelle (LLMs) vereint typischerweise zwei Varianzquellen: echte Leistungsunterschiede des Modells und Messinstabilität. Wir untersuchen die Zuverlässigkeit der Evaluation, indem wir die Generierungsbedingungen konstant halten und nur die Zielsprache variieren. Anhand synthetischer Kundensupport-Dialoge, die mit identischen Parametern für Estnisch, Finnisch und Ungarisch generiert wurden, testen wir, ob automatische Metriken und LLM-as-a-Judge-Bewertungen stabile Modellrankings über diese morphologisch reichen, verwandten finno-ugrischen Sprachen hinweg erzeugen. Mit einem kleinen Satz von Annotationen estnischer Muttersprachler als Referenzpunkt stellen wir systematische Ranking-Instabilitäten fest: Oberflächenmetriken (lexikalische Diversität, Oberflächen- und semantische Ähnlichkeit) bleiben sprachübergreifend stabil, aber pragmatische Bewertungen (Kohärenz, Befolgung von Anweisungen) zeigen Rangumkehrungen und Korrelationen nahe null. Da die Generierung kontrolliert ist, spiegeln diese Inkonsistenzen wider, wie sich die Judge-Bewertung sprachabhängig unterschiedlich verhält, und nicht echte Modellunterschiede. Dieses kontrollierte Design dient als diagnostische Sonde: Evaluationsmethoden, die unter identischen Generierungsbedingungen keine Stabilität aufrechterhalten, signalisieren einen Transferfehler vor dem Einsatz. Unsere Ergebnisse legen nahe, dass Zero-Shot-Judge-Transfer für diskursebene Bewertungen in morphologisch reichen Sprachen unzuverlässig ist, was eine sprachspezifische Kalibrierung anhand gezielter menschlicher Referenzwerte erforderlich macht. Wir veröffentlichen unser kontrolliertes Generierungsprotokoll, synthetische Daten und Evaluationsframework zur Ermöglichung von Replikationen über Sprachfamilien hinweg unter https://github.com/isaac-chung/cross-lingual-stability-judges.
Dieses Paper stellt YOLOE-26 vor, ein einheitliches Framework, das die deploymentsoptimierte YOLO26-Architektur mit dem Open-Vocabulary-Lernparadigma von YOLOE für Echtzeit-Open-Vocabulary-Instanzsegmentierung vereint. Aufbauend auf dem NMS-freien, End-to-End-Design von YOLOv26 bewahrt der vorgeschlagene Ansatz die charakteristische Effizienz und Deterministik der YOLO-Familie und erweitert gleichzeitig deren Fähigkeiten über Closed-Set-Erkennung hinaus. YOLOE-26 verwendet ein Convolutional Backbone mit mehrstufiger Feature-Aggregation im PAN/FPN-Stil, gefolgt von End-to-End-Regressions- und Instanzsegmentierungsköpfen. Ein wesentlicher architektonischer Beitrag ist der Ersatz fester Klassenlogits durch einen Objekt-Embedding-Kopf, der Klassifikation als Ähnlichkeitsabgleich mit Prompt-Embeddings formuliert, die aus Textbeschreibungen, visuellen Beispielen oder einem integrierten Vokabular abgeleitet werden. Um effizientes Open-Vocabulary-Inferenz zu ermöglichen, integriert das Framework Re-parametrisierbare Region-Text-Ausrichtung für Text-Prompting ohne Overhead, einen semantisch-aktivierten visuellen Prompt-Encoder für beispielgesteuerte Segmentierung und Lazy Region Prompt Contrast für promptfreie Inferenz. Alle Prompting-Modalitäten operieren innerhalb eines einheitlichen Objekt-Embedding-Raums und ermöglichen nahtloses Wechseln zwischen textgeprompter, visuell-geprompter und vollautonomer Segmentierung. Umfangreiche Experimente demonstrieren konsistentes Skalierungsverhalten und günstige Genauigkeits-Effizienz-Kompromisse über verschiedene Modellgrößen hinweg, sowohl in geprompteten als auch promptfreien Settings. Die Trainingsstrategie nutzt groß angelegte Detektions- und Grounding-Datensätze mit Multi-Task-Optimierung und bleibt voll kompatibel mit dem Ultralytics-Ökosystem für Training, Validierung und Deployment. Insgesamt bietet YOLOE-26 eine praktische und skalierbare Lösung für Echtzeit-Open-Vocabulary-Instanzsegmentierung in dynamischen, realen Umgebungen.
Reservoir Computing (RC) hat sich als effizientes Paradigma für die zeitliche Verarbeitung etabliert. Seine Skalierbarkeit wird jedoch erheblich eingeschränkt durch (i) die Notwendigkeit, zeitliche Daten sequenziell zu verarbeiten, und (ii) den prohibitiv hohen Speicherbedarf hochdimensionaler Reservoirs. In dieser Arbeit betrachten wir RC neu durch die Linse strukturierter Operatoren und Zustandsraummodellierung, um diese Einschränkungen zu adressieren, und führen das Parallele Echo State Network (ParalESN) ein. ParalESN ermöglicht die Konstruktion hochdimensionaler und effizienter Reservoirs auf Basis diagonaler linearer Rekurrenz im komplexen Raum, was eine parallele Verarbeitung zeitlicher Daten erlaubt. Wir liefern eine theoretische Analyse, die zeigt, dass ParalESN die Echo State Property und die Universalitätsgarantien traditioneller Echo State Networks bewahrt, während es eine äquivalente Darstellung beliebiger linearer Reservoirs in diagonaler komplexer Form zulässt. Empirisch erreicht ParalESN die Vorhersagegenauigkeit traditioneller RC auf Zeitreihen-Benchmarks, bei gleichzeitig erheblichen Einsparungen im Rechenaufwand. Bei 1D Klassifizierungsaufgaben auf Pixelebene erzielt ParalESN eine mit vollständig trainierbaren neuronalen Netzen vergleichbare Genauigkeit, reduziert jedoch Rechenkosten und Energieverbrauch um Größenordnungen. Insgesamt bietet ParalESN einen vielversprechenden, skalierbaren und prinzipienbasierten Weg, um RC in die Landschaft des Deep Learning zu integrieren.
Implizite neuronale Repräsentation (INR) hat sich in verschiedenen Bereichen als präzise und effizient erwiesen. In dieser Arbeit untersuchen wir, wie verschiedene neuronale Netze als neue Textur-INR konzipiert werden können, die kontinuierlich statt diskret über den Eingabe-UV-Koordinatenraum operiert. Durch umfangreiche Experimente zeigen wir, dass diese INRs in Bezug auf Bildqualität gut abschneiden, bei moderatem Speicherverbrauch und Render-Inferenzzeit. Wir analysieren die Balance zwischen diesen Zielgrößen. Zusätzlich untersuchen wir verschiedene verwandte Anwendungen in Echtzeit-Rendering und nachgelagerten Aufgaben, wie Mipmap-Anpassung und INR-Raum-Generierung.
Große Sprachmodelle können flüssige Antworten generieren, die nicht mit dem bereitgestellten Kontext übereinstimmen, während viele Sicherheitsvorkehrungen auf externe Verifikation oder eine separate Bewertung nach der Generierung angewiesen sind. Wir führen interne Flusssignaturen ein, die die Entscheidungsbildung anhand von tiefenweisen Dynamiken an einer festen Überwachungsgrenze zwischen Blöcken überprüfen. Die Methode stabilisiert die tokenweise Bewegung durch bias-zentrierte Überwachung und fasst dann Trajektorien in kompakten, beweglichen, leseausrichteten Unterräumen zusammen, die aus dem Top-Token und seinen engsten Konkurrenten innerhalb jedes Tiefenfensters konstruiert werden. Benachbarte Fenster werden durch einen orthogonalen Transport ausgerichtet, was zu tiefenvergleichbaren transportierten Schrittlängen, Drehwinkeln und Unterraumdrift-Zusammenfassungen führt, die invariant gegenüber Basiswahl innerhalb des Fensters sind. Ein leichtgewichtiger GRU-Validator, der auf diesen Signaturen trainiert wurde, führt eine Selbstüberprüfung durch, ohne das Basismodell zu verändern. Über die bloße Erkennung hinaus lokalisiert der Validator ein verantwortliches Tiefenereignis und ermöglicht eine gezielte Verfeinerung: Das Modell rollt auf den verantwortlichen Token zurück und klemmt einen abnormalen transportierten Schritt am identifizierten Block ab, während der orthogonale Rest erhalten bleibt. Die resultierende Pipeline bietet umsetzbare Lokalisierung und Selbstüberprüfung mit geringem Overhead aus internen Entscheidungsdynamiken. Code ist verfügbar unter github.com/EavnJeong/Internal-Flow-Signatures-for-Self-Checking-and-Refinement-in-LLMs.
Wir schlagen Parabolic Position Encoding (PaPE) vor, eine parabelbasierte Positionskodierung für visuelle Modalitäten in auf Aufmerksamkeit basierenden Architekturen. Gegeben eine Menge von visuellen Token – wie Bilder, Punktwolken, Videos oder Event-Camera-Streams – ist unser Ziel, ihre Positionen unter Berücksichtigung der Eigenschaften visueller Modalitäten zu kodieren. Bisherige Arbeiten haben Positionskodierungen weitgehend von 1D-Sequenzen in der Sprache auf nD-Strukturen in der Vision erweitert, jedoch nur mit teilweiser Berücksichtigung visueller Eigenschaften. Wir schließen diese Lücke, indem wir PaPE anhand von Prinzipien entwerfen, die aus vorherigen Arbeiten destilliert wurden: Translationsinvarianz, Rotationsinvarianz (PaPE-RI), Distanzabnahme, Direktionalität und Kontextbewusstsein. Wir evaluieren PaPE auf 8 Datensätzen, die 4 Modalitäten abdecken. Wir stellen fest, dass entweder PaPE oder PaPE-RI auf 7 von 8 Datensätzen die beste Leistung erzielt. Extrapolationsexperimente auf ImageNet-1K zeigen, dass PaPE bemerkenswert gut extrapoliert und in absoluten Zahlen um bis zu 10,5 % gegenüber der nächstbesten Positionskodierung verbessert. Code ist verfügbar unter https://github.com/DTU-PAS/parabolic-position-encoding.
Während LLM-as-a-Judge weit verbreitet in der automatisierten Evaluation eingesetzt wird, operieren bestehende Validierungspraktiken primär auf der Ebene beobachteter Outputs und bieten nur begrenzte Einblicke darin, ob LLM-Judge-Systeme selbst als stabile und zuverlässige Messinstrumente fungieren. Um diese Limitation zu adressieren, führen wir einen zweiphasigen diagnostischen Rahmen zur Bewertung der Zuverlässigkeit von LLM-as-a-Judge ein, der in der Item-Response-Theorie (IRT) verankert ist. Der Rahmen adaptiert das Graded Response Model (GRM) der IRT und formalisiert Zuverlässigkeit entlang zweier komplementärer Dimensionen: (1) intrinsische Konsistenz, definiert als die Stabilität des Messverhaltens unter Variationen der Prompts, und (2) menschliche Übereinstimmung, die die Korrespondenz mit menschlichen Qualitätsbewertungen erfasst. Wir untersuchen empirisch diverse LLM-Judge-Systeme mit diesem Rahmen und zeigen, dass die Nutzung von IRT-GRM interpretierbare Signale für eine systematische Diagnose von Bewertungen liefert. Diese Signale bieten praktische Anleitung zur Überprüfung der Zuverlässigkeit von LLM-as-a-Judge und zur Identifizierung potenzieller Ursachen von Unzuverlässigkeit.