papers.description
Die Beziehung zwischen Computersystemen und dem Gehirn dient seit John von Neumann und Alan Turing als Motivation für wegweisende Theoretiker. Gleichmäßige, skalierungsfreie biologische Netzwerke, wie das Gehirn, besitzen mächtige Eigenschaften, einschließlich der Fähigkeit zur Generalisierung über die Zeit, was die Hauptbarriere für maschinelles Lernen auf dem Weg zu universellen Denkmodellen darstellt. Wir stellen `Dragon Hatchling' (BDH) vor, eine neue Large Language Model-Architektur, die auf einem skalierungsfreien, biologisch inspirierten Netzwerk lokal interagierender Neuronpartikel basiert. BDH kombiniert starke theoretische Grundlagen und inhärente Interpretierbarkeit, ohne dabei die Leistungsfähigkeit von Transformer-Modellen zu opfern. BDH ist eine praktische, leistungsstarke und state-of-the-art Architektur für sequenzielles Lernen auf Basis von Aufmerksamkeitsmechanismen und Zustandsräumen. Zusätzlich zu seiner Eigenschaft als Graphmodell bietet BDH eine GPU-freundliche Formulierung. Es zeigt Transformer-ähnliche Skalierungsgesetze: empirisch erreicht BDH eine vergleichbare Leistung wie GPT2 bei Sprach- und Übersetzungsaufgaben bei gleicher Anzahl von Parametern (10M bis 1B) und gleichen Trainingsdaten. BDH kann als Gehirnmodell dargestellt werden. Das Arbeitsgedächtnis von BDH während der Inferenz beruht vollständig auf synaptischer Plastizität mit Hebb’schem Lernen unter Verwendung von spikenden Neuronen. Wir bestätigen empirisch, dass sich spezifische, individuelle Synapsen verstärken, wenn BDH ein bestimmtes Konzept hört oder darüber nachdenkt, während es Spracheingaben verarbeitet. Das Neuron-Interaktionsnetzwerk von BDH ist ein Graph mit hoher Modularität und einer schweren Gradverteilung. Das BDH-Modell ist biologisch plausibel und erklärt einen möglichen Mechanismus, den menschliche Neuronen nutzen könnten, um Sprache zu erzeugen. BDH ist auf Interpretierbarkeit ausgelegt. Aktivierungsvektoren von BDH sind spärlich und positiv. Wir demonstrieren Monosemantik in BDH bei Sprachaufgaben. Die Interpretierbarkeit des Zustands, die über die Interpretierbarkeit von Neuronen und Modellparametern hinausgeht, ist ein inhärentes Merkmal der BDH-Architektur.
MCP standardisiert die Interaktion von LLMs mit externen Systemen und bildet die Grundlage für allgemeine Agenten. Allerdings sind bestehende MCP-Benchmarks in ihrem Umfang begrenzt: Sie konzentrieren sich auf leseintensive Aufgaben oder Aufgaben mit begrenzter Interaktionstiefe und erfassen nicht die Komplexität und Realitätsnähe realer Workflows. Um diese Lücke zu schließen, schlagen wir MCPMark vor, einen Benchmark, der die Nutzung von MCP auf realistischere und umfassendere Weise bewertet. Er besteht aus 127 hochwertigen Aufgaben, die gemeinsam von Domänenexperten und KI-Agenten erstellt wurden. Jede Aufgabe beginnt mit einem kuratierten Ausgangszustand und enthält ein programmatisches Skript zur automatischen Überprüfung. Diese Aufgaben erfordern reichhaltigere und vielfältigere Interaktionen mit der Umgebung, die eine breite Palette von Create-, Read-, Update- und Delete-Operationen (CRUD) umfassen. Wir führen eine umfassende Bewertung von modernsten LLMs durch, die auf einem minimalen Agenten-Framework basiert, das in einer Tool-Aufruf-Schleife arbeitet. Die empirischen Ergebnisse zeigen, dass das leistungsstärkste Modell, gpt-5-medium, nur 52,56 % pass@1 und 33,86 % pass^4 erreicht, während andere weitgehend als stark angesehene Modelle, einschließlich claude-sonnet-4 und o3, unter 30 % pass@1 und 15 % pass^4 fallen. Im Durchschnitt benötigen LLMs 16,2 Ausführungsrunden und 17,4 Tool-Aufrufe pro Aufgabe, was die Werte früherer MCP-Benchmarks deutlich übersteigt und den Stress-Test-Charakter von MCPMark unterstreicht.
Obwohl Reinforcement Learning (RL) die Fähigkeiten von Vision-Language-Modellen (VLMs) effektiv verbessern kann, sind aktuelle Methoden stark von arbeitsintensiven Datensätzen abhängig, die umfangreiche manuelle Konstruktion und Überprüfung erfordern. Dies führt zu extrem hohen Trainingskosten und schränkt somit die praktische Anwendung von VLMs ein. Um diese Herausforderung zu bewältigen, schlagen wir Vision-Zero vor, ein domänenunabhängiges Framework, das die Selbstverbesserung von VLMs durch kompetitive visuelle Spiele ermöglicht, die aus beliebigen Bildpaaren generiert werden. Konkret umfasst Vision-Zero drei Hauptmerkmale: (1) Strategisches Selbstspiel-Framework: Vision-Zero trainiert VLMs in „Wer ist der Spion“-ähnlichen Spielen, in denen die Modelle strategisches Denken und Handeln in mehreren Rollen anwenden. Durch interaktives Spielen generieren die Modelle ihre Trainingsdaten autonom, ohne menschliche Annotation. (2) Spielgenerierung aus beliebigen Bildern: Im Gegensatz zu bestehenden gamifizierten Frameworks kann Vision-Zero Spiele aus beliebigen Bildern generieren und so die Fähigkeit des Modells zur Schlussfolgerung über verschiedene Domänen hinweg verbessern, was eine starke Generalisierung für unterschiedliche Aufgaben zeigt. Diese Vielseitigkeit demonstrieren wir anhand von drei verschiedenen Arten von Bilddatensätzen: CLEVR-basierte synthetische Szenen, Diagramme und reale Bilder. (3) Nachhaltige Leistungssteigerung: Wir führen Iterative Self-Play Policy Optimization (Iterative-SPO) ein, einen neuartigen Trainingsalgorithmus, der zwischen Selbstspiel und Reinforcement Learning mit überprüfbaren Belohnungen (RLVR) wechselt. Dadurch wird das häufig auftretende Leistungsplateau bei reinem Selbstspiel-Training gemildert und langfristige Verbesserungen erzielt. Trotz der Verwendung von label-freien Daten erreicht Vision-Zero Spitzenleistungen bei Aufgaben zur Schlussfolgerung, Diagramm-Fragebeantwortung und visuell-zentriertem Verständnis und übertrifft dabei andere auf Annotation basierende Methoden. Modelle und Code wurden unter https://github.com/wangqinsi1/Vision-Zero veröffentlicht.
Das logische Denken hat sich als eine entscheidende Fähigkeit in großen Sprachmodellen (Large Language Models, LLMs) herausgestellt. Durch Reinforcement Learning (RL), typischerweise Group Relative Policy Optimization (GRPO), sind diese Modelle in der Lage, komplexe Aufgaben wie Mathematik und Code-Generierung zu lösen. Aufbauend auf diesen Fortschritten hat die jüngste Forschung versucht, das logische Denken auf Vision-Language Models (VLMs) auszuweiten, was vielversprechende Ergebnisse in verschiedenen visuellen Aufgaben erzielt hat. Trotz dieser Fortschritte deckt unsere Studie die duale Natur des multimodalen Denkens auf: Während es die logische Schlussfolgerung erheblich verbessert und die Leistung bei schwierigen Problemen erleichtert, kann es allmählich die perzeptuelle Verankerung beeinträchtigen, was zu Erkennungsfehlern bei ansonsten einfachen visuellen Fragen führt. Durch weitere Analysen führen wir dieses Phänomen auf visuelles Vergessen zurück, bei dem anhaltendes logisches Denken dazu führt, dass das Modell zunehmend visuelle Eingaben ignoriert. Um dies zu beheben, schlagen wir Vision-Anchored Policy Optimization (VAPO) vor, eine einfache, aber effektive Methode, die den Denkprozess explizit auf visuell verankerte Trajektorien lenkt. Unser resultierendes Modell, VAPO-Thinker-7B, stärkt die Abhängigkeit des Modells von visuellen Informationen erheblich und erzielt neue Spitzenergebnisse auf einer Vielzahl etablierter Benchmarks. Projektseite: https://xytian1008.github.io/VAPO/
Da sich das überwachte Feinabstimmen (Supervised Fine-Tuning, SFT) von einem leichten Nachbearbeitungsschritt zu einer rechenintensiven Phase entwickelt, die in ihrem Umfang der mittleren Trainingsphase gleichkommt, ist die Dateneffizienz entscheidend geworden, um große Sprachmodelle (Large Language Models, LLMs) unter knappen Budgets auszurichten. Bestehende Methoden zur Datenreduzierung leiden unter einem fragmentierten Design: Sie operieren entweder auf der Ebene der Beispiele oder der Token isoliert und versäumen es, beide Dimensionen gemeinsam zu optimieren. Diese Trennung führt zu erheblichen Ineffizienzen – hochwertige Beispiele können immer noch redundante Token enthalten, während die Token-basierte Reduzierung oft entscheidende Anweisungs- oder Korrektursignale in einzelnen Beispielen verliert. Um diesen Engpass zu beheben, führen wir die Fehler-Unsicherheits-Ebene (Error-Uncertainty, EU) ein, ein diagnostisches Framework, das den heterogenen Nutzen von Trainingsdaten über Beispiele und Token hinweg gemeinsam charakterisiert. Aufbauend auf dieser Erkenntnis schlagen wir Quadrantenbasiertes Feinabstimmen (Quadrant-based Tuning, Q-Tuning) vor, ein einheitliches Framework, das die Beispiel- und Token-Reduzierung strategisch koordiniert. Q-Tuning verwendet eine zweistufige Strategie: Zuerst führt es eine Beispiel-basierte Triage durch, um Beispiele zu behalten, die reich an informativen Misskonzeptionen oder Kalibrierungssignalen sind; zweitens wendet es eine asymmetrische Token-Reduzierungsrichtlinie an, die einen kontextbewussten Bewertungsmechanismus nutzt, um weniger relevante Token ausschließlich aus Misskonzeptionsbeispielen zu entfernen, während Kalibrierungsbeispiele vollständig erhalten bleiben. Unsere Methode setzt einen neuen Maßstab in fünf verschiedenen Benchmarks. Bemerkenswerterweise erreicht Q-Tuning auf SmolLM2-1.7B eine durchschnittliche Verbesserung von +38\% gegenüber dem vollständigen SFT-Baseline, wobei nur 12,5\% der ursprünglichen Trainingsdaten verwendet werden. Als erste dynamische Reduzierungsmethode, die das vollständige Datentraining konsequent übertrifft, bietet Q-Tuning einen praktischen und skalierbaren Ansatz, um die Datennutzung im budgetbeschränkten LLM-SFT zu maximieren.
Während große Sprachmodelle (LLMs) bei der Beantwortung von faktischen Fragen starke Leistungen gezeigt haben, neigen sie dennoch zu Halluzinationen und unwahren Antworten, insbesondere wenn Aufgaben Informationen außerhalb ihres parametrischen Wissens erfordern. Wahrhaftigkeit erfordert tatsächlich mehr als Genauigkeit – Modelle müssen auch Unsicherheit erkennen und sich zurückhalten, wenn sie unsicher sind, um Halluzinationen zu vermeiden. Dies stellt eine grundlegende Herausforderung für bestehende Methoden dar: Ansätze, die auf Genauigkeit optimieren, verstärken oft Halluzinationen, während solche, die Zurückhaltung fördern, übermäßig konservativ werden können und korrekte Antworten opfern. Beide Extreme beeinträchtigen letztendlich die Wahrhaftigkeit. In dieser Arbeit präsentieren wir TruthRL, ein allgemeines Reinforcement-Learning (RL)-Framework, das die Wahrhaftigkeit von LLMs direkt optimiert. Konkret implementieren wir TruthRL mit GRPO und einer einfachen, aber effektiven ternären Belohnung, die korrekte Antworten, Halluzinationen und Zurückhaltungen unterscheidet. Es motiviert Modelle, Halluzinationen nicht nur durch die Bereitstellung korrekter Antworten zu reduzieren, sondern auch durch Zurückhaltung bei Unsicherheit, wodurch die Wahrhaftigkeit verbessert wird. Umfangreiche Experimente über vier wissensintensive Benchmarks zeigen, dass TruthRL im Vergleich zu herkömmlichem RL Halluzinationen um 28,9 % signifikant reduziert und die Wahrhaftigkeit um 21,1 % verbessert, mit konsistenten Gewinnen über verschiedene Basismodelle (z. B. Qwen, Llama) sowohl unter Retrieval- als auch Nicht-Retrieval-Setups. Eine detaillierte Ablationsstudie zeigt, dass herkömmliche, auf Genauigkeit ausgerichtete Methoden wie überwachtes Fein-Tuning oder RL mit einer binären Belohnung Schwierigkeiten haben, faktische Korrektheit und Unsicherheit auszubalancieren. Im Gegensatz dazu erreicht unser vorgeschlagenes, auf Wahrhaftigkeit ausgerichtetes TruthRL starke Leistungen sowohl in Bezug auf Genauigkeit als auch Wahrhaftigkeit, was die Bedeutung des Lernziel-Designs für die Entwicklung wahrhaftiger LLMs unterstreicht.
Große Sprachmodelle (LLMs), obwohl sie ausschließlich auf Text trainiert wurden, entwickeln überraschenderweise umfangreiche visuelle Vorannahmen. Diese Vorannahmen ermöglichen es, latente visuelle Fähigkeiten für Vision-Aufgaben mit einer relativ geringen Menge an multimodalen Daten freizuschalten, und in einigen Fällen sogar visuelle Aufgaben zu bewältigen, ohne jemals ein Bild gesehen zu haben. Durch systematische Analysen zeigen wir, dass visuelle Vorannahmen – das implizite, emergente Wissen über die visuelle Welt, das während des Sprach-Vortrainings erworben wird – aus trennbaren Wahrnehmungs- und Schlussfolgerungsvorannahmen bestehen, die einzigartige Skalierungstrends und Ursprünge aufweisen. Wir zeigen, dass die latente visuelle Schlussfolgerungsfähigkeit eines LLMs hauptsächlich durch das Vortraining auf schlussfolgerungszentrierten Daten (z.B. Code, Mathematik, akademische Texte) entwickelt wird und progressiv skaliert. Diese durch Sprach-Vortraining erworbene Schlussfolgerungsvorannahme ist übertragbar und universell auf visuelle Schlussfolgerungen anwendbar. Im Gegensatz dazu entsteht eine Wahrnehmungsvorannahme diffuser aus breiten Textkorpora, und die Wahrnehmungsfähigkeit ist empfindlicher gegenüber dem Vision-Encoder und den visuellen Instruktions-Tuning-Daten. Parallel dazu erweist sich Text, der die visuelle Welt beschreibt, als entscheidend, obwohl seine Leistungsauswirkung schnell gesättigt ist. Basierend auf diesen Erkenntnissen schlagen wir ein datenzentriertes Rezept für das Vortraining von visuell bewussten LLMs vor und verifizieren es in einem Vortraining im Maßstab von 1T Token. Unsere Ergebnisse basieren auf über 100 kontrollierten Experimenten, die 500.000 GPU-Stunden in Anspruch nehmen und die gesamte MLLM-Konstruktionspipeline abdecken – vom LLM-Vortraining über visuelle Ausrichtung bis hin zu überwachtem multimodalen Fein-Tuning – über fünf Modellskalen, eine breite Palette von Datenkategorien und -mischungen sowie mehrere Anpassungsszenarien. Neben unseren Hauptergebnissen schlagen und untersuchen wir mehrere Hypothesen und führen den Multi-Level Existence Bench (MLE-Bench) ein. Zusammen bietet diese Arbeit einen neuen Ansatz, um gezielt visuelle Vorannahmen aus dem Sprach-Vortraining zu kultivieren und ebnet den Weg für die nächste Generation multimodaler LLMs.
Wir stellen DC-VideoGen vor, ein Post-Training-Beschleunigungsframework für effiziente Videogenerierung. DC-VideoGen kann auf jedes vortrainierte Video-Diffusionsmodell angewendet werden und verbessert die Effizienz durch Anpassung an einen tief komprimierten latenten Raum mit leichtgewichtiger Feinabstimmung. Das Framework basiert auf zwei zentralen Innovationen: (i) einem Deep Compression Video Autoencoder mit einem neuartigen chunk-kausalen zeitlichen Design, das eine 32x/64x räumliche und 4x zeitliche Kompression erreicht, während die Rekonstruktionsqualität und die Generalisierung auf längere Videos erhalten bleibt; und (ii) AE-Adapt-V, einer robusten Adaptionsstrategie, die eine schnelle und stabile Übertragung vortrainierter Modelle in den neuen latenten Raum ermöglicht. Die Anpassung des vortrainierten Wan-2.1-14B-Modells mit DC-VideoGen erfordert lediglich 10 GPU-Tage auf der NVIDIA H100 GPU. Die beschleunigten Modelle erreichen eine bis zu 14,8x geringere Inferenzlatenz als ihre Basisversionen, ohne dabei die Qualität zu beeinträchtigen, und ermöglichen zudem die Generierung von 2160x3840 Videos auf einer einzelnen GPU. Code: https://github.com/dc-ai-projects/DC-VideoGen.
Wir stellen OceanGym vor, den ersten umfassenden Benchmark für verkörperte Agenten in der Unterwasserwelt der Ozeane, der darauf abzielt, die KI in einer der anspruchsvollsten realen Umgebungen voranzubringen. Im Gegensatz zu terrestrischen oder luftgestützten Domänen stellen Unterwasserumgebungen extreme Wahrnehmungs- und Entscheidungsherausforderungen dar, darunter schlechte Sicht und dynamische Meeresströmungen, was den effektiven Einsatz von Agenten außerordentlich schwierig macht. OceanGym umfasst acht realistische Aufgabenbereiche und ein einheitliches Agenten-Framework, das von Multi-modalen Großen Sprachmodellen (MLLMs) angetrieben wird und Wahrnehmung, Gedächtnis und sequenzielle Entscheidungsfindung integriert. Die Agenten müssen optische und Sonardaten verstehen, komplexe Umgebungen autonom erkunden und langfristige Ziele unter diesen rauen Bedingungen erreichen. Umfangreiche Experimente zeigen erhebliche Lücken zwischen den modernsten MLLM-gesteuerten Agenten und menschlichen Experten auf und unterstreichen die anhaltenden Schwierigkeiten bei der Wahrnehmung, Planung und Anpassungsfähigkeit in Unterwasserumgebungen der Ozeane. Durch die Bereitstellung einer hochauflösenden, sorgfältig gestalteten Plattform schafft OceanGym ein Testfeld für die Entwicklung robuster verkörperter KI und die Übertragung dieser Fähigkeiten auf reale autonome Unterwasserfahrzeuge, was einen entscheidenden Schritt hin zu intelligenten Agenten markiert, die in einer der letzten unerforschten Grenzen der Erde operieren können. Der Code und die Daten sind unter https://github.com/OceanGPT/OceanGym verfügbar.
Reinforcement Learning with Verifiable Reward (RLVR) löst effektiv komplexe Aufgaben, erfordert jedoch während des Trainings extrem lange Kontextlängen, was zu erheblichen Rechenkosten führt. Während mehrstufiges Training dies teilweise abmildern kann, führt der Start mit zu kurzen Kontexten oft zu irreversiblen Leistungseinbußen und reduziert letztlich den gesamten Trainingsaufwand nicht signifikant. In diesem Artikel stellen wir **T**hinking-**F**ree **P**olicy **I**nitialization (**TFPI**) vor, eine einfache, aber effektive Anpassung an RLVR, die lange Chain-of-Thought (CoT)-Destillation und standardmäßiges RLVR verbindet. TFPI verwendet eine einfache *ThinkFree*-Operation, die den Denkinhalt explizit durch ein direktes *</think>*-Anhängen verwirft, um die Token-Nutzung während der Inferenz zu reduzieren. Das Training mit *ThinkFree*-angepassten Eingaben verbessert die Leistung und senkt den Token-Verbrauch, selbst im ursprünglichen langsamen Denkmodus. Umfangreiche Experimente über verschiedene Benchmarks hinweg haben gezeigt, dass TFPI die RL-Konvergenz beschleunigt, eine höhere Leistungsgrenze erreicht und token-effizientere Reasoning-Modelle ohne spezialisierte Belohnungen oder komplexe Trainingsdesigns liefert. Mit TFPI allein trainieren wir ein 4B-Modell, das eine Genauigkeit von 89,0 % auf AIME24 und 65,5 % auf LiveCodeBench erreicht, wobei weniger als 4K H20-Stunden verwendet werden.
Urteile auf Basis von Large Language Models (LLMs) nutzen die Leistungsfähigkeit von LLMs, um Kandidateninhalte effizient zu bewerten und Bewertungsscores zu liefern. Allerdings wecken die inhärenten Verzerrungen und Schwächen von LLM-generierten Urteilen Bedenken, was die dringende Notwendigkeit unterstreicht, sie in sensiblen Szenarien wie der akademischen Begutachtung zu unterscheiden. In dieser Arbeit schlagen wir die Aufgabe der Urteilsdetektion vor und formalisieren sie, während wir die Erkennbarkeit von LLM-generierten Urteilen systematisch untersuchen. Im Gegensatz zur Detektion von LLM-generierten Texten stützt sich die Urteilsdetektion ausschließlich auf Bewertungsscores und Kandidaten, was reale Szenarien widerspiegelt, in denen textuelles Feedback im Detektionsprozess oft nicht verfügbar ist. Unsere vorläufige Analyse zeigt, dass bestehende Methoden zur Detektion von LLM-generierten Texten schlecht abschneiden, da sie die Interaktion zwischen Bewertungsscores und Kandidateninhalten nicht erfassen können – ein Aspekt, der für eine effektive Urteilsdetektion entscheidend ist. Inspiriert davon führen wir J-Detector ein, einen leichten und transparenten neuronalen Detektor, der mit explizit extrahierten linguistischen und LLM-verstärkten Merkmalen angereichert ist, um die Verzerrungen von LLM-Bewertern mit den Eigenschaften der Kandidaten zu verknüpfen und so eine präzise Detektion zu ermöglichen. Experimente über diverse Datensätze demonstrieren die Wirksamkeit von J-Detector und zeigen, wie seine Interpretierbarkeit die Quantifizierung von Verzerrungen in LLM-Bewertern ermöglicht. Abschließend analysieren wir Schlüsselfaktoren, die die Erkennbarkeit von LLM-generierten Urteilen beeinflussen, und validieren den praktischen Nutzen der Urteilsdetektion in realen Szenarien.
Die Zuverlässigkeit großer Sprachmodelle (LLMs) während der Skalierung zur Testzeit wird häufig mit externen Verifizierern oder Belohnungsmodellen bewertet, die korrektes von fehlerhaftem logischem Denken unterscheiden. Bisherige Arbeiten gehen allgemein davon aus, dass Prozess-Belohnungsmodelle (PRMs), die jeden Zwischenschritt der Argumentation bewerten, Ergebnis-Belohnungsmodelle (ORMs), die nur die endgültige Antwort bewerten, übertreffen. Diese Ansicht basiert hauptsächlich auf Erkenntnissen aus eng gefassten, mathematiknahen Domänen. Wir präsentieren die erste einheitliche Bewertung von vier Varianten von Belohnungsmodellen, diskriminativen ORM und PRM (\DisORM, \DisPRM) sowie generativen ORM und PRM (\GenORM, \GenPRM), über 14 verschiedene Domänen hinweg. Entgegen der herkömmlichen Weisheit stellen wir fest, dass (i) \DisORM mit \DisPRM gleichauf liegt, (ii) \GenPRM nicht wettbewerbsfähig ist und (iii) insgesamt \GenORM das robusteste Modell darstellt, das signifikante und konsistente Verbesserungen in jeder getesteten Domäne erzielt. Wir führen dies auf die schrittweise Bewertung im PRM-Stil zurück, die Rauschen in den Labels durch automatische Beschriftung der LLMs erbt und Schwierigkeiten hat, lange Argumentationspfade zu bewerten, einschließlich solcher, die selbstkorrigierendes Denken beinhalten. Unsere theoretische Analyse zeigt, dass die schrittweise Aggregation von Fehlern mit zunehmender Länge der Argumentation zunimmt, und unsere empirischen Beobachtungen bestätigen diesen Effekt. Diese Erkenntnisse stellen die vorherrschende Annahme in Frage, dass feinkörnige Überwachung immer besser ist, und unterstützen die generative Ergebnisverifikation für den Einsatz in mehreren Domänen. Wir veröffentlichen unseren Code, Datensätze und Checkpoints unter \url{https://github.com/db-Lee/Multi-RM}, um zukünftige Forschung in mehrdomänigen Kontexten zu erleichtern.
Panorama verfügt über ein vollständiges Sichtfeld (360°×180°), was eine umfassendere visuelle Beschreibung bietet als perspektivische Bilder. Dank dieser Eigenschaft gewinnt die Panorama-Tiefenschätzung zunehmend an Bedeutung in der 3D-Vision. Aufgrund der Knappheit von Panorama-Daten sind frühere Methoden jedoch oft auf In-Domain-Szenarien beschränkt, was zu einer schlechten Zero-Shot-Generalisierung führt. Darüber hinaus verlassen sich viele Ansätze aufgrund der sphärischen Verzerrungen, die Panoramen inhärent sind, auf perspektivische Aufteilung (z. B. Cubemaps), was zu suboptimaler Effizienz führt. Um diese Herausforderungen zu bewältigen, schlagen wir DA²: Depth Anything in Any Direction vor, einen präzisen, zero-shot-generalisierbaren und vollständig end-to-end Panorama-Tiefenschätzer. Speziell zur Skalierung von Panorama-Daten führen wir eine Datenkuratierungs-Engine ein, die hochwertige Panorama-Tiefendaten aus Perspektiven generiert, und erstellen sim543K Panorama-RGB-Tiefenpaare, was die Gesamtzahl auf sim607K erhöht. Um die sphärischen Verzerrungen weiter zu mildern, präsentieren wir SphereViT, das explizit sphärische Koordinaten nutzt, um die sphärische geometrische Konsistenz in Panorama-Bildmerkmalen zu erzwingen, was zu einer verbesserten Leistung führt. Ein umfassender Benchmark auf mehreren Datensätzen zeigt deutlich die State-of-the-Art-Leistung von DA², mit einer durchschnittlichen Verbesserung von 38 % bei AbsRel gegenüber der stärksten Zero-Shot-Baseline. Überraschenderweise übertrifft DA² sogar frühere In-Domain-Methoden, was seine überlegene Zero-Shot-Generalisierung unterstreicht. Darüber hinaus zeigt DA² als end-to-end-Lösung eine deutlich höhere Effizienz gegenüber fusionbasierten Ansätzen. Sowohl der Code als auch die kuratierten Panorama-Daten werden veröffentlicht. Projektseite: https://depth-any-in-any-dir.github.io/.
Die bemerkenswerten Fähigkeiten moderner großer Reasoning-Modelle werden weitgehend durch Post-Training-Techniken wie überwachtes Feintuning und Reinforcement Learning freigesetzt. Die architektonischen Mechanismen hinter diesen Verbesserungen bleiben jedoch weitgehend undurchsichtig. In dieser Arbeit verwenden wir Schaltkreisanalysen, um zu zeigen, dass Post-Training für komplexes Reasoning die Entstehung neuartiger, funktional spezialisierter Attention Heads auslöst. Diese Heads unterstützen gemeinsam strukturiertes Reasoning und Berechnungen. Unsere vergleichende Analyse über die Qwen-Familien und das DeepSeek-distillierte Modell zeigt, dass diese emergenten Heads unter verschiedenen Trainingsregimen unterschiedlich evolvieren. Destillation und SFT fördern eine kumulative Hinzufügung stabiler Reasoning-Heads. Im Gegensatz dazu arbeitet die gruppenrelative Policy-Optimierung in einem dynamischen Suchmodus: relativ wenige Attention Heads werden iterativ aktiviert, evaluiert und beschnitten, wobei ihr Überleben eng mit Schwankungen im Aufgabenbelohnungssignal verknüpft ist. Darüber hinaus stellen wir fest, dass kontrollierbare Think On/Off-Modelle keine dedizierten Thinking-Heads besitzen. Stattdessen löst das Abschalten expliziten Reasonings einen breiteren – aber weniger effizienten – Satz kompensatorischer Heads aus. Durch Ablations- und qualitative Analysen verbinden wir diese Schaltkreisdynamiken mit einem entscheidenden Leistungskompromiss: verstärkte Heads ermöglichen ausgefeilte Problemlösungsstrategien für schwierige Probleme, können aber auch Over-Thinking-Fehlermodi einführen, wie Berechnungsfehler oder logische Schleifen bei einfacheren Aufgaben. Diese Erkenntnisse verbinden Schaltkreisdynamiken mit der Makro-Leistung und identifizieren eine inhärente Spannung, bei der komplexes Reasoning auf Kosten elementarer Berechnungen geht. Im weiteren Sinne weist unsere Arbeit auf zukünftige Richtungen für das Design von Trainingsstrategien hin und betont die Notwendigkeit, die Entwicklung effektiver Reasoning-Strategien mit der Gewährleistung zuverlässiger, fehlerfreier Ausführung in Einklang zu bringen.
Da LLM-basierte Agenten zunehmend in realen Szenarien eingesetzt werden, erfassen bestehende Benchmarks nicht deren inhärente Komplexität bei der Bewältigung umfangreicher Informationen, der Nutzung diverser Ressourcen und der Verwaltung dynamischer Benutzerinteraktionen. Um diese Lücke zu schließen, stellen wir VitaBench vor, eine anspruchsvolle Benchmark, die Agenten anhand vielseitiger interaktiver Aufgaben in realen Umgebungen bewertet. Inspiriert von täglichen Anwendungen wie Essenslieferungen, In-Store-Konsum und Online-Reisediensten bietet VitaBench Agenten die bisher komplexeste lebensnahe Simulationsumgebung, bestehend aus 66 Werkzeugen. Durch ein Framework, das domänenspezifische Richtlinien eliminiert, ermöglichen wir die flexible Zusammensetzung dieser Szenarien und Werkzeuge, was zu 100 übergreifenden Szenarioaufgaben (Hauptergebnisse) und 300 Einzelszenarioaufgaben führt. Jede Aufgabe basiert auf mehreren realen Benutzeranfragen und erfordert von den Agenten, über zeitliche und räumliche Dimensionen hinweg zu schlussfolgern, komplexe Werkzeugsätze zu nutzen, aktiv mehrdeutige Anweisungen zu klären und sich verändernde Benutzerabsichten in mehrschrittigen Konversationen zu verfolgen. Darüber hinaus schlagen wir einen rubrikbasierten Gleitfenster-Evaluator vor, der eine robuste Bewertung verschiedener Lösungswege in komplexen Umgebungen und stochastischen Interaktionen ermöglicht. Unsere umfassende Auswertung zeigt, dass selbst die fortschrittlichsten Modelle nur eine Erfolgsquote von 30 % bei übergreifenden Szenarioaufgaben und weniger als 50 % bei anderen erreichen. Insgesamt glauben wir, dass VitaBench eine wertvolle Ressource für die Weiterentwicklung von KI-Agenten in praktischen realen Anwendungen darstellen wird. Der Code, der Datensatz und die Bestenliste sind unter https://vitabench.github.io/ verfügbar.
Die Bild-zu-Video-Generierung hat durch Fortschritte bei Diffusionsmodellen bemerkenswerte Fortschritte gemacht, doch die Erzeugung von Videos mit realistischer Bewegung bleibt äußerst anspruchsvoll. Diese Schwierigkeit ergibt sich aus der Komplexität, Bewegung präzise zu modellieren, was das Erfassen physikalischer Einschränkungen, Objektinteraktionen und domänenspezifischer Dynamiken umfasst, die sich nicht leicht über verschiedene Szenarien verallgemeinern lassen. Um dies zu adressieren, schlagen wir MotionRAG vor, ein retrieval-augmentiertes Framework, das die Bewegungsrealität verbessert, indem es Bewegungs-Priors aus relevanten Referenzvideos durch Context-Aware Motion Adaptation (CAMA) anpasst. Die wesentlichen technischen Innovationen umfassen: (i) eine Retrieval-basierte Pipeline, die hochrangige Bewegungsmerkmale mithilfe eines Video-Encoders und spezialisierter Resampler extrahiert, um semantische Bewegungsrepräsentationen zu destillieren; (ii) einen In-Context-Learning-Ansatz für die Bewegungsanpassung, der durch eine kausale Transformer-Architektur implementiert wird; (iii) einen auf Aufmerksamkeit basierenden Bewegungsinjektionsadapter, der übertragene Bewegungsmerkmale nahtlos in vortrainierte Video-Diffusionsmodelle integriert. Umfangreiche Experimente zeigen, dass unsere Methode signifikante Verbesserungen über mehrere Domänen und verschiedene Basismodelle hinweg erzielt, alles mit vernachlässigbarem Rechenaufwand während der Inferenz. Darüber hinaus ermöglicht unser modulares Design eine Zero-Shot-Generalisierung auf neue Domänen, indem einfach die Retrieval-Datenbank aktualisiert wird, ohne Komponenten neu zu trainieren. Diese Forschung verbessert die Kernfähigkeit von Video-Generierungssystemen, indem sie das effektive Retrieval und die Übertragung von Bewegungs-Priors ermöglicht und so die Synthese realistischer Bewegungsdynamiken erleichtert.
Diffusion Large Language Models (dLLMs) haben in jüngster Zeit beträchtliche Aufmerksamkeit in der Forschungsgemeinschaft als vielversprechende Alternative zur autoregressiven Generierung erregt, da sie parallele Token-Vorhersage und geringere Inferenzlatenz bieten. Dennoch bleibt ihr Potenzial für paralleles Decodieren weitgehend unerforscht, da bestehende Open-Source-Modelle immer noch nahezu tokenlange Decodierschritte benötigen, um die Leistung zu gewährleisten. Um dies zu adressieren, stellen wir dParallel vor, eine einfache und effektive Methode, die die inhärente Parallelität von dLLMs für schnelles Sampling freisetzt. Wir identifizieren, dass der Hauptengpass für paralleles Decodieren in der sequenziellen Konvergenz der Sicherheit für maskierte Token liegt. Aufbauend auf dieser Erkenntnis führen wir den Kern unseres Ansatzes ein: Certainty-Forcing Distillation, eine neuartige Trainingsstrategie, die das Modell dazu bringt, seine ursprünglichen Sampling-Trajektorien beizubehalten, während es gleichzeitig dazu gezwungen wird, eine hohe Sicherheit für maskierte Token schneller und parallel zu erreichen. Umfangreiche Experimente über verschiedene Benchmarks hinweg zeigen, dass unsere Methode die Anzahl der Decodierschritte dramatisch reduzieren kann, während die Leistung erhalten bleibt. Bei Anwendung auf das LLaDA-8B-Instruct-Modell reduziert dParallel die Decodierschritte von 256 auf 30 bei GSM8K, was eine 8,5-fache Beschleunigung ohne Leistungseinbußen bewirkt. Beim MBPP-Benchmark werden die Decodierschritte von 256 auf 24 reduziert, was eine 10,5-fache Beschleunigung bei gleichbleibender Genauigkeit zur Folge hat. Unser Code ist verfügbar unter https://github.com/czg1225/dParallel.
Der Muon-Optimierer ist durchweg schneller als Adam beim Training von Large Language Models (LLMs), doch der Mechanismus, der seinem Erfolg zugrunde liegt, bleibt unklar. Diese Arbeit beleuchtet diesen Mechanismus durch die Linse des assoziativen Gedächtnisses. Durch das Ablieren der Transformer-Komponenten, die von Muon optimiert werden, zeigen wir, dass die Parameter des assoziativen Gedächtnisses von LLMs, nämlich die Value- und Output-Aufmerksamkeitsgewichte (VO) und die Feed-Forward Networks (FFNs), die Hauptbeiträge zur Überlegenheit von Muon sind. Motiviert durch diese Sichtweise des assoziativen Gedächtnisses erklären wir dann die Überlegenheit von Muon auf realen Korpora, die intrinsisch schwergewichtig sind: einige Klassen (Tail-Klassen) treten weitaus seltener auf als andere. Die Überlegenheit wird durch zwei Schlüsseleigenschaften erklärt: (i) seine Aktualisierungsregel erzeugt durchweg ein isotroperes Spektrum der Singulärwerte als Adam; und infolgedessen (ii) optimiert es auf schwergewichtigen Daten die Tail-Klassen effektiver als Adam. Über empirische Belege hinaus bestätigen wir diese Erkenntnisse theoretisch, indem wir ein einlagiges Modell des assoziativen Gedächtnisses unter klassenungleichen Daten analysieren. Wir beweisen, dass Muon unabhängig von Feature-Embeddings durchweg ein ausgewogenes Lernen über die Klassen hinweg erreicht, während Adam je nach den Eigenschaften der Embeddings große Disparitäten in den Lernfehlern induzieren kann. Zusammenfassend offenbaren unsere empirischen Beobachtungen und theoretischen Analysen den Kernvorteil von Muon: seine Aktualisierungsregel stimmt mit der äußeren Produktstruktur linearer assoziativer Gedächtnisse überein, was ein ausgewogeneres und effektiveres Lernen von Tail-Klassen in schwergewichtigen Verteilungen ermöglicht als Adam.
Die Gewährleistung einer präzisen multimodalen Ausrichtung zwischen durch Diffusion generierten Bildern und Eingabeaufforderungen stellt seit langem eine Herausforderung dar. Frühere Arbeiten verfeinern die Diffusion-Gewichte mithilfe von hochwertigen Präferenzdaten, die jedoch tendenziell begrenzt und schwer zu skalieren sind. Neuere bearbeitungsbasierte Methoden verfeinern weiterhin lokale Regionen der generierten Bilder, können jedoch die Gesamtbildqualität beeinträchtigen. In dieser Arbeit schlagen wir Implicit Multimodal Guidance (IMG) vor, ein neuartiges, regenerationsbasiertes multimodales Ausrichtungsframework, das keine zusätzlichen Daten oder Bearbeitungsoperationen erfordert. Konkret nutzt IMG, gegeben ein generiertes Bild und dessen Aufforderung, a) ein multimodales großes Sprachmodell (MLLM), um Fehlausrichtungen zu identifizieren; b) führt einen Implicit Aligner ein, der die Diffusionsbedingungsmerkmale manipuliert, um Fehlausrichtungen zu reduzieren und eine Neugenerierung zu ermöglichen; und c) formuliert das Ziel der Neuausrichtung in ein trainierbares Ziel, nämlich das Iteratively Updated Preference Objective. Umfangreiche qualitative und quantitative Bewertungen an SDXL, SDXL-DPO und FLUX zeigen, dass IMG bestehende Ausrichtungsmethoden übertrifft. Darüber hinaus fungiert IMG als flexibler Plug-and-Play-Adapter, der nahtlos vorherige, auf Feinabstimmung basierende Ausrichtungsmethoden verbessert. Unser Code wird unter https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment verfügbar sein.
Können Menschen KI-generierte (gefälschte) Videos erkennen und fundierte Gründe dafür angeben? Während Videogenerierungsmodelle rasante Fortschritte gemacht haben, wurde eine kritische Dimension – ob Menschen Deepfake-Spuren in einem generierten Video erkennen können, d.h. räumlich und zeitlich verankerte visuelle Artefakte, die ein Video als maschinell generiert offenbaren – weitgehend übersehen. Wir stellen DeeptraceReward vor, den ersten fein abgestimmten, räumlich und zeitlich bewussten Benchmark, der menschlich wahrgenommene Fälschungsspuren für die Videogenerierungsbewertung annotiert. Der Datensatz umfasst 4.3K detaillierte Annotationen über 3.3K hochwertige generierte Videos. Jede Annotation liefert eine natürliche Sprachbeschreibung, lokalisiert eine Begrenzungsbox-Region, die die wahrgenommene Spur enthält, und markiert präzise Anfangs- und Endzeitpunkte. Wir konsolidieren diese Annotationen in 9 Hauptkategorien von Deepfake-Spuren, die Menschen dazu veranlassen, ein Video als KI-generiert zu identifizieren, und trainieren multimodale Sprachmodelle (LMs) als Belohnungsmodelle, um menschliche Urteile und Lokalisierungen nachzuahmen. Auf DeeptraceReward übertrifft unser 7B-Belohnungsmodell GPT-5 im Durchschnitt um 34,7 % bei der Identifikation von Fälschungshinweisen, der Verankerung und der Erklärung. Interessanterweise beobachten wir einen konsistenten Schwierigkeitsgradienten: Die binäre Klassifizierung von gefälscht gegenüber echt ist wesentlich einfacher als die fein abgestimmte Deepfake-Spurenerkennung; innerhalb der letzteren verschlechtert sich die Leistung von natürlichen Spracherklärungen (am einfachsten), über räumliche Verankerung, bis hin zur zeitlichen Kennzeichnung (am schwierigsten). Indem DeeptraceReward menschlich wahrgenommene Deepfake-Spuren in den Vordergrund stellt, bietet es eine rigorose Testumgebung und ein Trainingssignal für sozial bewusste und vertrauenswürdige Videogenerierung.
Während frühere AI-Scientist-Systeme in der Lage sind, neuartige Erkenntnisse zu generieren, fehlt ihnen oft der Fokus, um wissenschaftlich wertvolle Beiträge zu leisten, die dringende, vom Menschen definierte Herausforderungen adressieren. Wir stellen DeepScientist vor, ein System, das dies überwinden soll, indem es zielgerichtete, vollständig autonome wissenschaftliche Entdeckungen über monatelange Zeiträume durchführt. Es formalisiert die Entdeckung als ein Bayesian-Optimierungs-Problem, das durch einen hierarchischen Bewertungsprozess bestehend aus „Hypothesenbildung, Verifizierung und Analyse“ operationalisiert wird. Durch die Nutzung eines kumulativen Findings Memory balanciert diese Schleife intelligent die Exploration neuer Hypothesen mit der Exploitation aus und fördert selektiv die vielversprechendsten Erkenntnisse auf höhere Validierungsstufen. Mit einem Verbrauch von über 20.000 GPU-Stunden generierte das System etwa 5.000 einzigartige wissenschaftliche Ideen und validierte experimentell ungefähr 1.100 davon, wobei es schließlich menschlich entwickelte State-of-the-Art (SOTA)-Methoden bei drei fortschrittlichen KI-Aufgaben um 183,7 %, 1,9 % und 7,9 % übertraf. Diese Arbeit liefert den ersten großflächigen Beweis dafür, dass eine KI Entdeckungen erzielt, die menschliche SOTA bei wissenschaftlichen Aufgaben schrittweise übertreffen, und wertvolle Erkenntnisse produziert, die die Grenzen der wissenschaftlichen Entdeckung tatsächlich vorantreiben. Um weitere Forschungen zu diesem Prozess zu ermöglichen, werden wir alle experimentellen Protokolle und Systemcodes unter https://github.com/ResearAI/DeepScientist/ open-sourcen.
Wir untersuchen Code-zu-Metrik-Regression: die Vorhersage numerischer Ergebnisse von Codeausführungen, eine anspruchsvolle Aufgabe aufgrund der offenen Natur von Programmiersprachen. Während frühere Methoden auf umfangreiche und domänenspezifische Feature-Engineering-Ansätze zurückgegriffen haben, zeigen wir, dass ein einheitliches Regression Language Model (RLM) gleichzeitig direkt aus Text vorhersagen kann: (i) den Speicherbedarf von Code über mehrere Hochsprachen wie Python und C++, (ii) die Latenz von Triton-GPU-Kerneln und (iii) die Genauigkeit und Geschwindigkeit von trainierten neuronalen Netzwerken, die in ONNX dargestellt sind. Insbesondere erreicht ein relativ kleines RLM mit 300M Parametern, das von T5Gemma initialisiert wurde, einen Spearman-Rang von > 0,9 bei Wettbewerbsprogrammierungs-Einreichungen aus APPS, und ein einheitliches Modell erreicht einen durchschnittlichen Spearman-Rang von > 0,5 über 17 separate Sprachen aus CodeNet. Darüber hinaus kann das RLM den höchsten durchschnittlichen Kendall-Tau-Wert von 0,46 in fünf klassischen NAS-Designräumen erzielen, die zuvor von Graph Neural Networks dominiert wurden, und gleichzeitig Architektur-Latenzen auf zahlreichen Hardware-Plattformen vorhersagen.
Große Sprachmodell-Agenten (LLM-Agenten) sind durch begrenzte Kontextfenster eingeschränkt, was externe Speichersysteme für das langfristige Verständnis von Informationen erforderlich macht. Aktuelle speichererweiterte Agenten verlassen sich typischerweise auf vordefinierte Anweisungen und Werkzeuge für Speicheraktualisierungen. Sprachmodelle können jedoch oft nicht bestimmen, welche Informationen gespeichert werden sollen, wie sie strukturiert werden sollen und wann sie aktualisiert werden sollen, insbesondere wenn die Speichersysteme komplexer werden. Dies führt zu suboptimaler Speicherkonstruktion und Informationsverlust. Daher schlagen wir Mem-alpha vor, ein Reinforcement-Learning-Framework, das Agenten trainiert, komplexe Speichersysteme effektiv durch Interaktion und Feedback zu verwalten. Wir erstellen außerdem einen spezialisierten Trainingsdatensatz, der diverse mehrstufige Interaktionsmuster umfasst, die mit umfassenden Evaluationsfragen gepaart sind, die darauf abzielen, effektives Speichermanagement zu vermitteln. Während des Trainings verarbeiten Agenten sequenzielle Informationsblöcke, lernen relevante Inhalte zu extrahieren und zu speichern und aktualisieren dann das Speichersystem. Das Belohnungssignal leitet sich aus der Genauigkeit der nachgelagerten Frage-Antwort-Aufgaben über den gesamten Interaktionsverlauf ab und optimiert direkt die Speicherkonstruktion. Um die Effektivität unseres Trainingsframeworks zu veranschaulichen, entwerfen wir eine Speicherarchitektur, die Kern-, episodische und semantische Komponenten umfasst und mit mehreren Werkzeugen für Speicheroperationen ausgestattet ist. Empirische Auswertungen zeigen, dass Mem-alpha signifikante Verbesserungen gegenüber bestehenden speichererweiterten Agenten-Baselines erzielt. Obwohl die Agenten ausschließlich an Instanzen mit einer maximalen Länge von 30.000 Token trainiert wurden, zeigen sie eine bemerkenswerte Generalisierungsfähigkeit für Sequenzen, die 400.000 Token überschreiten – mehr als das 13-fache der Trainingslänge – was die Robustheit von Mem-alpha unterstreicht.
Moderne Rekurrente Neuronale Netze haben sich aufgrund ihrer linearen Zeitkomplexität zu einer wettbewerbsfähigen Architektur für die 3D-Rekonstruktion entwickelt. Ihre Leistung verschlechtert sich jedoch erheblich, wenn sie über die Trainingskontextlänge hinaus angewendet werden, was eine begrenzte Längengeneralisierung offenbart. In dieser Arbeit betrachten wir die Grundlagenmodelle der 3D-Rekonstruktion aus der Perspektive des Test-Time Trainings und formulieren ihre Designs als ein Online-Lernproblem. Aufbauend auf dieser Perspektive nutzen wir die Ausrichtungskonfidenz zwischen dem Speicherzustand und eingehenden Beobachtungen, um eine geschlossene Lernrate für Speicheraktualisierungen abzuleiten, um zwischen der Beibehaltung historischer Informationen und der Anpassung an neue Beobachtungen abzuwägen. Diese trainingsfreie Intervention, genannt TTT3R, verbessert die Längengeneralisierung erheblich und erreicht eine 2-fache Verbesserung in der globalen Pose-Schätzung gegenüber den Baselines, während sie mit nur 6 GB GPU-Speicher Tausende von Bildern bei 20 FPS verarbeitet. Code verfügbar unter https://rover-xingyu.github.io/TTT3R.
Audio-visuelle Sprachseparation (AVSS)-Methoden nutzen visuelle Hinweise, um Zielsprache zu extrahieren, und haben eine hohe Separationsqualität in lauten akustischen Umgebungen demonstriert. Diese Methoden beinhalten jedoch in der Regel eine große Anzahl von Parametern und erfordern hohe Rechenkosten, was in vielen Anwendungen, in denen die Sprachseparation lediglich als Vorverarbeitungsschritt für weitere Sprachverarbeitung dient, inakzeptabel ist. Um dieses Problem zu lösen, schlagen wir eine effiziente AVSS-Methode namens Dolphin vor. Für die Extraktion visueller Merkmale entwickeln wir DP-LipCoder, einen Dual-Path-Leichtgewicht-Video-Encoder, der Lippenbewegungen in diskrete, audio-ausgerichtete semantische Tokens umwandelt. Für die Audioseparation konstruieren wir einen Leichtgewicht-Encoder-Decoder-Separator, in dem jede Schicht einen Global-Local-Attention (GLA)-Block enthält, um mehrskalige Abhängigkeiten effizient zu erfassen. Experimente auf drei Benchmark-Datensätzen zeigten, dass Dolphin nicht nur das derzeitige State-of-the-Art (SOTA)-Modell in der Separationsqualität übertraf, sondern auch bemerkenswerte Verbesserungen in der Effizienz erzielte: über 50 % weniger Parameter, eine Reduzierung der MACs um mehr als das 2,4-fache und eine über 6-fach schnellere GPU-Inferenzgeschwindigkeit. Diese Ergebnisse deuten darauf hin, dass Dolphin eine praktische und einsatzfähige Lösung für hochleistungsfähige AVSS in realen Szenarien bietet. Unser Code und unsere Demo-Seite sind öffentlich unter http://cslikai.cn/Dolphin/ verfügbar.
Reinforcement Learning (RL) hat bemerkenswerte Erfolge bei der Verbesserung der Denkfähigkeiten von Large Language Models (LLMs) gezeigt. Process-Supervised RL (PSRL) hat sich als effektiveres Paradigma im Vergleich zu ergebnisbasiertem RL erwiesen. Allerdings leiden bestehende PSRL-Ansätze unter begrenzter Explorationseffizienz, sowohl in Bezug auf Verzweigungspositionen als auch auf das Sampling. In diesem Artikel stellen wir ein neuartiges PSRL-Framework (AttnRL) vor, das eine effiziente Exploration für Denkmodelle ermöglicht. Motiviert durch vorläufige Beobachtungen, dass Schritte mit hohen Aufmerksamkeitswerten mit Denkverhalten korrelieren, schlagen wir vor, von Positionen mit hohen Werten zu verzweigen. Darüber hinaus entwickeln wir eine adaptive Sampling-Strategie, die die Schwierigkeit des Problems und die historische Batch-Größe berücksichtigt, um sicherzustellen, dass der gesamte Trainingsbatch nicht-null Vorteilswerte beibehält. Um die Sampling-Effizienz weiter zu verbessern, entwerfen wir eine One-Step Off-Policy-Trainingspipeline für PSRL. Umfangreiche Experimente auf mehreren anspruchsvollen mathematischen Denkbenchmarks zeigen, dass unsere Methode in Bezug auf Leistung sowie Sampling- und Trainingseffizienz durchweg frühere Ansätze übertrifft.
Online-Alignment (z. B. GRPO) ist im Allgemeinen leistungsfähiger als Offline-Alignment (z. B. DPO) – aber warum? Unter Bezugnahme auf die Prospect-Theorie aus der Verhaltensökonomie schlagen wir eine menschenzentrierte Erklärung vor. Wir beweisen, dass das Online-On-Policy-Sampling die vom Menschen wahrgenommene Verteilung dessen, was das Modell produzieren kann, besser annähert, und dass das Clipping im Stil von PPO/GRPO – ursprünglich eingeführt, um das Training zu stabilisieren – eine Wahrnehmungsverzerrung in Bezug darauf, wie Menschen Wahrscheinlichkeiten wahrnehmen, widerspiegelt. In diesem Sinne fungieren PPO/GRPO bereits als Wahrnehmungsverluste. Unsere Theorie legt weiterhin nahe, dass die Online/Offline-Dichotomie an sich nebensächlich für die Maximierung des menschlichen Nutzens ist, da wir denselben Effekt erzielen können, indem wir selektiv auf Daten trainieren, die die menschliche Wahrnehmung nachahmen, anstatt uns auf Online-On-Policy-Daten zu beschränken. Dies würde es uns ermöglichen, schneller, kostengünstiger und flexibler nachzutrainieren, ohne dabei die Leistung zu beeinträchtigen. Zu diesem Zweck schlagen wir ein Entwurfsmuster vor, das Wahrnehmungsverzerrungen von Wahrscheinlichkeiten explizit in Zielvorgaben wie DPO/KTO/GRPO integriert und dadurch menschenzentrierte Varianten davon schafft. Überraschenderweise stellen wir fest, dass diese menschenzentrierten Varianten, selbst wenn sie mit Offline-Off-Policy-Daten trainiert werden, die Leistung ihrer Online-Pendants sowohl bei überprüfbaren als auch bei nicht überprüfbaren Aufgaben erreichen können.
Die Entwicklung von Large Language Model-Agenten, die ihre Fähigkeiten durch die Interaktion mit externen Tools erweitern, stellt eine neue Grenze in der KI-Forschung und -Anwendung dar. In diesem Artikel stellen wir InfoAgent vor, einen tiefgehenden Forschungsagenten, der durch eine innovative Daten-Synthese-Pipeline und orchestrierte Web-Such-Tools angetrieben wird. Um herausfordernde, schwer zu findende Abfragen zu konstruieren, erstellen wir Entitätsbäume und wenden Subtree-Sampling mit Entitäts-Fuzzifizierung an, um die Schwierigkeit der Fragen systematisch zu erhöhen. Im Gegensatz zu früheren Arbeiten, die stark auf kommerzielle Such-Tools angewiesen sind, entwickeln wir eine dedizierte, selbst gehostete Suchinfrastruktur, die die Transparenz der Agentenumgebungen verbessert und die Weiterentwicklung der Agentenkapazitäten erleichtert. Wir bewerten die Effektivität unserer Datenpipeline, indem wir die durchschnittliche Anzahl der Tool-Aufrufe messen, die erforderlich sind, um eine Frage korrekt zu beantworten, und zeigen auch, dass unser Agent mit unseren Tools eine bessere Leistung erzielt. Unser InfoAgent wird aus Qwen3-14B nachtrainiert, wobei ein zweistufiges Rezept verwendet wird: Kaltstart-Supervised-Finetuning, um langfristige Suchverhalten zu vermitteln, gefolgt von Reinforcement Learning, das den reasoning-gesteuerten Tool-Einsatz signifikant verbessert. Mit unseren Methoden erreicht InfoAgent eine Genauigkeit von 15,3 % auf BrowseComp, 29,2 % auf BrowseComp-ZH und 40,4 % auf Xbench-DS und übertrifft damit frühere Open-Source-Forschungsagenten wie WebSailor-72B und DeepDive-32B.
Die Sicherheit von Large Language Models (LLMs) ist eine der dringendsten Herausforderungen für deren breitflächigen Einsatz. Während sich die meisten Studien und globalen Diskussionen auf allgemeine Risiken konzentrieren, wie etwa die Unterstützung von Nutzern bei der Selbst- oder Fremdgefährdung durch Modelle, stehen Unternehmen vor einer grundlegenderen Frage: Sind LLM-basierte Agenten für ihren vorgesehenen Anwendungsfall sicher? Um dies zu adressieren, führen wir den Begriff der operationellen Sicherheit ein, definiert als die Fähigkeit eines LLMs, Nutzeranfragen angemessen anzunehmen oder abzulehnen, wenn es mit einem spezifischen Zweck beauftragt ist. Wir schlagen zudem OffTopicEval vor, eine Evaluationssuite und ein Benchmark zur Messung der operationellen Sicherheit sowohl im Allgemeinen als auch innerhalb spezifischer agentenbasierter Anwendungsfälle. Unsere Auswertungen von sechs Modellfamilien mit 20 Open-Weight-LLMs zeigen, dass die Leistung zwar zwischen den Modellen variiert, alle jedoch stark operationell unsicher bleiben. Selbst die stärksten Modelle – Qwen-3 (235B) mit 77,77 % und Mistral (24B) mit 79,96 % – liegen weit von zuverlässiger operationeller Sicherheit entfernt, während GPT-Modelle im Bereich von 62–73 % stagnieren, Phi nur mittlere Werte erreicht (48–70 %) und Gemma sowie Llama-3 auf 39,53 % bzw. 23,84 % abfallen. Obwohl operationelle Sicherheit ein Kernproblem der Modellausrichtung ist, schlagen wir zur Unterdrückung dieser Fehler prompt-basierte Steuerungsmethoden vor: Query Grounding (Q-Ground) und System-Prompt Grounding (P-Ground), die die OOD-Ablehnung erheblich verbessern. Q-Ground liefert konsistente Verbesserungen von bis zu 23 %, während P-Ground noch größere Steigerungen bewirkt und Llama-3.3 (70B) um 41 % sowie Qwen-3 (30B) um 27 % anhebt. Diese Ergebnisse unterstreichen sowohl den dringenden Bedarf an Interventionen zur operationellen Sicherheit als auch das Potenzial prompt-basierter Steuerung als ersten Schritt hin zu zuverlässigeren LLM-basierten Agenten.
Aktuelle Methoden des Reinforcement Learning (RL) haben die Planungsfähigkeiten von Large Language Models (LLMs) erheblich verbessert, doch die theoretische Grundlage für ihre Wirksamkeit bleibt unklar. In dieser Arbeit untersuchen wir die Vorteile und Grenzen von RL anhand einer handhabbaren, graphenbasierten Abstraktion, wobei wir uns auf Policy Gradient (PG) und Q-Learning-Methoden konzentrieren. Unsere theoretischen Analysen zeigen, dass Supervised Fine-Tuning (SFT) spuriöse Lösungen auf Basis von Kookkurrenzen einführen kann, während RL korrekte Planung hauptsächlich durch Exploration erreicht, was die Rolle der Exploration für eine bessere Generalisierung unterstreicht. Allerdings zeigen wir auch, dass PG unter einem Diversitätskollaps leidet, bei dem die Ausgabediversität während des Trainings abnimmt und selbst nach Erreichen perfekter Genauigkeit bestehen bleibt. Im Gegensatz dazu bietet Q-Learning zwei entscheidende Vorteile: Off-Policy-Lernen und die Bewahrung der Diversität bei Konvergenz. Wir demonstrieren weiterhin, dass ein sorgfältiges Reward-Design notwendig ist, um Reward-Hacking in Q-Learning zu verhindern. Schließlich bestätigen wir durch die Anwendung unseres Frameworks auf den realen Planungsbenchmark Blocksworld, dass diese Verhaltensweisen in der Praxis auftreten.
Die Verbreitung offener großer Sprachmodelle (LLMs) fördert ein lebendiges Ökosystem aus Forschung und Innovation im Bereich der künstlichen Intelligenz (KI). Allerdings wurden die Methoden der Zusammenarbeit, die zur Entwicklung offener LLMs sowohl vor als auch nach ihrer Veröffentlichung verwendet werden, bisher noch nicht umfassend untersucht. Dies schränkt unser Verständnis davon ein, wie offene LLM-Projekte initiiert, organisiert und gesteuert werden sowie welche Möglichkeiten bestehen, dieses Ökosystem weiter zu stärken. Wir schließen diese Lücke durch eine explorative Analyse der offenen Zusammenarbeit während des gesamten Entwicklungs- und Wiederverwendungszyklus offener LLMs, basierend auf halbstrukturierten Interviews mit den Entwicklern von 14 offenen LLMs aus Graswurzelprojekten, Forschungseinrichtungen, Startups und Großunternehmen in Nordamerika, Europa, Afrika und Asien. Wir leisten drei zentrale Beiträge für Forschung und Praxis. Erstens erstreckt sich die Zusammenarbeit in offenen LLM-Projekten weit über die LLMs selbst hinaus und umfasst Datensätze, Benchmarks, Open-Source-Frameworks, Ranglisten, Wissensaustausch- und Diskussionsforen sowie Rechenpartnerschaften, um nur einige zu nennen. Zweitens haben die Entwickler offener LLMs eine Vielzahl sozialer, wirtschaftlicher und technologischer Motivationen, von der Demokratisierung des KI-Zugangs und der Förderung der offenen Wissenschaft bis hin zum Aufbau regionaler Ökosysteme und der Erweiterung der Sprachrepräsentation. Drittens zeigen die untersuchten offenen LLM-Projekte fünf unterschiedliche Organisationsmodelle, die von Einzelunternehmensprojekten bis hin zu von gemeinnützigen Organisationen unterstützten Graswurzelprojekten reichen und sich in ihrer Zentralisierung der Kontrolle und den Strategien zur Einbindung der Gemeinschaft während des gesamten LLM-Lebenszyklus unterscheiden. Wir schließen mit praktischen Empfehlungen für Stakeholder, die die globale Gemeinschaft bei der Schaffung einer offeneren Zukunft für die KI unterstützen möchten.
Ist das grundlegende visuelle Verständnis in modernen visuell-sprachlichen Modellen (VLMs) wirklich gelöst? Wir präsentieren VisualOverload, einen leicht abweichenden Benchmark für visuelles Frage-Antworten (VQA), der 2.720 Frage-Antwort-Paare mit privat gehaltenen Ground-Truth-Antworten umfasst. Im Gegensatz zu früheren VQA-Datensätzen, die sich typischerweise auf ein nahezu globales Bildverständnis konzentrieren, fordert VisualOverload Modelle dazu heraus, einfache, wissensfreie visuelle Aufgaben in dicht bevölkerten (oder überladenen) Szenen zu bewältigen. Unser Datensatz besteht aus hochauflösenden Scans von gemeinfreien Gemälden, die mit zahlreichen Figuren, Handlungen und sich entfaltenden Nebenhandlungen vor detaillierten Hintergründen bevölkert sind. Wir haben diese Bilder manuell mit Fragen aus sechs Aufgabenkategorien annotiert, um ein umfassendes Verständnis der Szene zu testen. Wir vermuten, dass aktuelle Benchmarks die Leistung von VLMs überschätzen und dass die Kodierung und das Schlussfolgern über Details nach wie vor eine Herausforderung für sie darstellen, insbesondere wenn sie mit dicht bevölkerten Szenen konfrontiert werden. Tatsächlich beobachten wir, dass selbst das beste Modell (o3) von 37 getesteten Modellen nur eine Genauigkeit von 19,6 % auf unserem schwierigsten Test-Split und insgesamt 69,5 % Genauigkeit auf allen Fragen erreicht. Neben einer umfassenden Evaluation ergänzen wir unseren Benchmark mit einer Fehleranalyse, die mehrere Fehlermodi aufdeckt, darunter mangelnde Zählfähigkeiten, Versagen bei der optischen Zeichenerkennung (OCR) und auffällige logische Inkonsistenzen bei komplexen Aufgaben. Insgesamt deckt VisualOverload eine kritische Lücke in aktuellen Vision-Modellen auf und bietet der Community eine wichtige Ressource, um bessere Modelle zu entwickeln. Benchmark: http://paulgavrikov.github.io/visualoverload
Wir präsentieren Voice Evaluation of Reasoning Ability (VERA), einen Benchmark zur Bewertung der Fähigkeit zur logischen Schlussfolgerung in sprachgesteuerten Systemen unter Echtzeit-Konversationsbedingungen. VERA umfasst 2.931 sprachorientierte Episoden, die aus etablierten Text-Benchmarks abgeleitet und in fünf Kategorien (Mathematik, Web, Wissenschaft, Langkontext, Faktenwissen) organisiert sind. Jeder Eintrag wurde für die Sprachinteraktion angepasst, wobei die Schwierigkeit der logischen Schlussfolgerung erhalten bleibt. VERA ermöglicht einen direkten Text-Sprache-Vergleich innerhalb von Modellfamilien und unterstützt die Analyse, wie architektonische Entscheidungen die Zuverlässigkeit beeinflussen. Wir bewerten 12 zeitgenössische Sprachsysteme neben starken Text-Baselines und beobachten große, konsistente Modalitätsunterschiede: Bei Wettbewerbsmathematik erreicht ein führendes Textmodell eine Genauigkeit von 74,8 %, während das entsprechende Sprachmodell nur 6,1 % erreicht; makroskopisch über alle Kategorien hinweg erzielen die besten Textmodelle 54,0 % im Vergleich zu 11,3 % für Sprachmodelle. Latenz-Genauigkeits-Analysen zeigen ein Niedriglatenz-Plateau, auf dem schnelle Sprachsysteme bei etwa 10 % Genauigkeit liegen, während die Annäherung an die Textleistung den Verzicht auf Echtzeitinteraktion erfordert. Diagnostische Experimente deuten darauf hin, dass gängige Gegenmaßnahmen unzureichend sind. Eine Verlängerung der „Denkzeit“ bringt nur geringfügige Verbesserungen; eine entkoppelte Kaskade, die das logische Schlussfolgern von der Sprachausgabe trennt, verbessert die Genauigkeit, bleibt jedoch deutlich hinter der Textleistung zurück und führt zu charakteristischen Fehlern in Bezug auf Verankerung und Konsistenz. Fehleranalysen zeigen zudem unterschiedliche Fehlermuster bei nativen Streaming-, End-to-End- und Kaskaden-Designs. VERA bietet eine reproduzierbare Testumgebung und gezielte Diagnostik für Architekturen, die Denken und Sprechen entkoppeln, und bietet einen prinzipiellen Ansatz, um Fortschritte hin zu Echtzeit-Sprachassistenten zu messen, die sowohl flüssig als auch zuverlässig schlussfolgern.
Die Entwicklung autonomer Agenten, die effektiv mit grafischen Benutzeroberflächen (GUIs) interagieren, bleibt eine herausfordernde offene Problemstellung, insbesondere für kleine On-Device-Modelle. In diesem Artikel präsentieren wir Ferret-UI Lite, einen kompakten, end-to-end GUI-Agenten, der auf verschiedenen Plattformen wie Mobilgeräten, Web und Desktop arbeitet. Durch die Nutzung von Techniken, die für die Entwicklung kleiner Modelle optimiert sind, bauen wir unseren 3B Ferret-UI Lite-Agenten durch die Zusammenstellung einer vielfältigen GUI-Datenmischung aus realen und synthetischen Quellen, die Stärkung der Inferenzleistung durch Chain-of-Thought-Reasoning und visuelle Werkzeugnutzung sowie durch Reinforcement Learning mit speziell entwickelten Belohnungen. Ferret-UI Lite erzielt eine wettbewerbsfähige Leistung im Vergleich zu anderen GUI-Agenten im kleinen Maßstab. Bei der GUI-Verankerung erreicht Ferret-UI Lite Werte von 91,6 %, 53,3 % und 61,2 % in den Benchmarks ScreenSpot-V2, ScreenSpot-Pro und OSWorld-G. Bei der GUI-Navigation erzielt Ferret-UI Lite Erfolgsquoten von 28,0 % auf AndroidWorld und 19,8 % auf OSWorld. Wir teilen unsere Methoden und die Erkenntnisse, die wir aus der Entwicklung kompakter On-Device-GUI-Agenten gewonnen haben.
Anbieter von großen Sprachmodellen (LLMs) werben mit hohen Zahlen für die maximale Kontextfenstergröße. Um die praktische Anwendbarkeit von Kontextfenstern zu testen, haben wir 1) ein Konzept des maximalen effektiven Kontextfensters definiert, 2) eine Testmethode zur Bewertung der Effektivität eines Kontextfensters über verschiedene Größen und Problemtypen formuliert und 3) eine standardisierte Methode entwickelt, um die Modellleistung bei zunehmend größeren Kontextfenstergrößen zu vergleichen und den Punkt des Versagens zu ermitteln. Wir haben Hunderttausende von Datenpunkten über mehrere Modelle hinweg gesammelt und signifikante Unterschiede zwischen der angegebenen maximalen Kontextfenstergröße (MCW) und der maximalen effektiven Kontextfenstergröße (MECW) festgestellt. Unsere Ergebnisse zeigen, dass die MECW nicht nur erheblich von der MCW abweicht, sondern sich auch je nach Problemtyp verschiebt. Einige der besten Modelle in unserer Testgruppe versagten bereits bei nur 100 Tokens im Kontext; die meisten zeigten eine deutliche Verschlechterung der Genauigkeit bei 1000 Tokens im Kontext. Alle Modelle blieben weit hinter ihrer maximalen Kontextfenstergröße zurück, teilweise um bis zu 99 Prozent. Unsere Daten zeigen, dass sich das maximale effektive Kontextfenster je nach Art des gestellten Problems verschiebt, und bieten klare und umsetzbare Erkenntnisse, wie die Modellgenauigkeit verbessert und die Rate von Modellhalluzinationen verringert werden kann.
Große Sprachmodelle (LLMs) verwenden Mehrfachinteraktionen als grundlegendes Paradigma zur Bewältigung komplexer Aufgaben. Ihre Leistung verschlechtert sich jedoch häufig bei längeren Interaktionen, da sie typischerweise auf statischen, einstufigen Daten trainiert werden, was ihre Fähigkeit zur Anpassung an Echtzeit-Feedback der Nutzer einschränkt. Um diese Einschränkung zu überwinden, schlagen wir zunächst ein neues Paradigma vor: Test-Time Policy Adaptation for Multi-Turn Interactions (T2PAM), das Nutzerfeedback aus der laufenden Interaktion als Belohnungssignal nutzt, um eine latente optimale Politik abzuschätzen, die den Nutzerpräferenzen entspricht. Anschließend wird eine kleine Teilmenge der Parameter aktualisiert, um das Modell in Richtung dieser Politik zu steuern, wodurch letztendlich eine effiziente Selbstkorrektur während der Konversation ermöglicht wird. Daraufhin führen wir Optimum-Referenced One-Step Adaptation (ROSA) ein, einen leichtgewichtigen Algorithmus, der T2PAM operationalisiert. ROSA führt die Modellparameter in einem einzigen, effizienten Aktualisierungsschritt in Richtung einer theoretisch optimalen Politik, vermeidet kostspielige iterative gradientenbasierte Optimierung und minimiert den Rechenaufwand. Wir liefern eine rigorose theoretische Analyse, die garantiert, dass die Politik von ROSA mit zunehmender Anzahl von Interaktionen gegen die Nutzerpräferenz konvergiert. Umfangreiche Experimente auf anspruchsvollen Benchmarks zeigen, dass ROSA signifikante Verbesserungen sowohl in der Aufgabenwirksamkeit als auch in der Effizienz erzielt.
jina-reranker-v3 ist ein multilingualer Dokument-Reranker mit 0,6 Milliarden Parametern, der eine neuartige „Last but not Late“-Interaktion einführt. Im Gegensatz zu Late-Interaction-Modellen wie ColBERT, die eine separate Kodierung gefolgt von einer Multi-Vektor-Abgleichung durchführen, führt unser Ansatz kausale Selbstaufmerksamkeit zwischen Anfrage und Dokumenten innerhalb desselben Kontextfensters durch, wodurch umfangreiche dokumentübergreifende Interaktionen ermöglicht werden, bevor kontextuelle Einbettungen aus dem letzten Token jedes Dokuments extrahiert werden. Diese kompakte Architektur erreicht state-of-the-art BEIR-Leistungen mit 61,94 nDCG@10 und ist dabei zehnmal kleiner als generative Listwise-Reranker.
Große Sprachmodelle zeichnen sich durch Verstärkungslernen (Reinforcement Learning, RL) aus, aber die vollständige Ausschöpfung dieses Potenzials erfordert eine Zwischentrainingsphase. Eine effektive Zwischentrainingsphase sollte eine kompakte Menge nützlicher Aktionen identifizieren und eine schnelle Auswahl unter ihnen durch Online-RL ermöglichen. Wir formalisieren diese Intuition, indem wir das erste theoretische Ergebnis darüber präsentieren, wie das Zwischentraining das Post-Training beeinflusst: Es charakterisiert einen Aktionsunterraum, der sowohl den Wertapproximationsfehler durch Reduzierung als auch den RL-Fehler während der nachfolgenden Planung minimiert. Unsere Analyse zeigt zwei Schlüsselfaktoren für die Effektivität des Zwischentrainings: die Effizienz der Reduzierung, die das Prior der initialen RL-Politik prägt, und deren Einfluss auf die RL-Konvergenz, die bestimmt, inwieweit diese Politik durch Online-Interaktionen verbessert werden kann. Diese Ergebnisse legen nahe, dass das Zwischentraining am effektivsten ist, wenn der Entscheidungsraum kompakt und der effektive Horizont kurz ist, was die Bedeutung des Arbeitens im Raum der Aktionsabstraktionen anstelle von primitiven Aktionen unterstreicht. Aufbauend auf diesen Erkenntnissen schlagen wir Reasoning as Action Abstractions (RA3) vor, einen skalierbaren Zwischentrainingsalgorithmus. Konkret leiten wir eine sequenzielle variationsuntere Schranke ab und optimieren sie durch iteratives Entdecken zeitlich konsistenter latenter Strukturen mittels RL, gefolgt von einem Feinabgleich auf den gebootstrappten Daten. Experimente zu Codegenerierungsaufgaben demonstrieren die Effektivität unseres Ansatzes. Über mehrere Basismodelle hinweg verbessert RA3 die durchschnittliche Leistung auf HumanEval und MBPP um 8 bzw. 4 Punkte im Vergleich zum Basismodell und der Next-Token-Vorhersage-Baseline. Darüber hinaus erreicht RA3 eine schnellere Konvergenz und eine höhere asymptotische Leistung in RLVR auf HumanEval+, MBPP+, LiveCodeBench und Codeforces.
KV-Cache-Kompression verspricht einen erhöhten Durchsatz und eine verbesserte Effizienz bei vernachlässigbarem Leistungsverlust. Während die Steigerungen im Durchsatz unbestreitbar sind und aktuelle Literatur tatsächlich eine minimale Verschlechterung bei bestimmten Benchmarks gezeigt hat, wurden die Auswirkungen der Kompression in realistischen Szenarien wie Multi-Instruktions-Prompting bisher unzureichend untersucht. In diesem Papier identifizieren wir mehrere Fallstricke, die Praktiker bei der Implementierung von KV-Cache-komprimierten LLMs beachten sollten. Insbesondere zeigen wir, dass bestimmte Anweisungen durch die Kompression deutlich schneller an Qualität verlieren, was dazu führt, dass sie vom LLM vollständig ignoriert werden. Als praktisches Beispiel hierfür beleuchten wir das Phänomen des System-Prompt-Leakings als Fallstudie und zeigen empirisch die Auswirkungen der Kompression auf Leaking und die allgemeine Befolgung von Anweisungen. Wir identifizieren mehrere Faktoren, die eine Rolle beim Prompt-Leaking spielen: die Kompressionsmethode, die Reihenfolge der Anweisungen und die KV-Verdrängungsverzerrung. Anschließend schlagen wir einfache Änderungen an den KV-Cache-Verdrängungsstrategien vor, die die Auswirkungen dieser Faktoren reduzieren und die Gesamtleistung bei Multi-Instruktions-Aufgaben verbessern können.
Aktuelle Suchtechniken beschränken sich auf Standard-RAG-Anwendungen für Abfragen und Dokumente. In diesem Artikel schlagen wir eine neuartige Technik vor, um den Code und den Index für die Vorhersage benötigter APIs zu erweitern, wodurch eine hochwertige, end-to-end Code-Generierung für Auto-Vervollständigung und agentenbasierte KI-Anwendungen direkt ermöglicht wird. Wir adressieren das Problem von API-Leaks in aktuellen Code-zu-Code-Benchmark-Datensätzen durch die Einführung eines neuen Datensatzes, der aus realen ServiceNow Script Includes erstellt wurde und die Herausforderung unklarer API-Nutzungsabsichten im Code erfasst. Unsere Evaluationsmetriken zeigen, dass diese Methode eine Top-40-Retrieval-Genauigkeit von 87,86 % erreicht, wodurch der kritische Kontext mit APIs bereitgestellt wird, der für eine erfolgreiche nachgelagerte Code-Generierung erforderlich ist. Um Echtzeitvorhersagen zu ermöglichen, entwickeln wir eine umfassende Post-Training-Pipeline, die einen kompakten 0,6B-Reranker durch synthetische Datensatzgenerierung, überwachtes Fein-Tuning und Reinforcement Learning optimiert. Dieser Ansatz ermöglicht es unserem kompakten Reranker, ein viel größeres 8B-Modell zu übertreffen, während die Latenz um das 2,5-fache reduziert wird, wodurch die Nuancen unternehmensspezifischer Codes effektiv adressiert werden, ohne den Rechenaufwand größerer Modelle in Kauf nehmen zu müssen.
Große Sprachmodelle (LLMs) werden zunehmend als neuronale Wissensbasen untersucht, um wissensintensive Anwendungen wie Fragebeantwortung und Faktenprüfung zu unterstützen. Die strukturelle Organisation ihres Wissens bleibt jedoch weitgehend unerforscht. Inspiriert von Erkenntnissen der kognitiven Neurowissenschaft, wie semantischem Clustering und Priming, bei denen die Kenntnis einer Tatsache die Wahrscheinlichkeit erhöht, verwandte Fakten abzurufen, untersuchen wir ein analoges Wissenshomophilie-Muster in LLMs. Zu diesem Zweck bilden wir das Wissen von LLMs in eine Graphendarstellung ab, indem wir die Wissensüberprüfung sowohl auf der Ebene von Tripletts als auch von Entitäten durchführen. Anschließend analysieren wir die Wissensbeziehung zwischen einer Entität und ihren Nachbarn und stellen fest, dass LLMs tendenziell ein ähnliches Wissensniveau über Entitäten aufweisen, die im Graphen näher beieinander liegen. Motiviert durch dieses Homophilie-Prinzip schlagen wir ein Graph Neural Network (GNN)-Regressionsmodell vor, um wissensbasierte Bewertungen auf Entitätsebene für Tripletts zu schätzen, indem wir deren Nachbarschaftsbewertungen nutzen. Die vorhergesagten Wissensbewertungen ermöglichen es uns, die Überprüfung von weniger bekannten Tripletts zu priorisieren und so die Wissensabdeckung bei gleichem Labeling-Budget zu maximieren. Dies verbessert nicht nur die Effizienz des aktiven Labelings zur Feinabstimmung, um Wissen in LLMs zu injizieren, sondern verbessert auch die Mehrschritt-Pfadabfrage bei reasoning-intensiver Fragebeantwortung.
Aktuelle Online-Reinforcement-Learning (RL)-Algorithmen wie GRPO weisen eine zentrale Einschränkung im Bereich des LLM-Reasonings auf: Sie können nicht aus Problemen lernen, die für das Modell „unlösbar“ sind. Mit anderen Worten können sie die Leistung nur bei Problemen verbessern, bei denen das Modell in der Lage ist, die richtige Antwort zu explorieren. Folglich bleibt die „Obergrenze“ des Modells nach dem RL-Training unverändert, obwohl die Wahrscheinlichkeit, einfachere, lösbare Probleme zu bewältigen, steigen kann. Diese schwierigen Beispiele können nicht zum Training beitragen, da keine Rollouts Belohnungen liefern und somit keine Gradienten erzeugt werden. Um das Lernen aus diesen schwierigen Beispielen zu ermöglichen, schlagen wir NuRL vor, eine „Nudging“-Methode, die darauf abzielt, die Obergrenze des LLM-Reasonings mithilfe selbstgenerierter Hinweise zu erweitern, d. h. abstrakter Hinweise, die dazu beitragen, die Problemkomplexität für das Modell zu reduzieren. Gegeben eine Frage und ihre korrekte Antwort, generiert das Modell eine Chain-of-Thought (CoT) und erstellt dann einen Hinweis, der das Kernwissen zur Lösung des Problems enthält. Während des Trainings generieren wir G Rollouts aus der Basispolitik und verwenden die Erfolgsrate, um zu entscheiden, ob der Hinweis injiziert werden soll. Bei schwierigen Beispielen mit einer Erfolgsrate von 0 % injizieren wir den Hinweis und generieren eine neue Charge von Trajektorien. Dies bringt zwei Vorteile mit sich: (1) Der Hinweis steigert die Erfolgsrate (von 0 % auf einen Wert größer null), wodurch Trainingssignale für zuvor unlösbare Beispiele eingeführt werden, und (2) die Hinweise werden selbst generiert, was eine Verteilungsschiefe vermeidet und keine externen Modelle erfordert. NuRL erzielt konsistente Verbesserungen über 6 Benchmarks und 3 Modelle hinweg, während es komplementär zur Skalierung zur Testzeit bleibt. Bemerkenswerterweise kann NuRL die Obergrenze des Modells erhöhen, während GRPO die pass@1024-Rate im Vergleich zum Basismodell unverändert lässt. Darüber hinaus präsentieren wir eine systematische Studie darüber, was einen effektiven Hinweis ausmacht und wann Hinweise am nützlichsten sind. Interessanterweise sind die besten Hinweise abstrakt und hochrangig und am vorteilhaftesten, wenn sie notwendigerweise und nach der Konvergenz von GRPO angewendet werden.
Diffusionsbasierte große Sprachmodelle (dLLMs) leiden trotz ihrer vielversprechenden Leistung weiterhin unter einer geringeren Inferenzeffizienz. Dies liegt daran, dass dLLMs auf bidirektionale Aufmerksamkeit angewiesen sind und nicht direkt von dem standardmäßigen Schlüssel-Wert-Cache (KV-Cache) profitieren können, wie es bei autoregressiven Modellen (ARMs) der Fall ist. Um dieses Problem zu lösen, führen wir den Dual Adaptive Cache (d^2Cache) ein, ein trainingsfreies, approximatives KV-Cache-Framework zur Beschleunigung der Inferenz von dLLMs. d^2Cache zeichnet sich durch eine zweistufige, fein abgestimmte Auswahlstrategie aus, um Token zu identifizieren und ihre KV-Zustände in jedem Dekodierungsschritt adaptiv zu aktualisieren, während die KV-Zustände der verbleibenden Token für die Wiederverwendung zwischengespeichert werden. Darüber hinaus bietet d^2Cache auf natürliche Weise eine zuverlässigere Dekodierungsalternative, die eine quasi links-nach-rechts-Generierung ermöglicht und eine vorzeitige Überzuversicht in Token am Ende der Sequenz mildert. Umfangreiche experimentelle Ergebnisse an zwei repräsentativen dLLMs (d.h. LLaDA und Dream) zeigen, dass d^2Cache nicht nur erhebliche Beschleunigungen in der Inferenz erreicht, sondern auch konsistente Verbesserungen in der Generierungsqualität erzielt. Der Code ist unter https://github.com/Kamichanw/d2Cache verfügbar.
Aktuelle empirische Studien haben die Idee untersucht, ein Modell während der Testphase für eine gegebene Aufgabe weiter zu trainieren, bekannt als Test-Time Training (TTT), und haben festgestellt, dass dies zu erheblichen Leistungsverbesserungen führt. Es gibt jedoch nur begrenztes Verständnis darüber, warum und wann TTT effektiv ist. Frühere Erklärungen konzentrierten sich hauptsächlich auf die Beobachtung, dass TTT bei der Anpassung an Out-of-Distribution-Daten oder bei der Verwendung privilegierter Daten hilfreich sein kann. Die zunehmende Skalierung von Foundation-Modellen, bei denen die meisten Testdaten In-Distribution sind, stellt diese Erklärungen jedoch in Frage. Stattdessen postulieren wir, dass Foundation-Modelle global unterparametrisiert bleiben, wobei TTT einen Mechanismus zur Spezialisierung nach der Generalisierung bietet, der die Kapazität auf für die Testaufgabe relevante Konzepte konzentriert. Insbesondere unter der Hypothese der linearen Repräsentation schlagen wir ein Modell vor, in dem TTT einen deutlich geringeren In-Distribution-Testfehler als globales Training erreicht. Wir validieren die Schlüsselannahmen unseres Modells empirisch, indem wir ein sparsames Autoencoder-Modell auf ImageNet trainieren und zeigen, dass semantisch verwandte Datenpunkte nur durch wenige gemeinsame Konzepte erklärt werden. Schließlich führen wir Skalierungsstudien über Bild- und Sprachaufgaben durch, die die praktischen Implikationen unseres Modells bestätigen und die Bereiche identifizieren, in denen Spezialisierung am effektivsten ist.
Transformer-basierte Modelle haben die Zeitreihenvorhersage erheblich vorangetrieben, wobei patch-basierte Eingabestrategien Effizienz und verbesserte Langzeitmodellierung bieten. Bisherige Ansätze beruhen jedoch auf zeitlich unabhängiger Patch-Konstruktion, bei der willkürliche Startpositionen und feste Längen die zeitliche Kohärenz durch die Aufteilung natürlicher Übergänge über Grenzen hinweg beeinträchtigen. Diese naive Segmentierung stört oft kurzfristige Abhängigkeiten und schwächt das Repräsentationslernen. Als Antwort darauf schlagen wir EntroPE (Entropy-Guided Dynamic Patch Encoder) vor, ein neuartiges, zeitlich informiertes Framework, das Übergangspunkte dynamisch über bedingte Entropie erkennt und Patch-Grenzen dynamisch setzt. Dies bewahrt die zeitliche Struktur, während die rechnerischen Vorteile des Patchings erhalten bleiben. EntroPE besteht aus zwei Schlüsselmodulen: einem Entropie-basierten Dynamic Patcher (EDP), der informationstheoretische Kriterien anwendet, um natürliche zeitliche Verschiebungen zu lokalisieren und Patch-Grenzen zu bestimmen, und einem Adaptiven Patch Encoder (APE), der Pooling und Cross-Attention verwendet, um intra-Patch-Abhängigkeiten zu erfassen und feste latente Repräsentationen zu erzeugen. Diese Einbettungen werden dann von einem globalen Transformer verarbeitet, um inter-Patch-Dynamiken zu modellieren. Experimente über Langzeitvorhersage-Benchmarks zeigen, dass EntroPE sowohl die Genauigkeit als auch die Effizienz verbessert und damit die entropie-geführte dynamische Patch-Erstellung als vielversprechendes neues Paradigma für die Zeitreihenmodellierung etabliert. Der Code ist verfügbar unter: https://github.com/Sachithx/EntroPE.
Multimodale Large Language Models (MLLMs) benötigen hochauflösende visuelle Informationen, um fein abgestufte Wahrnehmungsaufgaben durchzuführen, doch die Verarbeitung gesamter hochauflösender Bilder ist rechenintensiv. Während neuere Methoden einen Region-of-Interest (RoI)-Mechanismus nutzen, um sich auf relevante Bereiche zu konzentrieren, stellen sie typischerweise eine schwierige Abwägung dar: Trainingsbasierte Ansätze sind auf groß angelegte annotierte Datensätze angewiesen, während trainingsfreie Methoden, die die interne Aufmerksamkeit des Modells nutzen, rechenineffizient und weniger genau sind und entweder mehrstufige Prefill-Phasen oder die langsame auto-regressive Decodierung erfordern. In diesem Artikel schlagen wir ein effizientes, annotierungsfreies Self-Distilled Region Proposal Network (SD-RPN) vor, das diesen Kompromiss auflöst. Das SD-RPN basiert auf einer Pipeline, die die verrauschten Aufmerksamkeitskarten aus den mittleren Schichten des MLLMs durch explizite Entrauschung und Auflösung von Mehrdeutigkeiten in hochwertige pseudo-RoI-Labels umwandelt. Wir verwenden diese Labels, um ein leichtgewichtiges Region Proposal Network (RPN) zu trainieren, das eine präzisere Lokalisierung erlernt. Dieses RPN ist ebenfalls hoch effizient und sagt den RoI in einem einzigen Vorwärtsdurchlauf unter Verwendung von Merkmalen aus den mittleren Schichten des MLLMs voraus, wodurch die RoI-Identifikation von der auto-regressiven Generierung entkoppelt und kostspielige mehrstufige Operationen vermieden werden. Um unseren Ansatz zu validieren, integrieren wir das Framework in die LLaVA-1.5-Architektur. Obwohl es nur mit wenigen (z.B. 10.000) Frage-Antwort-Paaren trainiert wurde, zeigt unsere Methode eine außergewöhnliche Dateneffizienz und Generalisierungsfähigkeit und erreicht eine absolute Genauigkeitssteigerung von über 10 % auf unbekannten Benchmarks, darunter TextVQA, DocVQA und V-Star. Unsere Arbeit bietet eine praktische und skalierbare Lösung zur Verbesserung der fein abgestuften Wahrnehmung von MLLMs, ohne kostspielige Supervision oder eine vollständige Modellfeinanpassung zu erfordern. Der Code ist verfügbar unter https://github.com/YuHengsss/SD-RPN.
Große Audio-Sprachmodelle entwickeln sich rasant, doch die meisten Bewertungen konzentrieren sich auf Sprache oder global bezogene Klänge und übersehen dabei kulturell einzigartige Hinweise. Diese Lücke wirft eine entscheidende Frage auf: Können aktuelle Modelle auf lokalisierte, nicht-semantische Audiodaten verallgemeinern, die Gemeinschaften sofort erkennen, Außenstehende jedoch nicht? Um dies zu untersuchen, präsentieren wir TAU (Taiwan Audio Understanding), einen Benchmark für alltägliche taiwanesische „Soundmarks“. TAU wurde durch eine Pipeline erstellt, die kuratierte Quellen, menschliche Bearbeitung und LLM-gestützte Fragenerstellung kombiniert, und umfasst 702 Clips sowie 1.794 Multiple-Choice-Aufgaben, die nicht allein durch Transkripte gelöst werden können. Experimente zeigen, dass state-of-the-art LALMs, einschließlich Gemini 2.5 und Qwen2-Audio, weit unterhalb der Leistung lokaler menschlicher Probanden liegen. TAU verdeutlicht die Notwendigkeit lokalisierter Benchmarks, um kulturelle Blindstellen aufzudecken, eine gerechtere multimodale Bewertung zu leiten und sicherzustellen, dass Modelle Gemeinschaften jenseits des globalen Mainstreams dienen.
Moderne KI basiert auf tiefen künstlichen neuronalen Netzen (NNs). Stand 2025 ist der am häufigsten zitierte wissenschaftliche Artikel des 21. Jahrhunderts ein NN-Paper über tiefes Residuallernen mit Residualverbindungen. Wer hat dies erfunden? Wir präsentieren eine Zeitleiste der Entwicklung des tiefen Residuallernens.
Das automatische Kompilieren von Open-Source-Software (OSS)-Projekten ist eine wesentliche, arbeitsintensive und komplexe Aufgabe, die sie zu einer geeigneten Herausforderung für LLM-Agenten macht. Bestehende Methoden stützen sich auf manuell erstellte Regeln und Workflows, die sich nicht an OSS anpassen können, die eine angepasste Konfiguration oder Umgebungseinrichtung erfordern. Neuere Versuche mit Large Language Models (LLMs) nutzten eine selektive Bewertung einer Teilmenge hoch bewerteter OSS, eine Praxis, die die realistischen Herausforderungen der OSS-Kompilation unterschätzt. In der Praxis sind Kompilierungsanweisungen oft nicht vorhanden, Abhängigkeiten sind undokumentiert, und erfolgreiche Builds erfordern möglicherweise sogar das Patchen von Quelldateien oder das Modifizieren von Build-Skripten. Wir schlagen einen anspruchsvolleren und realistischeren Benchmark vor, BUILD-BENCH, der OSS umfasst, die in Qualität, Umfang und Eigenschaften vielfältiger sind. Darüber hinaus schlagen wir einen starken LLM-basierten Basisansatz vor, OSS-BUILD-AGENT, ein effektives System mit einem verbesserten Modul zur Abrufung von Build-Anweisungen, das state-of-the-art Leistung auf BUILD-BENCH erreicht und an heterogene OSS-Eigenschaften anpassbar ist. Wir bieten auch eine detaillierte Analyse verschiedener Designentscheidungen für Kompilierungsmethoden und deren Einfluss auf die Gesamtaufgabe, um Einblicke zu geben, die zukünftige Fortschritte leiten können. Wir glauben, dass die Leistung auf BUILD-BENCH die Fähigkeit eines Agenten, die Kompilation als komplexe Softwareentwicklungsaufgabe zu bewältigen, treu widerspiegeln kann, und dass unser Benchmark Innovationen anregen wird, die erhebliche Auswirkungen auf nachgelagerte Anwendungen in den Bereichen Softwareentwicklung und Softwaresicherheit haben werden.
Diffusionsmodelle bieten einen physikalisch fundierten Rahmen für probabilistische Wettervorhersagen, doch ihre typische Abhängigkeit von langsamen, iterativen Lösern während der Inferenz macht sie für sub-saisonale bis saisonale (S2S) Anwendungen unpraktisch, bei denen lange Vorlaufzeiten und domänengetriebene Kalibrierung entscheidend sind. Um dies zu adressieren, stellen wir Swift vor, ein Einzelschritt-Konsistenzmodell, das erstmals ein autoregressives Feintuning eines Probability-Flow-Modells mit einem Continuous Ranked Probability Score (CRPS)-Ziel ermöglicht. Dadurch entfällt die Notwendigkeit von Multi-Modell-Ensembles oder Parameterstörungen. Die Ergebnisse zeigen, dass Swift geschickte 6-stündliche Vorhersagen erzeugt, die bis zu 75 Tage stabil bleiben und dabei 39-mal schneller laufen als state-of-the-art Diffusionsbaselines, während sie eine Vorhersagequalität erreichen, die mit dem numerikbasierten, operationellen IFS ENS konkurriert. Dies markiert einen Schritt hin zu effizienter und zuverlässiger Ensemble-Vorhersage von mittelfristigen bis saisonalen Skalen.
Designer erstellen und bearbeiten Grafikdesigns in einer Ebenendarstellung, doch die bearbeitung auf Ebenenbasis wird unmöglich, sobald das Design in ein Rasterbild kompositiert wurde. In dieser Arbeit schlagen wir LayerD vor, eine Methode zur Zerlegung von Rastergrafikdesigns in Ebenen für einen wieder bearbeitbaren kreativen Workflow. LayerD adressiert die Zerlegungsaufgabe durch die iterative Extraktion von nicht verdeckten Vordergrundebenen. Wir schlagen einen einfachen, aber effektiven Verfeinerungsansatz vor, der die Annahme nutzt, dass Ebenen in Grafikdesigns oft ein einheitliches Erscheinungsbild aufweisen. Da die Zerlegung ein schlecht gestelltes Problem ist und die Ground-Truth-Ebenenstruktur möglicherweise nicht zuverlässig ist, entwickeln wir ein Qualitätsmetrik, das diese Schwierigkeit berücksichtigt. In Experimenten zeigen wir, dass LayerD erfolgreich eine hochwertige Zerlegung erreicht und Baseline-Methoden übertrifft. Wir demonstrieren auch die Anwendung von LayerD mit modernsten Bildgeneratoren und der Bearbeitung auf Ebenenbasis.
Die Adversarial-Purification mit Diffusionsmodellen hat sich als vielversprechende Verteidigungsstrategie erwiesen, doch bestehende Methoden beruhen typischerweise auf gleichmäßiger Rauscheinspritzung, die alle Frequenzen ungezielt stört, semantische Strukturen beschädigt und die Robustheit untergräbt. Unsere empirische Studie zeigt, dass Adversarial-Perturbationen nicht gleichmäßig verteilt sind: Sie konzentrieren sich überwiegend auf hochfrequente Bereiche, mit heterogenen Intensitätsmustern, die sich über Frequenzen und Angriffstypen hinweg unterscheiden. Motiviert durch diese Beobachtung führen wir MANI-Pure ein, ein magnitudenadaptives Purifikationsframework, das das Magnitudenspektrum der Eingaben nutzt, um den Reinigungsprozess zu steuern. Anstatt homogenes Rauschen einzuspritzen, wendet MANI-Pure adaptiv heterogenes, frequenzspezifisches Rauschen an, wodurch Adversarial-Perturbationen in empfindlichen hochfrequenten, niedrigen Magnitudenbändern effektiv unterdrückt werden, während semantisch kritische niederfrequente Inhalte erhalten bleiben. Umfangreiche Experimente auf CIFAR-10 und ImageNet-1K bestätigen die Wirksamkeit von MANI-Pure. Es reduziert die Lücke in der Clean Accuracy auf innerhalb von 0,59 des ursprünglichen Klassifikators, steigert die Robust Accuracy um 2,15 und erreicht die Top-1 Robust Accuracy auf der RobustBench-Rangliste, womit es die bisherige State-of-the-Art-Methode übertrifft.
Bestehende multimodale Audiogenerierungsmodelle bieten oft keine präzise Benutzersteuerung, was ihre Anwendbarkeit in professionellen Foley-Workflows einschränkt. Insbesondere konzentrieren sich diese Modelle auf das gesamte Video und bieten keine präzisen Methoden, um ein bestimmtes Objekt innerhalb einer Szene zu priorisieren, was zu unnötigen Hintergrundgeräuschen oder einer falschen Fokussierung auf Objekte führt. Um diese Lücke zu schließen, führen wir die neuartige Aufgabe der videobasierten Objektsegmentierung mit Audiogenerierung ein, die die Klangsynthese explizit auf segmentierungsbasierte Objektebenen-Karten konditioniert. Wir präsentieren SAGANet, ein neues multimodales generatives Modell, das eine kontrollierbare Audiogenerierung ermöglicht, indem es visuelle Segmentierungsmasken zusammen mit Video- und Textinformationen nutzt. Unser Modell bietet Benutzern eine fein abgestimmte und visuell lokalisierte Steuerung der Audiogenerierung. Um diese Aufgabe zu unterstützen und weitere Forschungen zur segmentierungsbewussten Foley-Generierung zu ermöglichen, schlagen wir Segmented Music Solos vor, einen Benchmark-Datensatz von Videos musikalischer Instrumentenaufführungen mit Segmentierungsinformationen. Unsere Methode zeigt erhebliche Verbesserungen gegenüber aktuellen State-of-the-Art-Methoden und setzt einen neuen Standard für kontrollierbare, hochwertige Foley-Synthese. Code, Beispiele und Segmented Music Solos sind unter https://saganet.notion.site verfügbar.
Multi-Agent-Systeme (MAS) sind zunehmend in der Lage, komplexe Aufgaben in der realen Welt zu bewältigen. Dennoch stellt die Erkennung von Fehlern aufgrund ihrer Abhängigkeit von der Koordination zwischen Agenten, der Werkzeugnutzung und der langfristigen Planung eine besondere Herausforderung dar. Geringfügige Fehler können sich über Agenten hinweg ausbreiten und zu Aufgabenfehlern eskalieren, während sie lange, verflochtene Ausführungspfade erzeugen, die sowohl für menschliche Entwickler als auch für automatisierte Systeme erhebliche Kosten für das Debugging und die Analyse verursachen. Unsere zentrale Erkenntnis ist, dass MAS-Fehler trotz oberflächlicher Unterschiede in den Fehlerpfaden (z. B. Protokolle) oft mit ähnlichen strukturellen Mustern auftreten. Dieses Papier stellt CORRECT vor, den ersten leichtgewichtigen, trainingsfreien Rahmen, der einen Online-Cache von destillierten Fehlerschemata nutzt, um Wissen über Fehlerstrukturen über neue Anfragen hinweg zu erkennen und zu übertragen. Diese cache-basierte Wiederverwendung ermöglicht es LLMs, gezielte Fehlerlokalisierung zur Inferenzzeit durchzuführen, ohne teure Neuanpassungen zu benötigen, und sich in Sekundenbruchteilen an dynamische MAS-Bereitstellungen anzupassen. Um eine rigorose Untersuchung in diesem Bereich zu unterstützen, führen wir auch CORRECT-Error ein, einen umfangreichen Datensatz mit über 2.000 annotierten Pfaden, die durch eine neuartige Fehlerinjektionspipeline gesammelt wurden, die von realen Verteilungen geleitet wird und durch menschliche Bewertung weiter validiert wurde, um die Übereinstimmung mit natürlichen Fehlermustern sicherzustellen. Experimente in sieben verschiedenen MAS-Anwendungen zeigen, dass CORRECT die schrittweise Fehlerlokalisierung um bis zu 19,8 % gegenüber bestehenden Fortschritten verbessert, bei nahezu null Overhead, und damit die Lücke zwischen automatisierter und menschlicher Fehlererkennung erheblich verringert.
Zeitreihen-Foundation-Modelle (TSFMs) bieten eine starke Zero-Shot-Vorhersage durch groß angelegtes Pre-Training, doch das Fine-Tuning bleibt entscheidend, um die Leistung in Domänen mit begrenzten öffentlichen Daten zu steigern. Mit der zunehmenden Anzahl von TSFMs wird es immer schwieriger, das beste Modell für das nachgelagerte Fine-Tuning effizient zu identifizieren. In dieser Arbeit stellen wir TimeTic vor, ein Framework zur Schätzung der Transferierbarkeit, das die Modellauswahl als ein In-Context-Learning-Problem neu formuliert: Basierend auf Beobachtungen von bekannten (Quell-)Datensätzen sagt es voraus, wie ein TSFM nach dem Fine-Tuning auf einem nachgelagerten (Ziel-)Datensatz abschneiden wird. TimeTic organisiert flexibel die beobachteten Modell-Daten-Beziehungen als kontextuelle Informationen, wodurch es sich nahtlos an verschiedene Testzeit-Szenarien anpassen kann. Indem wir die natürliche tabellarische Struktur nutzen, die sich aus Datensatz-Meta-Features, Modellcharakteristika und der Fine-Tuning-Leistung ergibt, setzen wir tabellarische Foundation-Modelle als In-Context-Learner ein. Wir führen weiterhin eine neuartige Modellcharakterisierung basierend auf der Entropieentwicklung über die Modellschichten ein, die Unterschiede im Embedding-Raum erfasst und es TimeTic ermöglicht, über beliebige Modellsätze hinweg zu generalisieren. Wir etablieren einen umfassenden Benchmark für die Schätzung der Transferierbarkeit, der 10 Datensätze, 10 Foundation-Modelle und 3 Vorhersageaufgaben umfasst. Auf diesem Benchmark zeigt TimeTics Schätzung eine starke Übereinstimmung mit der tatsächlichen Fine-Tuning-Leistung für zuvor unbekannte Datensätze, mit einer mittleren Rangkorrelation von etwa 0,6 und einer 30%igen Verbesserung im Vergleich zur Verwendung der Zero-Shot-Leistung als Transferierbarkeits-Score.
Wir stellen den Convolutional Set Transformer (CST) vor, eine neuartige neuronale Architektur, die entwickelt wurde, um Bildmengen beliebiger Kardinalität zu verarbeiten, die visuell heterogen sind, aber gemeinsame hochlevelige Semantik aufweisen – wie beispielsweise eine gemeinsame Kategorie, Szene oder ein Konzept. Bestehende Netzwerke für Mengeneingaben, z. B. Deep Sets und Set Transformer, sind auf Vektoreingaben beschränkt und können 3D-Bildtensoren nicht direkt verarbeiten. Folglich müssen sie mit einem Merkmalsextraktor, typischerweise einem CNN, kombiniert werden, der Bilder in Einbettungen kodiert, bevor das Mengeneingabenetzwerk Beziehungen zwischen den Bildern modellieren kann. Im Gegensatz dazu arbeitet CST direkt auf 3D-Bildtensoren und führt Merkmalsextraktion und kontextuelle Modellierung gleichzeitig durch, wodurch Synergien zwischen diesen beiden Prozessen ermöglicht werden. Dieses Design führt zu überlegener Leistung in Aufgaben wie Mengenklassifikation und Mengenanomalieerkennung und bietet zudem native Kompatibilität mit CNN-Erklärbarkeitsmethoden wie Grad-CAM, im Gegensatz zu konkurrierenden Ansätzen, die undurchsichtig bleiben. Schließlich zeigen wir, dass CSTs auf groß angelegten Datensätzen vortrainiert und anschließend durch standardmäßige Transfer-Learning-Schemata an neue Domänen und Aufgaben angepasst werden können. Um die weitere Forschung zu unterstützen, veröffentlichen wir CST-15, ein auf ImageNet vortrainiertes CST-Backbone (https://github.com/chinefed/convolutional-set-transformer).
Während große Sprachmodelle (LLMs) mit Fähigkeiten zum logischen Denken in Bezug auf High-School-Mathematikwettbewerbe und Programmierung rasche Fortschritte machen, können sie effektiv durch komplexe, offene Herausforderungen vordringen, wie sie in der Spitzenphysikforschung zu finden sind? Und vor allem: Bei welchen Arten von Denkaufgaben möchten Physiker, dass LLMs sie unterstützen? Um diese Fragen zu beantworten, stellen wir CritPt (Complex Research using Integrated Thinking - Physics Test, ausgesprochen „critical point“) vor, den ersten Benchmark, der entwickelt wurde, um LLMs an unveröffentlichten, forschungsnahen Denkaufgaben zu testen, die breite Bereiche der modernen Physikforschung abdecken, einschließlich kondensierter Materie, Quantenphysik, Atom-, Molekül- und Optischer Physik, Astrophysik, Hochenergiephysik, mathematischer Physik, statistischer Physik, Kernphysik, nichtlinearer Dynamik, Strömungsdynamik und Biophysik. CritPt besteht aus 71 zusammengesetzten Forschungsherausforderungen, die dazu dienen, vollständige Forschungsprojekte auf Einstiegsniveau zu simulieren, die auch in 190 einfachere Checkpoint-Aufgaben unterteilt sind, um detailliertere Einblicke zu ermöglichen. Alle Probleme wurden neu von über 50 aktiven Physikforschern auf der Grundlage ihrer eigenen Forschung erstellt. Jedes Problem wurde sorgfältig kuratiert, um eine ratresistente und maschinenüberprüfbare Antwort zuzulassen, und wird durch eine automatisierte Bewertungspipeline evaluiert, die stark für fortgeschrittene physikspezifische Ausgabeformate angepasst ist. Wir stellen fest, dass aktuelle state-of-the-art LLMs zwar frühe Erfolge bei isolierten Checkpoints zeigen, sie jedoch weit davon entfernt sind, vollständige forschungsnahe Herausforderungen zuverlässig zu lösen: Die beste durchschnittliche Genauigkeit unter den Basismodellen beträgt nur 4,0 %, erreicht von GPT-5 (hoch), und steigt mäßig auf etwa 10 %, wenn sie mit Programmierwerkzeugen ausgestattet sind. Durch die realistische, aber standardisierte Bewertung, die CritPt bietet, heben wir eine große Diskrepanz zwischen den aktuellen Modellfähigkeiten und den realistischen Anforderungen der Physikforschung hervor und bieten eine Grundlage, um die Entwicklung wissenschaftlich fundierter KI-Tools zu leiten.
Wasserzeichen für große Sprachmodelle (LLMs) integrieren ein statistisches Signal während der Texterzeugung, um die Erkennung von modellgenerierten Texten zu ermöglichen. Obwohl sich Wasserzeichen in harmlosen Umgebungen als wirksam erwiesen haben, bleibt ihre Robustheit gegenüber adversarischen Umgehungsversuchen umstritten. Um ein rigoroses Verständnis und eine fundierte Bewertung solcher Schwachstellen voranzutreiben, schlagen wir den Bias-Inversion-Rewriting-Angriff (BIRA) vor, der theoretisch fundiert und modellagnostisch ist. BIRA schwächt das Wasserzeichensignal, indem es die Logits wahrscheinlich wasserzeichenbehafteter Token während des auf LLM basierenden Umschreibens unterdrückt, ohne Kenntnis des zugrunde liegenden Wasserzeichenschemas. Bei aktuellen Wasserzeichenmethoden erreicht BIRA eine Umgehungsrate von über 99 %, während der semantische Inhalt des Originaltexts erhalten bleibt. Über die Demonstration eines Angriffs hinaus offenbaren unsere Ergebnisse eine systematische Schwachstelle, die die Notwendigkeit von Stresstests und robusten Abwehrmechanismen unterstreicht.
Jüngste Fortschritte in der Videogenerierung haben die Synthese hochwertiger Videos aus benutzerdefinierten Eingabeaufforderungen ermöglicht. Allerdings erfassen bestehende Modelle und Benchmarks die Komplexität und Anforderungen der professionellen Videogenerierung nicht ausreichend. Um dieses Ziel zu erreichen, stellen wir Stable Cinemetrics vor, ein strukturiertes Bewertungsframework, das filmische Steuerungselemente in vier entkoppelte, hierarchische Taxonomien formalisiert: Setup, Ereignis, Beleuchtung und Kamera. Zusammen definieren diese Taxonomien 76 fein abgestimmte Kontrollknoten, die auf Branchenpraktiken basieren. Mit diesen Taxonomien erstellen wir einen Benchmark von Eingabeaufforderungen, die mit professionellen Anwendungsfällen abgestimmt sind, und entwickeln eine automatisierte Pipeline zur Kategorisierung von Eingabeaufforderungen und zur Fragenerstellung, die eine unabhängige Bewertung jeder Kontrolldimension ermöglicht. Wir führen eine groß angelegte menschliche Studie durch, die über 10 Modelle und 20.000 Videos umfasst, die von einem Pool von mehr als 80 Filmprofis annotiert wurden. Unsere Analyse, sowohl grob als auch fein abgestuft, zeigt, dass selbst die derzeit stärksten Modelle erhebliche Lücken aufweisen, insbesondere bei Ereignissen und kamerabezogenen Steuerungen. Um eine skalierbare Bewertung zu ermöglichen, trainieren wir einen automatischen Bewerter, ein Vision-Language-Modell, das mit Expertenannotationen abgestimmt ist und bestehende Zero-Shot-Baselines übertrifft. SCINE ist der erste Ansatz, der die professionelle Videogenerierung im Kontext von Videogenerierungsmodellen verortet, indem er Taxonomien einführt, die sich auf filmische Steuerungselemente konzentrieren, und diese mit strukturierten Bewertungspipelines und detaillierten Analysen unterstützt, um zukünftige Forschung zu leiten.
Bestehende Ansätze zur Schätzung der Fähigkeitskompetenz basieren häufig auf Black-Box-Videoklassifikatoren, die den Multi-View-Kontext ignorieren und an Erklärbarkeit mangeln. Wir stellen ProfVLM vor, ein kompaktes Vision-Language-Modell, das diese Aufgabe als generatives Reasoning neu formuliert: Es sagt gemeinsam das Fähigkeitsniveau voraus und generiert expertenähnliches Feedback aus egozentrischen und exozentrischen Videos. Kern unserer Methode ist ein AttentiveGatedProjector, der Multi-View-Features dynamisch fusioniert, die von einem eingefrorenen TimeSformer-Backbone in ein für die Feedback-Generierung optimiertes Sprachmodell projiziert werden. Auf EgoExo4D mit Expertenkommentaren trainiert, übertrifft ProfVLM state-of-the-art-Methoden, während es bis zu 20-mal weniger Parameter verwendet und die Trainingszeit um bis zu 60 % reduziert. Unser Ansatz erreicht nicht nur eine überlegene Genauigkeit über diverse Aktivitäten hinweg, sondern gibt auch natürliche Sprachkritiken aus, die mit der Leistung übereinstimmen und transparentes Reasoning bieten. Diese Ergebnisse unterstreichen das generative Vision-Language-Modellieren als einen leistungsstarken neuen Ansatz für die Fähigkeitsbewertung.
Für intelligente Bildbearbeitung sollte die Objektentfernung sowohl das Zielobjekt als auch dessen kausale visuelle Artefakte, wie Schatten und Reflexionen, beseitigen. Bisherige Methoden, die auf dem Bildaussehen basieren, folgen entweder strikt maskenausgerichteten Trainingsansätzen und scheitern daran, diese kausalen Effekte zu entfernen, die nicht explizit maskiert sind, oder sie verwenden locker maskenausgerichtete Strategien, denen es an Kontrollierbarkeit mangelt und die versehentlich andere Objekte übermäßig löschen können. Wir identifizieren, dass diese Einschränkungen darauf zurückzuführen sind, dass die kausale Beziehung zwischen der geometrischen Präsenz eines Objekts und seinen visuellen Effekten ignoriert wird. Um diese Einschränkung zu überwinden, schlagen wir ein geometrie-bewusstes zweistufiges Framework vor, das die Objektentfernung in (1) Geometrieentfernung und (2) Darstellung des Aussehens entkoppelt. In der ersten Stufe entfernen wir das Objekt direkt aus der Geometrie (z. B. Tiefe) unter Verwendung strikt maskenausgerichteter Überwachung, was eine struktur-bewusste Bearbeitung mit starken geometrischen Einschränkungen ermöglicht. In der zweiten Stufe rendern wir ein fotorealistisches RGB-Bild, das auf der aktualisierten Geometrie basiert, wobei kausale visuelle Effekte implizit als Ergebnis der modifizierten 3D-Geometrie berücksichtigt werden. Um das Lernen in der Geometrieentfernungsphase zu steuern, führen wir ein präferenzgetriebenes Ziel auf der Grundlage von positiven und negativen Beispielpaaren ein, das das Modell dazu anregt, Objekte sowie deren kausale visuelle Artefakte zu entfernen, während neue strukturelle Einfügungen vermieden werden. Umfangreiche Experimente zeigen, dass unsere Methode Spitzenleistungen bei der Entfernung von Objekten und deren zugehörigen Artefakten auf zwei beliebten Benchmarks erzielt. Der Code ist unter https://github.com/buxiangzhiren/GeoRemover verfügbar.