papers.description
Tiefgehende Forschungsagenten, die durch Large Language Models (LLMs) angetrieben werden, schreiten rasch voran; dennoch erreicht ihre Leistung oft ein Plateau, wenn sie komplexe, langformatige Forschungsberichte mit generischen Testzeit-Skalierungsalgorithmen generieren. Inspiriert von der iterativen Natur menschlicher Forschung, die Zyklen von Suche, Schlussfolgerung und Überarbeitung umfasst, schlagen wir den Test-Time Diffusion Deep Researcher (TTD-DR) vor. Dieses neuartige Rahmenwerk konzeptualisiert die Generierung von Forschungsberichten als einen Diffusionsprozess. TTD-DR startet diesen Prozess mit einem vorläufigen Entwurf, einem aktualisierbaren Skelett, das als sich entwickelnde Grundlage dient, um die Forschungsrichtung zu leiten. Der Entwurf wird dann iterativ durch einen „Entrauschungs“-Prozess verfeinert, der dynamisch durch einen Retrieval-Mechanismus informiert wird, der in jedem Schritt externe Informationen einbezieht. Der Kernprozess wird weiter durch einen selbst-evolutionären Algorithmus verbessert, der auf jede Komponente des agentenbasierten Workflows angewendet wird und so die Generierung von hochwertigem Kontext für den Diffusionsprozess sicherstellt. Dieser entwurfszentrierte Ansatz macht den Berichtserstellungsprozess zeitnaher und kohärenter, während der Informationsverlust während des iterativen Suchprozesses reduziert wird. Wir zeigen, dass unser TTD-DR auf einer Vielzahl von Benchmarks, die intensive Suche und Multi-Hop-Schlussfolgerungen erfordern, state-of-the-art Ergebnisse erzielt und bestehende tiefgehende Forschungsagenten deutlich übertrifft.
Die Quantisierung der Gewichte großer Sprachmodelle (LLMs) von 16-Bit auf niedrigere Bitbreiten ist der de-facto-Ansatz, um massive Transformer auf kostengünstigere Beschleuniger zu implementieren. GPTQ hat sich als eine der Standardmethoden für die One-Shot-Post-Training-Quantisierung im LLM-Maßstab etabliert. Dennoch werden seine inneren Abläufe als eine Folge von ad-hoc algebraischen Aktualisierungen beschrieben, die jegliche geometrische Bedeutung oder Worst-Case-Garantien verschleiern. In dieser Arbeit zeigen wir, dass GPTQ, wenn es rückwärts (von der letzten zur ersten Dimension) für eine lineare Schicht ausgeführt wird, mathematisch identisch mit Babais Nearest-Plane-Algorithmus für das klassische Closest-Vector-Problem (CVP) auf einem Gitter ist, das durch die Hessematrix der Eingaben der Schicht definiert wird. Diese Äquivalenz basiert auf einem anspruchsvollen mathematischen Argument und hat zwei analytische Konsequenzen: (i) der GPTQ-Fehlerfortpflanzungsschritt erhält eine intuitive geometrische Interpretation; (ii) GPTQ übernimmt die Fehlerobergrenze von Babais Algorithmus unter der No-Clipping-Bedingung. Zusammengenommen stellen diese Ergebnisse GPTQ auf eine solide theoretische Grundlage und öffnen die Tür, um jahrzehntelange Fortschritte in Gitteralgorithmen für die Gestaltung zukünftiger Quantisierungsalgorithmen für Milliarden-Parameter-Modelle zu nutzen.
Wir stellen MMBench-GUI vor, einen hierarchischen Benchmark zur Bewertung von GUI-Automatisierungsagenten über Windows, macOS, Linux, iOS, Android und Web-Plattformen hinweg. Er umfasst vier Ebenen: GUI-Inhaltsverständnis, Elementverankerung, Aufgabenautomatisierung und Aufgabenkollaboration, die wesentliche Fähigkeiten für GUI-Agenten abdecken. Zusätzlich schlagen wir eine neuartige Effizienz-Qualitäts-Fläche (EQA) als Metrik vor, um die Ausführungseffizienz von GUI-Agenten in Online-Automatisierungsszenarien zu bewerten. Durch MMBench-GUI identifizieren wir eine präzise visuelle Verankerung als entscheidenden Faktor für den Gesamterfolg von Aufgaben und betonen die erheblichen Vorteile modularer Frameworks, die spezialisierte Verankerungsmodule integrieren. Darüber hinaus benötigt ein Agent für zuverlässige GUI-Automatisierung starke Fähigkeiten in der Aufgabenplanung und plattformübergreifenden Generalisierung, wobei Langzeitgedächtnis, ein breiter Aktionsraum und langfristiges Schlussfolgern eine entscheidende Rolle spielen. Noch wichtiger ist, dass die Aufgabeneffizienz eine kritisch unerforschte Dimension bleibt, und alle Modelle leiden unter erheblichen Ineffizienzen, mit übermäßig redundanten Schritten, selbst wenn Aufgaben letztendlich abgeschlossen werden. Die Integration von präziser Lokalisierung, effektiver Planung und frühen Abbruchstrategien ist unerlässlich, um wirklich effiziente und skalierbare GUI-Automatisierung zu ermöglichen. Unser Benchmark-Code, Evaluationsdaten und Laufzeitumgebung werden öffentlich unter https://github.com/open-compass/MMBench-GUI verfügbar sein.
Multimodale große Sprachmodelle (MLLMs) haben bemerkenswerte Fortschritte erzielt, die maßgeblich durch ihre Fähigkeit getrieben werden, zunehmend lange und komplexe Kontexte zu verarbeiten, wie beispielsweise hochauflösende Bilder, ausgedehnte Videosequenzen und lange Audioeingaben. Während diese Fähigkeit die Leistungsfähigkeit von MLLMs erheblich steigert, führt sie auch zu erheblichen rechnerischen Herausforderungen, die hauptsächlich auf die quadratische Komplexität von Selbstaufmerksamkeitsmechanismen bei einer Vielzahl von Eingabe-Tokens zurückzuführen sind. Um diese Engpässe zu mildern, hat sich die Token-Komprimierung als vielversprechender und kritischer Ansatz herausgestellt, der die Anzahl der Tokens sowohl während des Trainings als auch der Inferenz effizient reduziert. In diesem Artikel präsentieren wir die erste systematische Übersicht und Synthese des aufstrebenden Forschungsgebiets der multimodalen Langkontext-Token-Komprimierung. In der Erkenntnis, dass effektive Komprimierungsstrategien eng mit den einzigartigen Eigenschaften und Redundanzen jeder Modalität verbunden sind, kategorisieren wir bestehende Ansätze nach ihrem primären Datenfokus, um Forschern einen schnellen Zugang zu maßgeschneiderten Methoden für ihr spezifisches Interessengebiet zu ermöglichen: (1) bildzentrierte Komprimierung, die räumliche Redundanzen in visuellen Daten adressiert; (2) videozentrierte Komprimierung, die räumlich-zeitliche Redundanzen in dynamischen Sequenzen behandelt; und (3) audiozentrierte Komprimierung, die zeitliche und spektrale Redundanzen in akustischen Signalen bewältigt. Über diese modalitätsgetriebene Kategorisierung hinaus analysieren wir Methoden weiterhin basierend auf ihren zugrunde liegenden Mechanismen, einschließlich transformationsbasierter, ähnlichkeitsbasierter, aufmerksamkeitsbasierter und abfragebasierter Ansätze. Durch die Bereitstellung eines umfassenden und strukturierten Überblicks zielt diese Übersicht darauf ab, den aktuellen Fortschritt zu konsolidieren, zentrale Herausforderungen zu identifizieren und zukünftige Forschungsrichtungen in diesem sich schnell entwickelnden Bereich zu inspirieren. Wir pflegen zudem ein öffentliches Repository, um die neuesten Fortschritte in diesem vielversprechenden Gebiet kontinuierlich zu verfolgen und zu aktualisieren.
Große Sprachmodelle (LLMs) werden zunehmend durch Reinforcement-Learning (RL)-Methoden wie Group Relative Policy Optimization (GRPO) an nachgelagerte Aufgaben angepasst, was oft Tausende von Durchläufen erfordert, um neue Aufgaben zu erlernen. Wir argumentieren, dass die interpretierbare Natur der Sprache oft ein viel reichhaltigeres Lernmedium für LLMs darstellen kann, verglichen mit Policy-Gradienten, die aus spärlichen, skalaren Belohnungen abgeleitet werden. Um dies zu testen, führen wir GEPA (Genetic-Pareto) ein, einen Prompt-Optimierer, der natürliche Sprachreflexion umfassend einbezieht, um auf hoher Ebene Regeln aus Versuch und Irrtum zu lernen. Bei jedem KI-System, das einen oder mehrere LLM-Prompts enthält, erfasst GEPA systemweite Trajektorien (z.B. Argumentation, Tool-Aufrufe und Tool-Ergebnisse) und reflektiert diese in natürlicher Sprache, um Probleme zu diagnostizieren, Prompt-Updates vorzuschlagen und zu testen sowie komplementäre Erkenntnisse aus der Pareto-Front seiner eigenen Versuche zu kombinieren. Aufgrund des Designs von GEPA kann es oft bereits aus wenigen Durchläufen eine erhebliche Qualitätssteigerung erzielen. Über vier Aufgaben hinweg übertrifft GEPA GRPO im Durchschnitt um 10 % und bis zu 20 %, während es bis zu 35-mal weniger Durchläufe verwendet. GEPA übertrifft auch den führenden Prompt-Optimierer, MIPROv2, bei zwei LLMs um über 10 % und zeigt vielversprechende Ergebnisse als Suchstrategie zur Inferenzzeit für die Code-Optimierung.
Die Bewertung von Large Language Models (LLMs) stützt sich zunehmend auf andere LLMs, die als Richter fungieren. Allerdings liefern aktuelle Evaluationsparadigmen typischerweise eine einzelne Bewertung oder Rangfolge, die beantwortet, welches Modell besser ist, aber nicht warum. Obwohl diese Top-Level-Bewertungen für Benchmarking unerlässlich sind, verdecken sie die spezifischen, umsetzbaren Gründe hinter der Leistung eines Modells. Um diese Lücke zu schließen, stellen wir CLEAR vor, ein interaktives, quelloffenes Paket für die fehlerbasierte Analyse von LLMs. CLEAR generiert zunächst textbasierte Rückmeldungen pro Instanz, erstellt dann eine Reihe von systemweiten Fehlerproblemen und quantifiziert die Häufigkeit jedes identifizierten Problems. Unser Paket bietet den Nutzern auch ein interaktives Dashboard, das eine umfassende Fehleranalyse durch aggregierte Visualisierungen ermöglicht, interaktive Filter zur Isolierung spezifischer Probleme oder Bewertungsbereiche anwendet und bis zu den einzelnen Instanzen vordringt, die ein bestimmtes Verhaltensmuster exemplarisch darstellen. Wir demonstrieren die CLEAR-Analyse für RAG- und Mathematik-Benchmarks und zeigen ihren Nutzen durch eine Nutzerfallstudie auf.
Sprachmodelle (LMs) sind anfällig für In-Context-Reward-Hacking, bei dem sie Schwächen in fehlerhaften oder manipulierten schriftlichen Spezifikationen oder Bewertungskriterien ausnutzen, um hohe Bewertungen zu erzielen, ohne die eigentliche Absicht des Nutzers zu erfüllen. Wir stellen Specification Self-Correction (SSC) vor, ein neuartiges Framework zur Laufzeit, das einem LM ermöglicht, Schwächen in seiner eigenen Leitlinie zu identifizieren und zu korrigieren. SSC verwendet einen mehrstufigen Inferenzprozess, bei dem das Modell zunächst eine Antwort auf Basis einer potenziell fehlerhaften Spezifikation generiert, seine Ausgabe kritisch bewertet und dann die Spezifikation selbst überarbeitet, um ausnutzbare Lücken zu schließen. Eine endgültige, robustere Antwort wird anschließend unter Verwendung dieser selbstkorrigierten Spezifikation erzeugt. In Experimenten, die kreatives Schreiben und agentenbasiertes Codieren mit mehreren LMs umfassen, zeigen wir, dass Modelle zwar zunächst in 50–70\% der Fälle fehlerhafte Spezifikationen ausnutzen, der SSC-Prozess diese Anfälligkeit jedoch um über 90\% reduziert. Diese dynamische Reparatur erfolgt zur Laufzeit, erfordert keine Gewichtsänderungen und führt zu einem robusteren, besser ausgerichteten Modellverhalten. Code unter https://github.com/vicgalle/specification-self-corction.
Während end-to-end-Modelle für autonomes Fahren vielversprechende Ergebnisse zeigen, wird ihre praktische Anwendung oft durch große Modellgrößen, die Abhängigkeit von teuren LiDAR-Sensoren und rechenintensive BEV-Feature-Repräsentationen behindert. Dies schränkt ihre Skalierbarkeit ein, insbesondere für Massenmarktfahrzeuge, die nur mit Kameras ausgestattet sind. Um diese Herausforderungen zu bewältigen, schlagen wir PRIX (Plan from Raw Pixels) vor. Unsere neuartige und effiziente end-to-end-Fahrarchitektur arbeitet ausschließlich mit Kameradaten, ohne explizite BEV-Repräsentation und ohne den Bedarf für LiDAR. PRIX nutzt einen visuellen Feature-Extraktor, der mit einem generativen Planungskopf gekoppelt ist, um sichere Trajektorien direkt aus Rohpixeleingaben vorherzusagen. Ein Kernbestandteil unserer Architektur ist der Context-aware Recalibration Transformer (CaRT), ein neuartiges Modul, das entwickelt wurde, um mehrstufige visuelle Features effektiv zu verbessern und so eine robustere Planung zu ermöglichen. Wir zeigen durch umfassende Experimente, dass PRIX auf den NavSim- und nuScenes-Benchmarks state-of-the-art-Leistung erzielt und dabei die Fähigkeiten größerer, multimodaler Diffusionsplaner erreicht, während es in Bezug auf Inferenzgeschwindigkeit und Modellgröße deutlich effizienter ist, was es zu einer praktischen Lösung für den realen Einsatz macht. Unsere Arbeit ist Open-Source, und der Code wird unter https://maxiuw.github.io/prix verfügbar sein.
Um die beispiellosen Risiken zu verstehen und zu identifizieren, die durch sich schnell entwickelnde künstliche Intelligenz (KI)-Modelle entstehen, präsentiert dieser Bericht eine umfassende Bewertung ihrer Grenzrisiken. Unter Verwendung der E-T-C-Analyse (Einsatzumgebung, Bedrohungsquelle, ermöglichende Fähigkeit) aus dem Frontier AI Risk Management Framework (v1.0) (SafeWork-F1-Framework) identifizieren wir kritische Risiken in sieben Bereichen: Cyberangriffe, biologische und chemische Risiken, Überzeugung und Manipulation, unkontrollierte autonome KI-Forschung und -Entwicklung (F&E), strategische Täuschung und Planung, Selbstreplikation sowie Kollusion. Angeleitet durch das „AI-45°-Gesetz“ bewerten wir diese Risiken anhand von „roten Linien“ (unerträgliche Schwellenwerte) und „gelben Linien“ (Frühwarnindikatoren), um Risikozonen zu definieren: grün (beherrschbares Risiko für den Routinebetrieb und kontinuierliche Überwachung), gelb (erfordert verstärkte Minderungsmaßnahmen und kontrollierten Einsatz) und rot (erfordert die Einstellung der Entwicklung und/oder des Einsatzes). Experimentelle Ergebnisse zeigen, dass alle aktuellen Frontier-KI-Modelle in den grünen und gelben Zonen liegen, ohne rote Linien zu überschreiten. Insbesondere überschreiten keine der bewerteten Modelle die gelbe Linie für Cyberangriffe oder unkontrollierte KI-F&E-Risiken. Bei Selbstreplikation sowie strategischer Täuschung und Planung bleiben die meisten Modelle in der grünen Zone, mit Ausnahme bestimmter Reasoning-Modelle in der gelben Zone. Bei Überzeugung und Manipulation befinden sich die meisten Modelle aufgrund ihrer effektiven Einflussnahme auf Menschen in der gelben Zone. Für biologische und chemische Risiken können wir die Möglichkeit nicht ausschließen, dass die meisten Modelle in der gelben Zone liegen, obwohl detaillierte Bedrohungsmodellierung und vertiefte Bewertungen erforderlich sind, um weitere Aussagen zu treffen. Diese Arbeit spiegelt unser aktuelles Verständnis der KI-Grenzrisiken wider und fordert kollektives Handeln, um diese Herausforderungen zu bewältigen.
AI-Video-Chat etabliert sich als neues Paradigma für Echtzeitkommunikation (Real-time Communication, RTC), bei dem ein Kommunikationspartner kein Mensch, sondern ein multimodales großes Sprachmodell (Multimodal Large Language Model, MLLM) ist. Dies macht die Interaktion zwischen Mensch und KI intuitiver, als würde man sich mit einer realen Person von Angesicht zu Angesicht unterhalten. Allerdings stellt dies erhebliche Herausforderungen an die Latenz, da die Inferenz des MLLM den Großteil der Antwortzeit beansprucht und nur sehr wenig Zeit für den Video-Streaming-Prozess bleibt. Aufgrund von Netzwerkunsicherheiten und -instabilitäten wird die Übertragungslatenz zu einem kritischen Engpass, der verhindert, dass die KI wie eine reale Person agiert. Um dies zu lösen, schlagen wir Artic vor, ein KI-orientiertes Echtzeitkommunikations-Framework, das den Netzwerkanforderungswechsel von „Menschen, die Videos ansehen“ zu „KI, die Videos versteht“ untersucht. Um die Bitrate drastisch zu reduzieren und gleichzeitig die Genauigkeit des MLLM zu erhalten, schlagen wir Context-Aware Video Streaming vor, das die Bedeutung jeder Videoregion für den Chat erkennt und die Bitrate fast ausschließlich auf chatrelevante Regionen verteilt. Um Paketwiederholungen zu vermeiden, schlagen wir Loss-Resilient Adaptive Frame Rate vor, das vorherige Frames nutzt, um verlorene oder verzögerte Frames zu ersetzen und dabei Bitrateverschwendung zu vermeiden. Um die Auswirkungen der Video-Streaming-Qualität auf die Genauigkeit des MLLM zu bewerten, haben wir den ersten Benchmark entwickelt, den Degraded Video Understanding Benchmark (DeViBench). Abschließend diskutieren wir einige offene Fragen und laufende Lösungen für AI-Video-Chat.
Bei der Unsupervised Domain Adaptive Semantic Segmentation (UDA-SS) wird ein Modell auf annotierten Daten aus einem Quellbereich (z. B. synthetische Bilder) trainiert und an einen nicht annotierten Zielbereich (z. B. reale Bilder) angepasst, ohne Zugriff auf Zielannotierungen zu haben. Bestehende UDA-SS-Methoden haben oft Schwierigkeiten, feinkörnige lokale Details mit globalen Kontextinformationen auszubalancieren, was zu Segmentierungsfehlern in komplexen Regionen führt. Um dies zu beheben, führen wir das Adaptive Feature Refinement (AFR)-Modul ein, das die Segmentierungsgenauigkeit verbessert, indem hochauflösende Merkmale mithilfe semantischer Prioritäten aus niedrigauflösenden Logits verfeinert. AFR integriert auch hochfrequente Komponenten, die feinkörnige Strukturen erfassen und wichtige Grenzinformationen liefern, wodurch die Objektabgrenzung verbessert wird. Zusätzlich balanciert AFR lokale und globale Informationen durch unsicherheitsgesteuerte Aufmerksamkeit aus, was Fehlklassifikationen reduziert. Sein leichtgewichtiges Design ermöglicht eine nahtlose Integration in HRDA-basierte UDA-Methoden und führt zu state-of-the-art Segmentierungsleistungen. Unser Ansatz verbessert bestehende UDA-SS-Methoden um 1,05 % mIoU auf GTA V --> Cityscapes und 1,04 % mIoU auf Synthia --> Cityscapes. Die Implementierung unseres Frameworks ist verfügbar unter: https://github.com/Masrur02/AFRDA.