papers.description
Große Reasoning-Modelle haben beeindruckende Fähigkeiten zur Problemlösung demonstriert, doch reale Aufgaben erfordern oft externe Werkzeuge und langfristige Interaktionen. Bestehende Agenten-Frameworks folgen typischerweise vordefinierten Arbeitsabläufen, was autonome und globale Aufgabenbearbeitung einschränkt. In dieser Arbeit stellen wir DeepAgent vor, einen End-to-End Deep-Reasoning-Agenten, der autonomes Denken, Werkzeugentdeckung und Aktionsausführung innerhalb eines einzigen kohärenten Reasoning-Prozesses durchführt. Um die Herausforderungen langfristiger Interaktionen zu bewältigen, insbesondere die Explosion der Kontextlänge durch multiple Werkzeugaufrufe und die Anhäufung von Interaktionshistorie, führen wir einen autonomen Memory-Folding-Mechanismus ein, der vergangene Interaktionen in strukturierte episodische, Arbeits- und Werkzeuggedächtnisse komprimiert, wodurch Fehlerakkumulation reduziert wird, während kritische Informationen erhalten bleiben. Um allgemeine Werkzeugnutzung effizient und stabil zu vermitteln, entwickeln wir eine End-to-End-Verstärkungslernstrategie namens ToolPO, die LLM-simulierte APIs nutzt und Tool-Call-Vorteilsattribution anwendet, um feingranulare Verdienste den Werkzeugaufruf-Tokens zuzuordnen. Umfangreiche Experimente auf acht Benchmarks, einschließlich allgemeiner Werkzeugnutzungsaufgaben (ToolBench, API-Bank, TMDB, Spotify, ToolHop) und nachgelagerter Anwendungen (ALFWorld, WebShop, GAIA, HLE), demonstrieren, dass DeepAgent durchgängig Baseline-Methoden in sowohl beschrifteten als auch Open-Set-Werkzeugabrufszenarien übertrifft. Diese Arbeit macht einen Schritt hin zu allgemeineren und leistungsfähigeren Agenten für reale Anwendungen. Der Code und die Demo sind verfügbar unter https://github.com/RUC-NLPIR/DeepAgent.
Führende Reasoning-Modelle haben in einer Vielzahl von Disziplinen beeindruckende Fähigkeiten gezeigt, angetrieben durch Nachtraining großer Sprachmodelle (LLMs) mit Verstärkendem Lernen (RL). Trotz des weitverbreiteten Erfolgs dieses Paradigmas hat sich ein Großteil der Literatur darauf konzentriert, wirklich neuartige Verhaltensweisen zu entwirren, die während des RL entstehen, aber nicht in den Basismodellen vorhanden sind. In unserer Arbeit nähern wir uns dieser Frage aus einem anderen Blickwinkel und fragen stattdessen, ob vergleichbare Reasoning-Fähigkeiten bereits zur Inferenzzeit aus Basismodellen durch reines Sampling abgerufen werden können, ohne zusätzliches Training. Inspiriert von Markov-Chain-Monte-Carlo-(MCMC)-Techniken zum Sampling aus geschärften Verteilungen schlagen wir einen einfachen iterativen Sampling-Algorithmus vor, der die eigenen Likelihoods der Basismodelle nutzt. Wir zeigen für verschiedene Basismodelle, dass unser Algorithmus substanzielle Steigerungen der Reasoning-Fähigkeiten bietet, die diejenigen aus RL auf einer Vielzahl von Single-Shot-Aufgaben – einschließlich MATH500, HumanEval und GPQA – nahezu erreichen und sogar übertreffen. Darüber hinaus vermeidet unser Sampler den für RL-Nachtraining charakteristischen Kollaps der Diversität über mehrere Stichproben hinweg. Entscheidend ist, dass unsere Methode kein Training, kuratierte Datensätze oder einen Verifizierer erfordert, was auf eine breite Anwendbarkeit auch über leicht verifizierbare Domänen hinaus hindeutet.
Die einheitliche, verallgemeinerbare semantische Steuerung in der Videogenerierung bleibt eine kritische, ungelöste Herausforderung. Bestehende Methoden führen entweder Artefakte durch die Durchsetzung ungeeigneter pixelweiser Priors aus struktur-basierten Steuerungen ein oder verlassen sich auf nicht-verallgemeinerbares, conditionsspezifisches Finetuning oder aufgabenspezifische Architekturen. Wir stellen Video-As-Prompt (VAP) vor, ein neues Paradigma, das dieses Problem als In-Context-Generierung neu definiert. VAP nutzt ein Referenzvideo als direkte semantische Eingabeaufforderung, die ein eingefrorenes Video Diffusion Transformer (DiT)-Modell über einen Plug-and-Play Mixture-of-Transformers (MoT)-Experten steuert. Diese Architektur verhindert katastrophales Vergessen und wird durch eine temporal verzerrte Positionseinbettung geleitet, die fehlerhafte Mapping-Priors für einen robusten Kontextabruf eliminiert. Um diesen Ansatz zu ermöglichen und zukünftige Forschung zu beschleunigen, haben wir VAP-Data aufgebaut, den größten Datensatz für semantisch gesteuerte Videogenerierung mit über 100.000 gepaarten Videos über 100 semantische Bedingungen hinweg. Als einheitliches Einzelmodell setzt VAP einen neuen Maßstab für Open-Source-Methoden und erreicht eine Nutzerpräferenzrate von 38,7 %, die mit führenden conditionsspezifischen kommerziellen Modellen konkurriert. VAPs starke Zero-Shot-Generalisiertung und Unterstützung für verschiedene Downstream-Anwendungen markieren einen bedeutenden Fortschritt in Richtung einer universellen, steuerbaren Videogenerierung.
Wir stellen uns der Herausforderung, unendlich erweiterbare 3D-Welten zu generieren – große, kontinuierliche Umgebungen mit kohärenter Geometrie und realistischer Erscheinung. Bestehende Methoden stehen vor zentralen Problemen: 2D-Lifting-Ansätze leiden unter geometrischen und Erscheinungs-Inkonsistenzen zwischen verschiedenen Blickwinkeln, 3D-implizite Repräsentationen sind schwer zu skalieren, und aktuelle 3D-Foundation-Modelle sind größtenteils objektzentriert, was ihre Anwendbarkeit für szenenbezogene Generierung einschränkt. Unser zentraler Ansatz ist die Nutzung starker Generierungs-Priors aus vortrainierten 3D-Modellen für die strukturierte Szenenblock-Generierung. Zu diesem Zweck präsentieren wir WorldGrow, ein hierarchisches Framework für die unbegrenzte 3D-Szenensynthese. Unsere Methode umfasst drei Kernkomponenten: (1) eine Data-Curation-Pipeline zur Extraktion hochwertiger Szenenblöcke für das Training, die 3D-strukturierte latente Repräsentationen für die Szenengenerierung geeignet macht; (2) einen 3D-Block-Inpainting-Mechanismus, der kontextbewusste Szenenerweiterung ermöglicht; und (3) eine Coarse-to-fine-Generierungsstrategie, die sowohl globale Layout-Plausibilität als auch lokale geometrische/texturelle Treue sicherstellt. Auswertungen auf dem großangelegten 3D-FRONT-Datensatz zeigen, dass WorldGrow state-of-the-art Leistung in geometrischer Rekonstruktion erreicht und dabei einzigartig unendliche Szenengenerierung mit fotorealistischen und strukturell konsistenten Ergebnissen unterstützt. Diese Ergebnisse unterstreichen seine Fähigkeit zur Konstruktion großmaßstäblicher virtueller Umgebungen und sein Potenzial für die Entwicklung zukünftiger Weltmodelle.
Das Fehlen einer konkreten Definition für Künstliche Allgemeine Intelligenz (AGI) verschleiert die Kluft zwischen der heutigen spezialisierten KI und der menschlichen Kognition. Dieses Papier stellt einen quantifizierbaren Rahmen vor, um dieses Problem anzugehen, und definiert AGI als das Erreichen der kognitiven Vielseitigkeit und Kompetenz eines gut ausgebildeten Erwachsenen. Um dies operationalisierbar zu machen, stützen wir unsere Methodik auf die Cattell-Horn-Carroll-Theorie, das empirisch am besten validierte Modell der menschlichen Kognition. Der Rahmen unterteilt die allgemeine Intelligenz in zehn zentrale kognitive Domänen – darunter Schlussfolgerung, Gedächtnis und Wahrnehmung – und passt etablierte psychometrische Testverfahren für Menschen an, um KI-Systeme zu bewerten. Die Anwendung dieses Rahmens zeigt ein stark "zersplittertes" kognitives Profil bei aktuellen Modellen. Während aktuelle KI-Systeme in wissensintensiven Domänen kompetent sind, weisen sie kritische Defizite in grundlegender kognitiver Funktionalität auf, insbesondere bei der Langzeitspeicherung von Gedächtnisinhalten. Die resultierenden AGI-Werte (z.B. GPT-4 bei 27 %, GPT-5 bei 58 %) quantifizieren konkret sowohl die rasante Entwicklung als auch die beträchtliche verbleibende Lücke bis zur AGI.
Group Relative Policy Optimization (GRPO) hat ein großes Potenzial für flussbasiertes Text-zu-Bild (T2I) Generation gezeigt, steht jedoch vor zwei zentralen Einschränkungen: ungenauer Vorteilsattribuierung und der Vernachlässigung der zeitlichen Dynamik der Generierung. In dieser Arbeit argumentieren wir, dass eine Verlagerung des Optimierungsparadigmas von der Schrittebene auf die Chunk-Ebene diese Probleme wirksam entschärfen kann. Aufbauend auf dieser Idee schlagen wir Chunk-GRPO vor, den ersten chunkbasierten GRPO-Ansatz für die T2I-Generierung. Die grundlegende Einsicht besteht darin, aufeinanderfolgende Schritte zu kohärenten "Chunks" zusammenzufassen, die die intrinsische zeitliche Dynamik des Flow Matching erfassen, und die Richtlinien auf Chunk-Ebene zu optimieren. Zusätzlich führen wir eine optionale gewichtete Sampling-Strategie ein, um die Leistung weiter zu steigern. Umfangreiche Experimente zeigen, dass ChunkGRPO sowohl in der Präferenzausrichtung als auch in der Bildqualität überlegene Ergebnisse erzielt und damit die vielversprechenden Möglichkeiten der chunkbasierten Optimierung für GRPO-Methoden unterstreicht.
Diskrete Diffusionsmodelle haben sich als vielversprechender Ansatz für Vision-Sprache-Aufgaben erwiesen, da sie bidirektionale Kontextmodellierung und theoretische Parallelisierung bieten. Ihre praktische Anwendung wird jedoch durch eine Trainings-Inferenz-Diskrepanz erheblich behindert, die zu katastrophalen Fehlerkaskaden führt: Anfängliche Token-Fehler während des parallelen Decodierens verunreinigen den Generierungskontext, lösen eine Kettenreaktion sich verstärkender Fehler aus und führen zu syntaktischen Fehlern und semantischen Halluzinationen. Um diese grundlegende Herausforderung zu bewältigen, rahmen wir den Generierungsprozess vom passiven Entrauschen zum aktiven Verfeinern um. Wir stellen ReDiff vor, ein verfeinerungsverstärktes Diffusionsframework, das dem Modell beibringt, eigene Fehler zu identifizieren und zu korrigieren. Unser Ansatz umfasst einen zweistufigen Trainingsprozess: Zunächst vermitteln wir eine grundlegende Revisionsfähigkeit, indem wir das Modell trainieren, synthetische Fehler zu überarbeiten; anschließend implementieren wir eine neuartige Online-Selbstkorrekturschleife, in der das Modell explizit trainiert wird, eigene fehlerhafte Entwürfe durch Lernen von Expertenkorrekturen zu verbessern. Dieser fehlergesteuerte Lernansatz verleiht dem Modell die entscheidende Fähigkeit, bereits generierte Ausgaben zu überprüfen und zu verfeinern, wodurch die Fehlerkaskade effektiv durchbrochen wird. Umfangreiche Experimente zeigen, dass ReDiff die Kohärenz und faktische Genauigkeit generierter Inhalte signifikant verbessert und eine stabile und effiziente Parallelgenerierung ermöglicht, die traditionellen Entrauschungsmethoden weit überlegen ist. Unsere Codes und Modelle sind verfügbar unter https://rediff-hku.github.io/.
Die Skalierung der Kontextlänge von großen Sprachmodellen (LLMs) bietet erhebliche Vorteile, ist jedoch rechenintensiv. Diese Kosten ergeben sich hauptsächlich aus dem Self-Attention-Mechanismus, dessen O(N²)-Komplexität in Bezug auf die Sequenzlänge einen großen Engpass für Speicher und Latenz darstellt. Glücklicherweise ist die Attention-Matrix oft spärlich besetzt, besonders bei langen Sequenzen, was eine Optimierungsmöglichkeit nahelegt. Block-sparse Attention hat sich als vielversprechende Lösung erwiesen, die Sequenzen in Blöcke unterteilt und die Berechnung für eine Teilmenge dieser Blöcke überspringt. Die Effektivität dieser Methode hängt jedoch stark von den zugrundeliegenden Attention-Mustern ab, was zu suboptimaler sparsity auf Blockebene führen kann. Beispielsweise können wichtige Key-Tokens für Queries innerhalb eines einzelnen Blocks über zahlreiche andere Blöcke verstreut sein, was zu rechentechnischer Redundanz führt. In dieser Arbeit schlagen wir Permuted Block-Sparse Attention (PBS-Attn) vor, eine Plug-and-Play-Methode, die die Permutationseigenschaften von Attention nutzt, um die sparsity auf Blockebene zu erhöhen und die Recheneffizienz der LLM-Prefilling-Phase zu verbessern. Wir führen umfassende Experimente auf anspruchsvollen realen Langkontext-Datensätzen durch, die zeigen, dass PBS-Attn bestehende Block-sparse-Attention-Methoden in der Modellgenauigkeit konsequent übertrifft und sich eng an die Baseline der vollständigen Attention annähert. Gestützt durch unsere maßgeschneiderten permuted-FlashAttention-Kernel erreicht PBS-Attn eine End-to-End-Beschleunigung von bis zu 2,75x beim Langkontext-Prefilling, was seine praktische Tauglichkeit bestätigt. Code verfügbar unter https://github.com/xinghaow99/pbs-attn.
GUI-Grounding, das natürliche Sprachbefehle auf aktionsfähige UI-Elemente abbildet, ist eine Kernfähigkeit von GUI-Agenten. Bisherige Arbeiten behandeln Befehle weitgehend als statischen Stellvertreter für Benutzerabsichten und übersehen dabei die Auswirkungen von Befehlsvielfalt und -qualität auf die Grounding-Leistung. Durch eine sorgfältige Untersuchung bestehender Grounding-Datensätze finden wir eine Fehlerrate von 23,3 % in deren Befehlen und zeigen, dass die Ausnutzung von Befehlsvielfalt zur Inferenzzeit eine relative Leistungssteigerung von bis zu 76 % erzielt. In diesem Artikel führen wir das Instruction-as-Reasoning-Paradigma ein, das Befehle als dynamische Analysepfade behandelt, die unterschiedliche Perspektiven bieten und es dem Modell ermöglichen, während des Schlussfolgerns den effektivsten Pfad auszuwählen. Um dies zu erreichen, schlagen wir einen zweistufigen Trainingsrahmen vor: überwachtes Fein-Tuning (SFT) an synthetisierten, vielfältigen Befehlen, um multiperspektivisches Reasoning zu vermitteln, gefolgt von bestärkendem Lernen (RL), um die Pfadauswahl und -zusammensetzung zu optimieren. Unsere resultierenden Modelle, UI-Ins-7B und UI-Ins-32B, erzielen state-of-the-art Ergebnisse auf fünf anspruchsvollen Grounding-Benchmarks und zeigen emergentes Reasoning, das bei der Inferenz selektiv neue Befehlspfade komponiert und synthetisiert. Insbesondere erreicht UI-Ins-32B die beste Grounding-Genauigkeit mit 87,3 % auf UI-I2E-Bench, 57,0 % auf ScreenSpot-Pro und 84,9 % auf MMBench-GUI L2. Darüber hinaus zeigt unser Modell starkes agentisches Potenzial und erreicht eine Erfolgsquote von 74,1 % auf AndroidWorld unter Verwendung von UI-Ins-7B als Executor. Unsere tiefgehende Analyse liefert weitere Erkenntnisse, wie etwa die Formulierung von Reasoning zur Verbesserung – nicht Beeinträchtigung – der Grounding-Leistung und wie unsere Methode Policy Collapse im SFT+RL-Framework abmildert. Alle Code- und Modell-Checkpoints werden unter https://github.com/alibaba/UI-Ins öffentlich freigegeben.
In dieser Arbeit zeigen wir, dass visuelle Diffusionsmodelle als effektive geometrische Löser fungieren können: Sie können direkt über geometrische Probleme in Pixelräumen schlussfolgern. Wir demonstrieren dies zunächst am Problem des eingeschriebenen Quadrats, einem langjährigen geometrischen Problem, das fragt, ob jede Jordankurve vier Punkte enthält, die ein Quadrat bilden. Anschließend erweitern wir den Ansatz auf zwei weitere bekannte schwierige geometrische Probleme: das Steinerbaumproblem und das Problem des einfachen Polygons. Unsere Methode behandelt jede Problemstellung als Bild und trainiert ein standardmäßiges visuelles Diffusionsmodell, das Gaußsches Rauschen in ein Bild umwandelt, das eine gültige, annähernde Lösung repräsentiert, die der exakten Lösung sehr nahekommt. Das Modell lernt, verrauschte geometrische Strukturen in korrekte Konfigurationen zu transformieren und formt so geometrisches Schließen effektiv zu Bildgenerierung um. Im Gegensatz zu früheren Arbeiten, die spezialisierte Architekturen und domänenspezifische Anpassungen erfordern, wenn Diffusion auf parametrische geometrische Darstellungen angewendet wird, nutzen wir ein Standard-Diffusionsmodell, das auf der visuellen Repräsentation des Problems operiert. Diese Einfachheit unterstreicht eine überraschende Brücke zwischen generativer Modellierung und geometrischer Problemlösung. Über die hier untersuchten spezifischen Probleme hinaus deuten unsere Ergebnisse auf ein breiteres Paradigma hin: Das Operieren im Bildraum bietet einen allgemeinen und praktischen Rahmen zur Annäherung an notorisch schwierige Probleme und eröffnet die Möglichkeit, eine weitaus größere Klasse anspruchsvoller geometrischer Aufgaben anzugehen.
Große Video-Sprachmodelle (VideoLLMs) erweitern die Fähigkeiten von Sprach-Vision-Modellen auf raumzeitliche Eingaben und ermöglichen Aufgaben wie das Beantworten von Videofragen (VideoQA). Trotz jüngster Fortschritte bei VideoLLMs sind ihre internen Mechanismen, wo und wie sie Video- und Textinformationen extrahieren und weiterleiten, noch wenig erforscht. In dieser Studie untersuchen wir den internen Informationsfluss von VideoLLMs mit Methoden der mechanistischen Interpretierbarkeit. Unsere Analyse zeigt konsistente Muster über verschiedene VideoQA-Aufgaben hinweg: (1) Zeitliches Schließen in VideoLLMs beginnt mit aktiven übergreifenden Frame-Interaktionen in frühen bis mittleren Schichten, (2) gefolgt von einer fortschreitenden Video-Sprache-Integration in mittleren Schichten. Dies wird durch eine Ausrichtung zwischen Videorepräsentationen und linguistischen Einbettungen mit zeitlichen Konzepten ermöglicht. (3) Nach Abschluss dieser Integration ist das Modell in mittleren bis späten Schichten bereit, korrekte Antworten zu generieren. (4) Basierend auf unserer Analyse zeigen wir, dass VideoLLMs ihre VideoQA-Leistung beibehalten können, indem sie diese effektiven Informationspfade auswählen und gleichzeitig einen Großteil der Aufmerksamkeitsverbindungen unterdrücken, z.B. 58 % in LLaVA-NeXT-7B-Video-FT. Diese Erkenntnisse liefern eine Blaupause dafür, wie VideoLLMs zeitliches Schließen durchführen, und bieten praktische Einblicke zur Verbesserung der Modellinterpretierbarkeit und der Generalisierung für nachgelagerte Aufgaben. Unsere Projektseite mit dem Quellcode ist verfügbar unter https://map-the-flow.github.io.
Modellfusion ist eine effiziente Nachtraining-Strategie zur Integration von Wissen aus mehreren feinabgestimmten Checkpoints eines gemeinsamen Grundmodells. Bestehende Methoden operieren im Parameterraum, kombinieren Aufgabenvektoren, um Konflikte zu mildern, bleiben jedoch durch Parameterinkonsistenzen eingeschränkt. Wir schlagen Functional Dual Anchors (FDAs) vor, ein Framework, das stattdessen den Eingabe-Repräsentationsraum modelliert. FDAs sind synthetische Eingaben, deren induzierte Gradienten sich mit Aufgabenvektoren ausrichten und aufgabenspezifische funktionale Verschiebungen relativ zum vortrainierten Modell erfassen. Diese Perspektive überbrückt gemeinsames Multitask-Training und nachträgliche Fusion und bietet sowohl Robustheit als auch Flexibilität. Wir führen weiterhin ein prinzipielles Initialisierungsschema ein und zeigen, dass FDAs komplementär zur Modellfusion im Parameterraum sind. Umfassende Experimente demonstrieren die Wirksamkeit von FDAs bei der Modellfusion.
Die Gestaltung von Prompts spielt eine entscheidende Rolle bei der Text-zu-Video (T2V)-Generierung, doch sind benutzerdefinierte Prompts oft kurz, unstrukturiert und nicht mit den Trainingsdaten abgestimmt, was das generative Potenzial diffusionsbasierter T2V-Modelle einschränkt. Wir stellen RAPO++ vor, ein frameworkübergreifendes Prompt-Optimierungsframework, das eine trainingsdatenabgestimmte Verfeinerung, iterative Skalierung zur Testzeit und Feinabstimmung großer Sprachmodelle (LLMs) vereint, um die T2V-Generierung erheblich zu verbessern, ohne den zugrunde liegenden generativen Backbone zu modifizieren. In Stufe 1 reichert die Retrieval-Augmented Prompt Optimization (RAPO) Benutzerprompts mit semantisch relevanten Modifikatoren an, die aus einem Relationsgraphen abgerufen werden, und refaktorisiert sie, um sie an Trainingsverteilungen anzupassen, wodurch Kompositionalität und Multi-Objekt-Treue verbessert werden. Stufe 2 führt die Sample-Specific Prompt Optimization (SSPO) ein, einen Closed-Loop-Mechanismus, der Prompts iterativ unter Verwendung von Multi-Source-Feedback verfeinert – einschließlich semantischer Ausrichtung, räumlicher Treue, zeitlicher Kohärenz und aufgabenspezifischer Signale wie optischem Fluss – und so eine progressively verbesserte Videogenerierungsqualität erzielt. Stufe 3 nutzt optimierte Prompt-Paare aus SSPO, um den umschreibenden LLM feinzutunen, wodurch aufgabenspezifische Optimierungsmuster internalisiert werden und eine effiziente, hochwertige Prompt-Generierung bereits vor der Inferenz ermöglicht wird. Umfangreiche Experimente mit fünf state-of-the-art T2V-Modellen und fünf Benchmarks zeigen, dass RAPO++ signifikante Verbesserungen bei semantischer Ausrichtung, kompositionellem Reasoning, zeitlicher Stabilität und physikalischer Plausibilität erzielt und bestehende Methoden mit großem Abstand übertrifft. Unsere Ergebnisse unterstreichen RAPO++ als modellagnostische, kosteneffiziente und skalierbare Lösung, die einen neuen Standard für die Prompt-Optimierung in der T2V-Generierung setzt. Der Code ist verfügbar unter https://github.com/Vchitect/RAPO.
Wir zeigen auf, dass interne Repräsentationen in großen Sprachmodellen (LLMs) als zuverlässige Stellvertreter für erlerntes Wissen dienen, und schlagen RECALL vor – einen neuartigen, repräsentationsbewussten Modellzusammenführungsrahmen für kontinuierliches Lernen ohne Zugriff auf historische Daten. RECALL berechnet Ähnlichkeiten zwischen Modellen anhand schichtenweiser versteckter Repräsentationen über gruppierte typische Stichproben und führt eine adaptive, hierarchische Parameterfusion durch, um Wissen über Modelle hinweg abzugleichen. Dieser Ansatz ermöglicht die Bewahrung domänenübergreifender Merkmale in flachen Schichten, während taskspezifische Anpassungen in tieferen Schichten möglich sind. Im Gegensatz zu früheren Methoden, die Task-Labels erfordern oder Leistungseinbußen in Kauf nehmen, erreicht RECALL eine nahtlose Multi-Domain-Integration und eine hohe Resistenz gegen katastrophales Vergessen. Umfangreiche Experimente über fünf NLP-Aufgaben und mehrere Szenarien des kontinuierlichen Lernens zeigen, dass RECALL Baseline-Methoden sowohl in der Wissensbewahrung als auch in der Generalisierung übertrifft und somit eine skalierbare, datenfreie Lösung für die Weiterentwicklung von LLMs bietet.
Traditionelle Metriken der Informationsrückgewinnung (IR), wie nDCG, MAP und MRR, gehen davon aus, dass menschliche Nutzer Dokumente sequenziell prüfen, wobei ihre Aufmerksamkeit für niedrigere Ränge abnimmt. Diese Annahme gilt nicht für Retrieval-Augmented-Generation (RAG)-Systeme, in denen Suchergebnisse von Large Language Models (LLMs) verarbeitet werden. Im Gegensatz zu Menschen verarbeiten LLMs alle abgerufenen Dokumente als Ganzes und nicht sequenziell. Darüber hinaus berücksichtigen traditionelle IR-Metriken nicht, dass verwandte, aber irrelevante Dokumente, die die Generierungsqualität aktiv verschlechtern, anstatt lediglich ignoriert zu werden. Aufgrund dieser beiden wesentlichen Fehlanpassungen – nämlich menschlicher vs. maschineller Positionsabschlag und menschliche Relevanz vs. maschineller Nutzen – sagen klassische IR-Metriken die RAG-Leistung nicht genau voraus. Wir führen ein nutzenbasiertes Annotationsschema ein, das sowohl den positiven Beitrag relevanter Passagen als auch die negative Auswirkung ablenkender Passagen quantifiziert. Auf dieser Grundlage aufbauend schlagen wir UDCG (Utility and Distraction-aware Cumulative Gain) vor, eine Metrik, die einen LLM-orientierten Positionsabschlag verwendet, um die Korrelation mit der end-to-end Antwortgenauigkeit direkt zu optimieren. Experimente mit fünf Datensätzen und sechs LLMs zeigen, dass UDCG die Korrelation im Vergleich zu traditionellen Metriken um bis zu 36 % verbessert. Unsere Arbeit stellt einen entscheidenden Schritt dar, um die IR-Bewertung an LLM-Konsumenten anzupassen, und ermöglicht eine zuverlässigere Bewertung von RAG-Komponenten.
Aktuelle Techniken wie retrieval-augmented Generation oder Chain-of-Thought Reasoning haben zu längeren Kontexten und erhöhten Inferenzkosten geführt. Kontextkomprimierungstechniken können diese Kosten senken, aber die effektivsten Ansätze erfordern ein Fine-Tuning des Zielmodells oder sogar Änderungen an dessen Architektur. Dies kann dessen allgemeine Fähigkeiten beeinträchtigen, wenn es nicht für diesen spezifischen Zweck genutzt wird. Hier untersuchen wir einen alternativen Ansatz: einen Encoder, der den Kontext in kontinuierliche Repräsentationen komprimiert, welche Token-Embeddings in Decoder-LLMs ersetzen. Zunächst führen wir eine systematische Studie zu Trainingsstrategien und Architekturentscheidungen für den Encoder durch. Unsere Erkenntnisse führten zum Entwurf eines anpassbaren Textrepräsentationskompressors, genannt ARC-Encoder, der x-mal weniger kontinuierliche Repräsentationen (typischerweise x ∈ {4,8}) ausgibt als Text-Tokens. Wir evaluieren den ARC-Encoder in einer Vielzahl von LLM-Anwendungsszenarien, von In-Context-Learning bis zur Kontextfenstererweiterung, sowohl mit Instruct- als auch Basis-Decodern. Die Ergebnisse zeigen, dass der ARC-Encoder state-of-the-art Leistung in mehreren Benchmarks erreicht und gleichzeitig die Recheneffizienz bei der Inferenz verbessert. Abschließend demonstrieren wir, dass unsere Modelle gleichzeitig an mehrere Decoder angepasst werden können, was einen einzelnen Encoder ermöglicht, der sich über verschiedene Decoder-LLMs verallgemeinern lässt. Dies macht den ARC-Encoder zu einer flexiblen und effizienten Lösung für portable Encoder, die nahtlos mit mehreren LLMs funktionieren. Wir veröffentlichen einen Trainingscode unter https://github.com/kyutai-labs/ARC-Encoder, Fine-Tuning-Datensätze und vortrainierte Modelle sind verfügbar unter https://huggingface.co/collections/kyutai/arc-encoders-68ee18787301407d60a57047.
In jüngster Zeit wurden bedeutende Fortschritte im multimodalen kontinuierlichen Lernen erzielt, mit dem Ziel, neue Aufgaben sequenziell in multimodalen Umgebungen zu lernen und gleichzeitig die Leistung bei bereits gelernten Aufgaben zu erhalten. Bestehende Methoden konzentrieren sich jedoch hauptsächlich auf grobgranulare Aufgaben und weisen Einschränkungen bei der Bewältigung von Modalitätsverschränkung in feingranularen Settings für kontinuierliches Lernen auf. Um diese Lücke zu schließen, führen wir eine neuartige Aufgabe zur Kontinuierlichen Audio-Visuellen Segmentierung (CAVS) ein, die darauf abzielt, kontinuierlich neue Klassen anhand von Audio-Anleitung zu segmentieren. Durch umfassende Analyse wurden zwei kritische Herausforderungen identifiziert: 1) multimodale semantische Drift, bei der ein klingendes Objekt in sequenziellen Aufgaben als Hintergrund klassifiziert wird; 2) Ko-Okkurrenz-Verwirrung, bei der häufig gemeinsam auftretende Klassen tendenziell verwechselt werden. In dieser Arbeit wird ein kollisionsbasiertes multimodales Rehearsal (CMR)-Framework entwickelt, um diesen Herausforderungen zu begegnen. Speziell für die multimodale semantische Drift wird eine Multimodale Probenauswahl (MSS)-Strategie vorgeschlagen, um Proben mit hoher Modalitätskonsistenz für das Rehearsal auszuwählen. Für die Ko-Okkurrenz-Verwirrung wird hingegen ein kollisionsbasiertes Proben-Rehearsal (CSR)-Mechanismus entworfen, der eine Erhöhung der Rehearsal-Häufigkeit von verwirrbaren Klassen während des Trainingsprozesses ermöglicht. Darüber hinaus konstruieren wir drei audio-visuelle inkrementelle Szenarien, um die Wirksamkeit unserer Methode zu überprüfen. Umfassende Experimente belegen, dass unsere Methode Methoden zum kontinuierlichen Lernen mit einzelnen Modalitäten signifikant übertrifft.
Große Sprachmodelle (LLMs) werden zunehmend in agentenbasierten Systemen eingesetzt, die mit einer externen Umgebung interagieren; dies macht sie anfällig für Prompt-Injections bei der Verarbeitung nicht vertrauenswürdiger Daten. Um diese Einschränkung zu überwinden, schlagen wir SIC (Soft Instruction Control) vor – eine einfache, aber effektive iterative Prompt-Bereinigungs-Schleife für werkzeuggestützte LLM-Agenten. Unsere Methode überprüft wiederholt eingehende Daten auf Anweisungen, die das Agentenverhalten kompromittieren könnten. Wenn derartige Inhalte gefunden werden, wird der bösartige Inhalt umgeschrieben, maskiert oder entfernt und das Ergebnis neu bewertet. Der Prozess wird fortgesetzt, bis die Eingabe bereinigt ist oder eine maximale Iterationsgrenze erreicht wird; verbleibt imperativartiger Anweisungsinhalt, hält der Agent an, um Sicherheit zu gewährleisten. Indem mehrere Durchläufe ermöglicht werden, erkennt unser Ansatz an, dass einzelne Umschreibungen fehlschlagen können, ermöglicht dem System aber, übersehene Injections in späteren Schritten zu erkennen und zu korrigieren. Obwohl sofort nützlich, zeigt eine Worst-Case-Analyse, dass SIC nicht unfehlbar ist; ein starker Angreifer kann durch das Einbetten nicht-imperativer Workflows immer noch eine Erfolgsquote von 15 % (ASR) erzielen. Dennoch erhöht dies die Hürde erheblich.
Jüngste Fortschritte bei großen Reasoning-Modellen (LRMs) haben einen Zwischenprozess des „Denkens“ vor der Generierung endgültiger Antworten eingeführt, was ihre Fähigkeiten zum logischen Schlussfolgern bei komplexen Downstream-Aufgaben verbessert. Das Potenzial von LRMs als Bewerter für die Qualität von maschineller Übersetzung (MT) ist jedoch noch unzureichend erforscht. Wir liefern die erste systematische Analyse von „LRM-as-a-Judge“ in der MT-Evaluation. Wir identifizieren zentrale Herausforderungen und zeigen, dass LRMs maßgeschneidertes Evaluationsmaterial benötigen, dazu neigen, bei einfacheren Instanzen zu „überdenken“, und Probleme mit Bewertungsmechanismen haben, die zu Überschätzungen führen. Um diese Probleme anzugehen, schlagen wir vor, das LRM-Denken durch Training an synthetischen, menschenähnlichen Denkverläufen zu kalibrieren. Unsere Experimente auf den WMT24 Metrics-Benchmarks zeigen, dass dieser Ansatz den Denkaufwand um das ~35-fache reduziert und gleichzeitig die Evaluationsleistung über verschiedene LRM-Größen von 7B bis 32B verbessert (z.B. erzielt R1-Distill-Qwen-7B eine Verbesserung um +8,7 Korrelationspunkte). Diese Ergebnisse unterstreichen das Potenzial effizient kalibrierter LRMs für die Weiterentwicklung feinkörniger automatischer MT-Evaluation.
Interaktive Weltmodelle, die Objektdynamiken simulieren, sind entscheidend für Robotik, VR und AR. Es bleibt jedoch eine große Herausforderung, physikkonsistente Dynamikmodelle aus begrenzten realen Videodaten zu lernen, insbesondere für deformierbare Objekte mit räumlich variierenden physikalischen Eigenschaften. Um die Herausforderung der Datenknappheit zu bewältigen, schlagen wir PhysWorld vor, einen neuartigen Rahmen, der einen Simulator nutzt, um physikalisch plausible und vielfältige Demonstrationen zur Erstellung effizienter Weltmodelle zu synthetisieren. Konkret konstruieren wir zunächst einen physikkonsistenten digitalen Zwilling innerhalb eines MPM-Simulators durch Auswahl des Materialmodells und Global-zu-Lokal-Optimierung der physikalischen Eigenschaften. Anschließend wenden wir teilbereichsbewusste Störungen auf die physikalischen Eigenschaften an und erzeugen verschiedene Bewegungsmuster für den digitalen Zwilling, wodurch umfangreiche und diverse Demonstrationen synthetisiert werden. Schließlich trainieren wir mit diesen Demonstrationen ein leichtgewichtiges, GNN-basiertes Weltmodell, das physikalische Eigenschaften einbettet. Reale Videos können zur weiteren Verfeinerung der physikalischen Eigenschaften genutzt werden. PhysWorld erreicht präzise und schnelle Zukunftsprognosen für verschiedene deformierbare Objekte und generalisiert auch gut auf neuartige Interaktionen. Experimente zeigen, dass PhysWorld eine wettbewerbsfähige Leistung erbringt und dabei eine 47-fach schnellere Inferenzgeschwindigkeit im Vergleich zur aktuellen State-of-the-Art-Methode PhysTwin ermöglicht.
Wir wenden Kategorientheorie an, um die multimodale Dokumentstruktur zu extrahieren, was uns zur Entwicklung informationstheoretischer Maße, Inhaltszusammenfassung und -erweiterung sowie zur selbstüberwachten Verbesserung großer vortrainierter Modelle führt. Zunächst entwickeln wir eine mathematische Repräsentation eines Dokuments als Kategorie von Frage-Antwort-Paaren. Zweitens entwickeln wir ein Orthogonalisierungsverfahren, um die in einem oder mehreren Dokumenten enthaltenen Informationen in sich nicht überschneidende Bestandteile aufzuteilen. Die im ersten und zweiten Schritt extrahierten Strukturen führen uns zur Entwicklung von Methoden zur Messung und Enumeration der in einem Dokument enthaltenen Informationen. Wir bauen auf diesen Schritten auf, um neue Zusammenfassungstechniken zu entwickeln sowie eine Lösung für ein neues Problem zu erarbeiten, nämlich die Exegese, die zu einer Erweiterung des Originaldokuments führt. Unsere Frage-Antwort-Paar-Methodik ermöglicht eine neuartige Rate-Distortion-Analyse von Zusammenfassungstechniken. Wir implementieren unsere Techniken mit großen vortrainierten Modellen und schlagen eine multimodale Erweiterung unseres gesamten mathematischen Rahmens vor. Schließlich entwickeln wir eine neuartige selbstüberwachte Methode mit RLVR, um große vortrainierte Modelle mithilfe von Konsistenzbedingungen wie Komponierbarkeit und Abgeschlossenheit unter bestimmten Operationen zu verbessern, die sich natürlich aus unserem kategorientheoretischen Rahmen ergeben.
Reinforcement Learning (RL) hat sich als entscheidender Ansatz zur Verbesserung der Fähigkeiten großer Sprachmodelle erwiesen. Bei Mixture-of-Experts (MoE)-Modellen führt der Routing-Mechanismus jedoch häufig zu Instabilität, die sogar zu einem katastrophalen Zusammenbruch des RL-Trainings führen kann. Wir analysieren die Trainings-Inferenz-Konsistenz von MoE-Modellen und identifizieren eine signifikante Diskrepanz im Routing-Verhalten zwischen den beiden Phasen. Darüber hinaus kann das Routing-Framework selbst unter identischen Bedingungen bei wiederholten Vorwärtsschritten divergierende Expertenauswahlen liefern. Um diese grundlegende Inkonsistenz zu adressieren, schlagen wir Rollout Routing Replay (R3) vor, eine Methode, die Routing-Verteilungen aus der Inferenz-Engine aufzeichnet und sie während des Trainings wiedergibt. R3 reduziert die KL-Divergenz der Trainings-Inferenz-Policy erheblich und mildert extreme Diskrepanzen, ohne die Trainingsgeschwindigkeit zu beeinträchtigen. Umfangreiche Experimente in verschiedenen Settings bestätigen, dass R3 das RL-Training erfolgreich stabilisiert, Zusammenbrüche verhindert und Methoden wie GSPO und TIS übertrifft. Wir sind überzeugt, dass diese Arbeit eine neue Lösung zur Stabilisierung von RL in MoE-Modellen bieten kann.
Foley Control ist ein leichtgewichtiger Ansatz für videogesteuertes Foley, der vortrainierte Einzelmodalitäts-Modelle eingefroren lässt und nur eine kleine Cross-Attention-Brücke zwischen ihnen lernt. Wir verbinden V-JEPA2-Video-Embeddings mit einem eingefrorenen Stable Audio Open DiT Text-to-Audio (T2A)-Modell, indem wir eine kompakte Video-Cross-Attention nach der bestehenden Text-Cross-Attention des Modells einfügen. Dadurch setzen Prompts die globalen Semantiken, während das Video die zeitliche Abfolge und lokale Dynamik verfeinert. Die eingefrorenen Backbones behalten starke Randverteilungen (Video; Audio bei gegebenem Text) und die Brücke lernt die für die Synchronisation benötigte Audio-Video-Abhängigkeit – ohne das Audio-Prior neu zu trainieren. Um den Speicherbedarf zu reduzieren und das Training zu stabilisieren, fassen wir Video-Tokens vor der Konditionierung zusammen. Auf kuratierten Video-Audio-Benchmarks erreicht Foley Control eine wettbewerbsfähige zeitliche und semantische Übereinstimmung mit deutlich weniger trainierbaren Parametern als aktuelle multimodale Systeme, wobei gleichzeitig die promptgesteuerte Steuerbarkeit und eine produktionsfreundliche Modularität erhalten bleiben (Austausch/Upgrade von Encodern oder des T2A-Backbones ohne End-to-End-Neutraining). Obwohl wir uns auf Video-zu-Foley konzentrieren, könnte dasselbe Brücken-Design prinzipiell auf andere Audio-Modalitäten (z.B. Sprache) erweitert werden.
KI-Agenten haben das Potenzial, die wissenschaftliche Produktivität zu revolutionieren, indem sie Literaturrecherchen automatisieren, Experimente replizieren, Daten analysieren und sogar neue Forschungsrichtungen vorschlagen; tatsächlich gibt es bereits viele solcher Agenten, von allgemeinen "Deep-Research"-Systemen bis hin zu spezialisierten, wissenschaftsspezifischen Agenten wie AI Scientist und AIGS. Eine rigorose Evaluierung dieser Agenten ist für den Fortschritt entscheidend. Doch bestehende Benchmarks weisen mehrere Mängel auf: Sie (1) bieten keine ganzheitlichen, praxisnahen Messgrößen für reale Anwendungsfälle wie wissenschaftliche Forschung; (2) es fehlen ihnen reproduzierbare Agenten-Werkzeuge, die für einen kontrollierten Vergleich der Kernfähigkeiten von Agenten notwendig sind; (3) sie berücksichtigen keine Störvariablen wie Modellkosten und Werkzeugzugriff; (4) sie bieten keine standardisierten Schnittstellen für schnelles Prototyping und Evaluierung von Agenten; und (5) es mangelt ihnen an umfassenden Baseline-Agenten, die notwendig sind, um echte Fortschritte zu identifizieren. Als Antwort darauf definieren wir Prinzipien und Werkzeuge für eine rigorosere Benchmarking von Agenten. Unter Verwendung dieser stellen wir AstaBench vor, eine Suite, die erstmals eine ganzheitliche Messgröße für die Fähigkeit von Agenten zur Durchführung wissenschaftlicher Forschung bietet. Sie umfasst 2400+ Aufgaben, die den gesamten wissenschaftlichen Entdeckungsprozess und multiple wissenschaftliche Domänen abdecken, und beinhaltet viele Aufgaben, die von tatsächlichen Nutzeranfragen an eingesetzte Asta-Agenten inspiriert sind. Unsere Suite wird ergänzt durch die erste wissenschaftliche Forschungsumgebung mit produktionsreifen Suchwerkzeugen, die eine kontrollierte, reproduzierbare Evaluierung ermöglicht und Störvariablen besser berücksichtigt. Zusätzlich bieten wir eine umfassende Suite von neun wissenschaftlich optimierten Klassen von Asta-Agenten und zahlreiche Baselines. Unsere umfangreiche Evaluierung von 57 Agenten aus 22 Agentenklassen ergibt mehrere interessante Erkenntnisse, vor allem, dass KI trotz bedeutender Fortschritte in bestimmten Einzelaspekten noch weit davon entfernt ist, die Herausforderung der wissenschaftlichen Forschungsunterstützung zu lösen.
Visuelles Reasoning in multimodalen großen Sprachmodellen (MLLMs) wurde bisher hauptsächlich in statischen, vollständig beobachtbaren Umgebungen untersucht, was ihre Effektivität in realen Szenarien einschränkt, in denen Informationen oft durch Verdeckungen oder ein begrenztes Sichtfeld unvollständig sind. Menschen erkunden und interagieren im Gegensatz dazu aktiv mit ihrer Umgebung – sie bewegen sich, untersuchen und manipulieren Objekte –, um Informationen durch einen geschlossenen Kreislaufprozess zu sammeln, der Wahrnehmung, Reasoning und Handlung integriert. Inspiriert von dieser menschlichen Fähigkeit führen wir die Aufgabe des Aktiven Visuellen Reasonings (AVR) ein, die visuelles Reasoning auf teilweise beobachtbare, interaktive Umgebungen ausdehnt. AVR erfordert von Agenten: (1) aktive Informationsbeschaffung durch sequenzielle physische Aktionen, (2) Integration von Beobachtungen über mehrere Schritte hinweg für kohärentes Reasoning und (3) dynamische Anpassung von Entscheidungen auf der Grundlage sich entwickelnder visueller Rückmeldungen. Um AVR rigoros zu evaluieren, führen wir CLEVR-AVR ein, einen Simulationsbenchmark mit mehrfach interaktiven Umgebungen, der sowohl die Reasoning-Korrektheit als auch die Effizienz der Informationsbeschaffung bewertet. Wir stellen AVR-152k vor, einen groß angelegten Datensatz mit umfangreichen Chain-of-Thought (CoT)-Annotationen, die iteratives Reasoning zur Identifizierung von Unsicherheiten, aktionsbedingte Vorhersagen des Informationsgewinns und informationsmaximierende Aktionsauswahl detailliert beschreiben – entscheidend für das Training von Agenten in einem Markov-Entscheidungsprozess höherer Ordnung. Darauf aufbauend entwickeln wir PhysVLM-AVR, ein MLLM, das state-of-the-art Leistung auf CLEVR-AVR, embodied Reasoning (OpenEQA, RoboVQA) und passivem visuellem Reasoning (GeoMath, Geometry30K) erzielt. Unsere Analyse zeigt auch, dass aktuelle embodied MLLMs, obwohl sie unvollständige Informationen erkennen können, Schwierigkeiten haben, aktiv neue Informationen durch Interaktion zu erwerben und zu integrieren, was eine fundamentale Lücke in den aktiven Reasoning-Fähigkeiten aufzeigt.
3D-LiDAR-Sensoren sind unverzichtbar für autonome Navigation, Umweltmonitoring und Präzisionskartierung in Fernerkundungsanwendungen. Um die massiven Punktwolken, die diese Sensoren erzeugen, effizient zu verarbeiten, werden LiDAR-Daten häufig in 2D-Entfernungsbilder projiziert, die Punkte anhand ihrer Winkelpositionen und Entfernungen organisieren. Obwohl diese Entfernungsbilddarstellungen eine effiziente Verarbeitung ermöglichen, leiden konventionelle Projektionsmethoden unter grundlegenden geometrischen Inkonsistenzen, die zu irreversiblem Informationsverlust führen und Hochpräzisionsanwendungen beeinträchtigen. Wir stellen ALICE-LRI (Automatic LiDAR Intrinsic Calibration Estimation for Lossless Range Images) vor, die erste allgemeine, sensorunabhängige Methode, die eine verlustfreie Entfernungsbildgenerierung aus rotierenden LiDAR-Punktwolken ohne Herstellermetadaten oder Kalibrierungsdateien erreicht. Unser Algorithmus rekonstruiert automatisch die intrinsische Geometrie jedes rotierenden LiDAR-Sensors, indem er kritische Parameter ableitet, einschließlich Laserstrahlkonfiguration, Winkelverteilungen und kalibrierungsspezifischer Korrekturen pro Strahl. Dies ermöglicht eine verlustfreie Projektion und vollständige Rekonstruktion der Punktwolke ohne Punktverluste. Eine umfassende Auswertung der vollständigen KITTI- und DurLAR-Datensätze zeigt, dass ALICE-LRI eine perfekte Punkterhaltung erreicht, ohne Punktverluste in allen Punktwolken. Die geometrische Genauigkeit bleibt deutlich innerhalb der Sensorpräzisionsgrenzen, was geometrische Verlustfreiheit bei Echtzeitleistung bestätigt. Wir präsentieren zudem eine Kompressionsfallstudie, die erhebliche Vorteile für nachgelagerte Anwendungen validiert und signifikante Qualitätsverbesserungen in praktischen Anwendungen demonstriert. Dieser Paradigmenwechsel von approximativen zu verlustfreien LiDAR-Projektionen eröffnet neue Möglichkeiten für hochpräzise Fernerkundungsanwendungen, die vollständige geometrische Erhaltung erfordern.