papers.description
Wir präsentieren Seed Diffusion Preview, ein großskaliges Sprachmodell basierend auf diskret-zuständiger Diffusion, das eine bemerkenswert schnelle Inferenzgeschwindigkeit bietet. Dank nicht-sequentieller, paralleler Generierung ermöglichen diskrete Diffusionsmodelle eine deutliche Beschleunigung, um die inhärente Latenz der Token-für-Token-Decodierung zu verringern, wie kürzlich gezeigt wurde (z. B. Mercury Coder, Gemini Diffusion). Seed Diffusion Preview erreicht eine Inferenzgeschwindigkeit von 2.146 Token/s auf H20-GPUs und behält dabei eine wettbewerbsfähige Leistung über eine Reihe von Standard-Code-Evaluierungsbenchmarks bei, was deutlich schneller ist als die aktuellen Mercury- und Gemini-Diffusion-Modelle und somit einen neuen Stand der Technik auf der Geschwindigkeits-Qualitäts-Pareto-Grenze für Codemodelle etabliert.
Wir stellen Skywork UniPic vor, ein autoregressives Modell mit 1,5 Milliarden Parametern, das Bildverständnis, Text-zu-Bild-Generierung und Bildbearbeitung in einer einzigen Architektur vereint – wodurch die Notwendigkeit für aufgabenspezifische Adapter oder Inter-Modul-Verbindungen entfällt – und zeigen, dass kompakte multimodale Systeme auf handelsüblicher Hardware state-of-the-art Leistung erzielen können. Skywork UniPic erreicht einen GenEval-Score von 0,86 und übertrifft damit die meisten bestehenden vereinheitlichten Modelle; setzt einen neuen DPG-Bench-Rekord für komplexe Generierung mit 85,5; erzielt 5,83 auf GEditBench-EN und 3,49 auf ImgEdit-Bench für die Bildbearbeitung; und generiert 1024 x 1024 Bilder mit weniger als 15 GB GPU-Speicher (z.B. RTX 4090). (1) Eine entkoppelte Encodierungsstrategie, die einen maskierten autoregressiven Encoder für die Synthese und einen SigLIP2-Encoder für das Verständnis nutzt, die alle einen gemeinsamen autoregressiven Decoder speisen; (2) ein progressiver, auflösungsbewusster Trainingsplan, der von 256 x 256 auf 1024 x 1024 skaliert und dabei Parameter dynamisch freigibt, um Kapazität und Stabilität auszugleichen; und (3) sorgfältig kuratierte, 100 Millionen umfassende Datensätze, die mit aufgabenspezifischen Belohnungsmodellen angereichert sind, um die Generierungs- und Bearbeitungsziele zu verfeinern. Indem Skywork UniPic zeigt, dass hochwertige multimodale Integration keine unerschwinglichen Ressourcenanforderungen mit sich bringen muss, etabliert es ein praktisches Paradigma für einsatzfähige, hochwertige multimodale KI. Code und Gewichte sind öffentlich verfügbar unter https://huggingface.co/Skywork/Skywork-UniPic-1.5B.
Die Erzeugung kontrollierbarer ultra-langer Videos ist eine grundlegende, jedoch herausfordernde Aufgabe. Obwohl bestehende Methoden für kurze Clips effektiv sind, stoßen sie bei der Skalierung aufgrund von Problemen wie zeitlicher Inkonsistenz und visueller Verschlechterung an ihre Grenzen. In dieser Arbeit untersuchen und identifizieren wir zunächst drei Schlüsselfaktoren: separate Rauschinitialisierung, unabhängige Normalisierung von Steuersignalen und die Beschränkungen der Einzelmodalitätsführung. Um diese Probleme zu adressieren, schlagen wir LongVie vor, ein end-to-end autoregressives Framework für die kontrollierte Erzeugung langer Videos. LongVie führt zwei Kernentwürfe ein, um zeitliche Konsistenz zu gewährleisten: 1) eine einheitliche Rauschinitialisierungsstrategie, die eine konsistente Erzeugung über Clips hinweg sicherstellt, und 2) eine globale Normalisierung von Steuersignalen, die eine Ausrichtung im Steuerraum über das gesamte Video hinweg erzwingt. Um visuelle Verschlechterung zu minimieren, verwendet LongVie 3) ein multimodales Steuerungsframework, das sowohl dichte (z. B. Tiefenkarten) als auch spärliche (z. B. Keypoints) Steuersignale integriert, ergänzt durch 4) eine verschlechterungsbewusste Trainingsstrategie, die die Beiträge der Modalitäten über die Zeit hinweg adaptiv ausgleicht, um die visuelle Qualität zu bewahren. Wir stellen außerdem LongVGenBench vor, einen umfassenden Benchmark, der aus 100 hochauflösenden Videos besteht, die vielfältige reale und synthetische Umgebungen abdecken und jeweils über eine Minute dauern. Umfangreiche Experimente zeigen, dass LongVie in Bezug auf Langstreckenkontrollierbarkeit, Konsistenz und Qualität state-of-the-art Leistung erzielt.
Die Überprüfung von Antworten ist nicht nur entscheidend für die Bewertung großer Sprachmodelle (LLMs), indem ihre unstrukturierten Ausgaben mit Standardantworten abgeglichen werden, sondern dient auch als Belohnungsmodell, um die Optimierung von LLMs zu steuern. Die meisten Bewertungsrahmenwerke verlassen sich auf regulierte Abgleiche oder setzen allgemeine LLMs für die Antwortüberprüfung ein, was umfangreiche, wiederholte Anpassungen von Regex-Regeln oder Bewertungsaufforderungen erfordert. Zwei grundlegende Einschränkungen bestehen in den derzeitigen Methodologien: 1) das Fehlen umfassender Benchmarks, die die Überprüfungsfähigkeiten verschiedener LLMs systematisch bewerten; und 2) das frühe Entwicklungsstadium von Verifizierern, bei dem bestehende Ansätze sowohl die Robustheit zur Handhabung komplexer Randfälle als auch die Generalisierbarkeit über verschiedene Domänen hinweg vermissen lassen. In dieser Arbeit entwickeln wir CompassVerifier, ein präzises und robustes, leichtgewichtiges Verifizierermodell für die Bewertung und Ergebnisbelohnung. Es zeigt Kompetenz in mehreren Domänen, darunter Mathematik, Wissen und diverse Denkaufgaben, mit der Fähigkeit, verschiedene Antworttypen zu verarbeiten, einschließlich mehrerer Teilprobleme, Formeln und Sequenzantworten, während es effektiv abnormale/ungültige Antworten identifiziert. Wir stellen den VerifierBench-Benchmark vor, der Modellausgaben aus mehreren Datenquellen umfasst und durch manuelle Analyse von Metafehlermustern erweitert wurde, um CompassVerifier zu verbessern. Wir erwarten, dass CompassVerifier und VerifierBench die Antwortüberprüfung, Bewertungsprotokolle und die Forschung im Bereich des verstärkenden Lernens erleichtern werden. Code und Datensatz sind unter https://github.com/open-compass/CompassVerifier verfügbar.
Die Lokalisierung von Problemen, also der Prozess der Identifizierung von Code-Stellen, die zur Behebung von Softwareproblemen modifiziert werden müssen, ist eine entscheidende, aber herausfordernde Aufgabe in der Softwareentwicklung. Die semantische Lücke zwischen natürlichen Sprachbeschreibungen von Problemen und fehlerhaftem Code erfordert komplexes Multi-Hop-Schlussfolgern über Code-Abhängigkeiten hinweg. Bestehende LLM-basierte Agenten versuchen dies durch die Integration von Repository-Retrieval-Tools zu bewältigen. Dies verwandelt jedoch die Problem-Lokalisierung in eine anspruchsvolle Aufgabe, die wir als Repo Deep Search bezeichnen und die es dem LLM abverlangt, verschiedene Repository-Retrieval-Tools effektiv in einem mehrstufigen Schlussfolgerungs- und Navigationsprozess zu nutzen. Um diese Herausforderung zu bewältigen, präsentieren wir ToolTrain, ein zweistufiges, tool-integriertes Trainingsframework, das abgelehnte, überwachte Feinabstimmung und tool-integriertes Reinforcement Learning kombiniert, um die Fähigkeit von LLMs zur Nutzung von Retrieval-Tools für die Problem-Lokalisierung zu verbessern. Experimentelle Ergebnisse zeigen, dass mit ToolTrain trainierte Modelle Spitzenleistungen erzielen, wobei unser 32B-Modell sogar Claude-3.7 bei der Lokalisierung auf Funktionsebene übertrifft. Die Ergebnisse zeigen auch, dass eine verbesserte Lokalisierungsleistung zu einer besseren End-to-End-Problemlösungsleistung führt. Dies verdeutlicht weiter, dass das Training für die Problem-Lokalisierung eine praktikable und effektive Strategie zur Verbesserung der automatisierten Softwareentwicklung ist.
Transformer haben bemerkenswerte Erfolge in den Bereichen Vision, Sprache und Video gezeigt. Doch die zunehmende Aufgabenkomplexität hat zu größeren Modellen und mehr Tokens geführt, was die quadratischen Kosten der Selbstaufmerksamkeit und den Overhead des GPU-Speicherzugriffs erhöht. Um die Rechenkosten der Selbstaufmerksamkeit zu reduzieren, haben frühere Arbeiten Token-Komprimierungstechniken vorgeschlagen, die redundante oder weniger informative Tokens entfernen. Gleichzeitig wurden fusionierte Aufmerksamkeitskerne wie FlashAttention entwickelt, um den Speicher-Overhead zu verringern, indem die Konstruktion von Aufmerksamkeitskarten und der damit verbundene I/O-Zugriff auf den HBM vermieden werden. Dies macht sie jedoch mit den meisten trainingsfreien Token-Komprimierungsmethoden inkompatibel, die auf Aufmerksamkeitskarten angewiesen sind, um die Token-Bedeutung zu bestimmen. Hier schlagen wir Representation Shift vor, ein trainingsfreies, modellunabhängiges Maß, das den Grad der Veränderung in der Repräsentation jedes Tokens misst. Dies ermöglicht eine nahtlose Integration der Token-Komprimierung mit FlashAttention, ohne Aufmerksamkeitskarten oder erneutes Training. Unsere Methode verallgemeinert sich über Transformer hinaus auf CNNs und State-Space-Modelle. Umfangreiche Experimente zeigen, dass Representation Shift eine effektive Token-Komprimierung ermöglicht, die mit FlashAttention kompatibel ist, und signifikante Beschleunigungen von bis zu 5,5 % und 4,4 % bei der Video-Text-Retrieval und Video-QA erzielt. Der Code ist verfügbar unter https://github.com/mlvlab/Representation-Shift.
Algorithmen für die approximative Suche nach nächsten Nachbarn (Approximate Nearest-Neighbor Search, ANNS) sind für aktuelle KI-Anwendungen zunehmend entscheidend geworden, insbesondere bei retrieval-augmentierter Generierung (Retrieval-Augmented Generation, RAG) und agentenbasierten LLM-Anwendungen. In diesem Artikel stellen wir CRINN vor, ein neues Paradigma für ANNS-Algorithmen. CRINN behandelt die ANNS-Optimierung als ein Reinforcement-Learning-Problem, bei dem die Ausführungsgeschwindigkeit als Belohnungssignal dient. Dieser Ansatz ermöglicht die automatische Generierung von zunehmend schnelleren ANNS-Implementierungen unter Beibehaltung von Genauigkeitsbeschränkungen. Unsere experimentelle Auswertung zeigt die Effektivität von CRINN anhand von sechs weit verbreiteten NNS-Benchmark-Datensätzen. Im Vergleich zu state-of-the-art Open-Source-ANNS-Algorithmen erzielt CRINN die beste Leistung bei drei von ihnen (GIST-960-Euklidisch, MNIST-784-Euklidisch und GloVe-25-winklig) und teilt sich den ersten Platz bei zwei weiteren (SIFT-128-Euklidisch und GloVe-25-winklig). Die Bedeutung des Erfolgs von CRINN geht weit über die ANNS-Optimierung hinaus: Es bestätigt, dass LLMs, die mit Reinforcement Learning erweitert wurden, als effektives Werkzeug zur Automatisierung anspruchsvoller algorithmischer Optimierungen dienen können, die spezialisiertes Wissen und arbeitsintensive manuelle Verfeinerung erfordern. Der Code ist unter https://github.com/deepreinforce-ai/CRINN verfügbar.
Mit der rasanten Entwicklung des Model Context Protocol (MCP) hat die Anzahl der MCP-Server die Marke von 10.000 überschritten. Allerdings beschränken sich bestehende MCP-Benchmarks auf Einzelserver-Umgebungen mit nur wenigen Tools, was eine effektive Bewertung der Fähigkeiten von Agenten in groß angelegten, realen Szenarien behindert. Um diese Einschränkung zu überwinden, präsentieren wir LiveMCPBench, den ersten umfassenden Benchmark, der 95 reale Aufgaben im MCP-Ökosystem umfasst und darauf abzielt, LLM-Agenten in großem Maßstab über verschiedene Server hinweg zu evaluieren. Um eine skalierbare und reproduzierbare Evaluationspipeline in groß angelegten MCP-Umgebungen zu unterstützen, haben wir LiveMCPTool kuratiert, eine vielfältige und leicht einsetzbare Sammlung von 70 MCP-Servern und 527 Tools. Darüber hinaus führen wir LiveMCPEval ein, ein LLM-as-a-Judge-Framework, das eine automatisierte und adaptive Bewertung in dynamischen, zeitlich variierenden Aufgabenumgebungen ermöglicht und dabei eine Übereinstimmung von 81 % mit menschlichen Gutachtern erreicht. Schließlich schlagen wir den MCP Copilot Agent vor, einen mehrstufigen Agenten, der Tools für die dynamische Planung weiterleitet und Tools für die API-Interaktion über die gesamte LiveMCPTool-Suite hinweg ausführt. Unsere Evaluation umfasst 10 führende Modelle, wobei das leistungsstärkste Modell (Claude-Sonnet-4) eine Erfolgsquote von 78,95 % erreicht. Allerdings beobachten wir eine große Leistungsvarianz zwischen den Modellen, und mehrere weit verbreitete Modelle schneiden in den komplexen, toolreichen Umgebungen von LiveMCPBench schlecht ab. Insgesamt bietet LiveMCPBench den ersten einheitlichen Rahmen für das Benchmarking von LLM-Agenten in realistischen, toolreichen und dynamischen MCP-Umgebungen und legt damit eine solide Grundlage für skalierbare und reproduzierbare Forschung zu den Fähigkeiten von Agenten. Unser Code und unsere Daten werden öffentlich unter https://icip-cas.github.io/LiveMCPBench verfügbar sein.
Wir untersuchen drei Strategien zur Verbesserung der Leistung bei einer Vielzahl von Bildbearbeitungsaufgaben: überwachtes Feinabstimmen (Supervised Fine-Tuning, SFT), Verstärkungslernen (Reinforcement Learning, RL) und Chain-of-Thought (CoT)-Argumentation. Um all diese Komponenten in einem konsistenten Rahmen zu untersuchen, verwenden wir ein autoregressives multimodales Modell, das textuelle und visuelle Token auf einheitliche Weise verarbeitet. Wir stellen fest, dass RL in Kombination mit einem großen multimodalen LLM-Verifizierer die effektivste dieser Strategien ist. Als Ergebnis präsentieren wir EARL: Editing with Autoregression and RL, ein leistungsstarkes RL-basiertes Bildbearbeitungsmodell, das bei einer Vielzahl von Bearbeitungen im Vergleich zu starken Baselines wettbewerbsfähig abschneidet, obwohl es deutlich weniger Trainingsdaten verwendet. Somit erweitert EARL die Grenzen autoregressiver multimodaler Modelle in der Bildbearbeitung. Wir veröffentlichen unseren Code, die Trainingsdaten und die trainierten Modelle unter https://github.com/mair-lab/EARL.
Wir stellen Goedel-Prover-V2 vor, eine Reihe von Open-Source-Sprachmodellen, die einen neuen State-of-the-Art im automatisierten Theorembeweis setzen. Basierend auf der Standard-Pipeline für Experteniteration und Reinforcement Learning integriert unser Ansatz drei Schlüsselinnovationen: (1) Gestufte Datensynthese: Wir generieren synthetische Aufgaben mit steigendem Schwierigkeitsgrad, um das Modell darauf zu trainieren, zunehmend komplexe Theoreme zu beherrschen; (2) Verifizierer-gesteuerte Selbstkorrektur: Wir ermöglichen es dem Modell, seine Beweise iterativ zu überarbeiten, indem es Feedback vom Lean-Compiler nutzt; (3) Modellmittelung: Wir kombinieren Modell-Checkpoints, um den Rückgang der Modellausgabevielfalt in späteren Trainingsphasen zu mildern. Unser kleines Modell, Goedel-Prover-V2-8B, erreicht 84,6 % pass@32 auf MiniF2F und übertrifft DeepSeek-Prover-V2-671B unter demselben Maßstab, obwohl es 80-mal kleiner ist. Unser Flaggschiffmodell, Goedel-Prover-V2-32B, erzielt 88,1 % auf MiniF2F bei pass@32 im Standardmodus und 90,4 % im Selbstkorrekturmodus, womit es den bisherigen SOTA deutlich übertrifft. Zudem löst unser Flaggschiffmodell 86 Probleme auf PutnamBench bei pass@184 und sichert sich damit den ersten Platz unter den Open-Source-Modellen auf der Bestenliste, wobei es den Rekord von DeepSeek-Prover-V2-671B von 47 gelösten Problemen bei pass@1024 mit einem deutlich kleineren Modell und geringerem Rechenbudget übertrifft. Zum Zeitpunkt seiner Veröffentlichung (Juli-August 2025) erreicht Goedel-Prover-V2 die insgesamt beste Leistung unter allen Open-Source-Theorembeweisern. Es zählt auch zu den leistungsstärksten Modellen – einschließlich Closed-Source-Systemen mit öffentlich berichteter Leistung – unter einem begrenzten Testzeit-Rechenbudget. Unsere Modelle, der Code und die Daten werden unter https://github.com/Goedel-LM/Goedel-Prover-V2 veröffentlicht.
Bisherige Studien zur Generierung von sprechenden Videos konzentrierten sich hauptsächlich auf Einzelpersonen-Monologe oder isolierte Gesichtsanimationen, was ihre Anwendbarkeit auf realistische Interaktionen zwischen mehreren Personen einschränkt. Um diese Lücke zu schließen, stellen wir MIT vor, einen groß angelegten Datensatz, der speziell für die Generierung von Videos mit mehreren sprechenden Personen entwickelt wurde. Zu diesem Zweck haben wir eine automatische Pipeline entwickelt, die Videos von Mehrpersonen-Gesprächen sammelt und annotiert. Der daraus resultierende Datensatz umfasst 12 Stunden hochauflösendes Filmmaterial, das jeweils zwei bis vier Sprecher zeigt, mit detaillierten Annotationen von Körperhaltungen und Sprechinteraktionen. Er erfasst die natürliche Dynamik von Gesprächen in Mehrsprecher-Szenarien und bietet eine umfangreiche Ressource für die Erforschung interaktiver visueller Verhaltensweisen. Um das Potenzial von MIT zu demonstrieren, schlagen wir weiterhin CovOG vor, ein Basismodell für diese neuartige Aufgabe. Es integriert einen Multi-Human Pose Encoder (MPE), der die unterschiedliche Anzahl von Sprechern durch die Aggregation individueller Pose-Embeddings handhabt, und einen Interactive Audio Driver (IAD), der die Kopfdynamik basierend auf sprecherspezifischen Audio-Features moduliert. Zusammen zeigen diese Komponenten die Machbarkeit und die Herausforderungen bei der Generierung realistischer Videos mit mehreren sprechenden Personen auf und etablieren MIT als wertvollen Benchmark für zukünftige Forschungen. Der Code ist verfügbar unter: https://github.com/showlab/Multi-human-Talking-Video-Dataset.
Bei der kontrollierbaren Bildsynthese bleibt die Erzeugung kohärenter und konsistenter Bilder aus mehreren Referenzen mit räumlichem Layoutbewusstsein eine offene Herausforderung. Wir präsentieren LAMIC, ein Layout-Aware Multi-Image Composition Framework, das erstmals Einzelreferenz-Diffusionsmodelle auf Mehrfachreferenzszenarien in einem trainingsfreien Ansatz erweitert. Basierend auf dem MMDiT-Modell führt LAMIC zwei Plug-and-Play-Aufmerksamkeitsmechanismen ein: 1) Group Isolation Attention (GIA), um die Entflechtung von Entitäten zu verbessern; und 2) Region-Modulated Attention (RMA), um eine layoutbewusste Generierung zu ermöglichen. Um die Modellfähigkeiten umfassend zu bewerten, führen wir drei Metriken ein: 1) Inclusion Ratio (IN-R) und Fill Ratio (FI-R) zur Bewertung der Layoutkontrolle; und 2) Background Similarity (BG-S) zur Messung der Hintergrundkonsistenz. Umfangreiche Experimente zeigen, dass LAMIC in den meisten wichtigen Metriken state-of-the-art Leistungen erzielt: Es übertrifft bestehende Mehrfachreferenz-Baselines konsistent in den ID-S-, BG-S-, IN-R- und AVG-Werten in allen Szenarien und erreicht den besten DPG in komplexen Kompositionsaufgaben. Diese Ergebnisse demonstrieren die überlegenen Fähigkeiten von LAMIC in Bezug auf Identitätserhaltung, Hintergrundbewahrung, Layoutkontrolle und Prompt-Befolgung, alles ohne jegliches Training oder Feinabstimmung, was eine starke Zero-Shot-Generalisierungsfähigkeit zeigt. Durch die Übernahme der Stärken fortschrittlicher Einzelreferenzmodelle und die nahtlose Erweiterung auf Mehrbildszenarien etabliert LAMIC ein neues trainingsfreies Paradigma für die kontrollierbare Mehrbildkomposition. Da sich Basismodelle weiterentwickeln, wird erwartet, dass die Leistung von LAMIC entsprechend skaliert. Unsere Implementierung ist verfügbar unter: https://github.com/Suchenl/LAMIC.
Das Erstellen präziser, informativer und halluzinationsfreier Beschriftungen für Diagramme bleibt für visuelle Sprachmodelle eine Herausforderung, hauptsächlich aufgrund des Mangels an groß angelegten, hochwertigen Datensätzen mit realen Diagrammen. Bestehende Datensätze realer Diagramme leiden jedoch unter der Einbeziehung von irrelevanten Informationen, die nicht aus dem Diagramm abgeleitet werden können, sowie unter der unzureichenden Erfassung struktureller Elemente und zentraler Erkenntnisse. Daher stellen wir ChartCap vor, einen groß angelegten Datensatz mit 565.000 realen Diagrammbildern, die mit typspezifischen, detaillierten Beschriftungen versehen sind, die irrelevante Informationen ausschließen und sowohl strukturelle Elemente als auch zentrale Erkenntnisse detailliert hervorheben. Um ChartCap zu erstellen, haben wir einen vierstufigen Prozess entwickelt, der Beschriftungen ausschließlich auf der Grundlage der erkennbaren Daten aus dem Diagramm generiert, und eine zyklusbasierte menschliche Überprüfung eingesetzt, die die Qualitätskontrolle beschleunigt, ohne die Genauigkeit zu beeinträchtigen. Zusätzlich schlagen wir eine neue Metrik vor, den Visual Consistency Score, der die Qualität von Beschriftungen bewertet, indem er die Ähnlichkeit zwischen dem aus einer Beschriftung rekonstruierten Diagramm und dem Originaldiagramm misst, unabhängig von Referenzbeschriftungen. Umfangreiche Experimente bestätigen, dass Modelle, die auf ChartCap feinabgestimmt wurden, durchweg präzisere und informativere Beschriftungen mit reduzierten Halluzinationen generieren und sowohl Open-Source- als auch proprietäre Modelle sowie sogar von Menschen annotierte Beschriftungen übertreffen.
Jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) haben eine reichere perzeptive Verankerung für die Generierung von Codepolicies in verkörperten Agenten ermöglicht. Die meisten bestehenden Systeme verfügen jedoch nicht über effektive Mechanismen, um die Policy-Ausführung adaptiv zu überwachen und Codes während der Aufgabenbearbeitung zu reparieren. In dieser Arbeit stellen wir HyCodePolicy vor, ein hybrides sprachbasiertes Steuerungsframework, das Code-Synthese, geometrische Verankerung, perzeptive Überwachung und iterative Reparatur systematisch in einen geschlossenen Programmierzyklus für verkörperte Agenten integriert. Technisch gesehen zerlegt unser System bei einer natürlichen Sprachanweisung diese zunächst in Teilziele und generiert ein initiales ausführbares Programm, das in objektzentrierten geometrischen Primitiven verankert ist. Das Programm wird dann in einer Simulation ausgeführt, während ein Vision-Language-Modell (VLM) ausgewählte Kontrollpunkte beobachtet, um Ausführungsfehler zu erkennen und zu lokalisieren sowie Fehlergründe abzuleiten. Durch die Fusion strukturierter Ausführungsspuren, die programmbezogene Ereignisse erfassen, mit VLM-basiertem perzeptivem Feedback, leitet HyCodePolicy Fehlerursachen ab und repariert Programme. Dieser hybride duale Feedback-Mechanismus ermöglicht eine selbstkorrigierende Programmsynthese mit minimaler menschlicher Aufsicht. Unsere Ergebnisse zeigen, dass HyCodePolicy die Robustheit und Stichprobeneffizienz von Roboter-Manipulationspolicies signifikant verbessert und eine skalierbare Strategie für die Integration multimodaler Argumentation in autonome Entscheidungsprozesse bietet.
Online-Marktplätze werden durch autonome KI-Agenten, die im Namen der Verbraucher handeln, transformiert werden. Anstatt dass Menschen durch Seiten browsen und klicken, können Vision-Language-Model (VLM)-Agenten Webseiten analysieren, Produkte bewerten und Transaktionen durchführen. Dies wirft eine grundlegende Frage auf: Was kaufen KI-Agenten und warum? Wir entwickeln ACES, eine Sandbox-Umgebung, die einen plattformunabhängigen VLM-Agenten mit einem vollständig programmierbaren Mock-Marktplatz kombiniert, um diese Frage zu untersuchen. Zunächst führen wir grundlegende Rationalitätsprüfungen im Kontext einfacher Aufgaben durch und erhalten dann durch die Randomisierung von Produktpositionen, Preisen, Bewertungen, Rezensionen, gesponserten Tags und Plattformempfehlungen kausale Schätzungen, wie fortschrittliche VLMs tatsächlich einkaufen. Modelle zeigen starke, aber heterogene Positionseffekte: Alle bevorzugen die oberste Reihe, doch verschiedene Modelle bevorzugen unterschiedliche Spalten, was die Annahme eines universellen „Top“-Rangs untergräbt. Sie bestrafen gesponserte Tags und belohnen Empfehlungen. Die Sensitivitäten gegenüber Preis, Bewertungen und Rezensionen sind in der Richtung menschenähnlich, variieren jedoch stark in der Größenordnung zwischen den Modellen. Motiviert durch Szenarien, in denen Verkäufer KI-Agenten zur Optimierung von Produktlisten verwenden, zeigen wir, dass ein verkäuferseitiger Agent, der geringfügige Anpassungen an Produktbeschreibungen vornimmt und die Präferenzen von KI-Käufern anzielt, erhebliche Marktanteilsgewinne erzielen kann, wenn KI-vermitteltes Einkaufen dominiert. Wir stellen auch fest, dass die modalen Produktauswahlmöglichkeiten zwischen den Modellen variieren können und in einigen Fällen die Nachfrage auf einige wenige ausgewählte Produkte konzentriert sein kann, was Wettbewerbsfragen aufwirft. Zusammen beleuchten unsere Ergebnisse, wie sich KI-Agenten in E-Commerce-Szenarien verhalten können, und werfen konkrete Fragen zu Verkäuferstrategien, Plattformdesign und Regulierung in einem KI-vermittelten Ökosystem auf.
Die egozentrische Erzeugung und Vorhersage menschlicher Bewegungen mit Szenenkontext ist entscheidend für die Verbesserung von AR/VR-Erlebnissen, die Optimierung der Mensch-Roboter-Interaktion, die Weiterentwicklung assistiver Technologien und die Ermöglichung adaptiver Gesundheitslösungen durch die präzise Vorhersage und Simulation von Bewegungen aus der Ego-Perspektive. Bisherige Methoden konzentrieren sich jedoch hauptsächlich auf die Synthese von Bewegungen aus der Dritt-Person-Perspektive mit strukturierten 3D-Szenenkontexten, was ihre Effektivität in realen egozentrischen Umgebungen einschränkt, in denen ein begrenztes Sichtfeld, häufige Verdeckungen und dynamische Kameras die Szenenwahrnehmung erschweren. Um diese Lücke zu schließen, führen wir die Aufgaben Egocentric Motion Generation und Egocentric Motion Forecasting ein, zwei neuartige Ansätze, die Ego-Perspektiv-Bilder für die szenenbewusste Bewegungssynthese nutzen, ohne auf explizite 3D-Szenen angewiesen zu sein. Wir präsentieren UniEgoMotion, ein einheitliches bedingtes Bewegungsdiffusionsmodell mit einer neuartigen kopfzentrierten Bewegungsdarstellung, die speziell für egozentrische Geräte entwickelt wurde. Das einfache, aber effektive Design von UniEgoMotion unterstützt die egozentrische Bewegungsrekonstruktion, -vorhersage und -erzeugung aus visuellen Ego-Perspektiv-Eingaben in einem einheitlichen Framework. Im Gegensatz zu früheren Arbeiten, die die Szenensemantik vernachlässigen, extrahiert unser Modell effektiv bildbasierte Szenenkontexte, um plausible 3D-Bewegungen abzuleiten. Um das Training zu erleichtern, stellen wir EE4D-Motion vor, einen groß angelegten Datensatz, der aus EgoExo4D abgeleitet und mit pseudo-Ground-Truth-3D-Bewegungsannotationen angereichert wurde. UniEgoMotion erreicht state-of-the-art Leistungen in der egozentrischen Bewegungsrekonstruktion und ist das erste Modell, das Bewegungen aus einem einzigen egozentrischen Bild erzeugt. Umfangreiche Evaluierungen demonstrieren die Effektivität unseres einheitlichen Frameworks und setzen einen neuen Maßstab für die egozentrische Bewegungsmodellierung, wodurch neue Möglichkeiten für egozentrische Anwendungen eröffnet werden.
Text-Video Retrieval zielt darauf ab, den relevantesten Text- (oder Video-) Kandidaten basierend auf einer Video- (oder Text-) Anfrage aus großen Online-Datenbanken zu finden. Aktuelle Arbeiten nutzen multimodale große Sprachmodelle (MLLMs), um die Retrieval-Leistung zu verbessern, insbesondere bei langen oder komplexen Anfrage-Kandidaten-Paaren. Wir beobachten jedoch, dass die naive Anwendung von MLLMs, d.h. das Retrieval basierend auf der Kandidatenwahrscheinlichkeit, eine Verzerrung durch die Kandidatenpriorität einführt, wodurch Kandidaten mit inhärent höheren Prioritäten gegenüber solchen, die relevanter für die Anfrage sind, bevorzugt werden. Daher schlagen wir ein neuartiges Retrieval-Framework vor, Bidirectional Likelihood Estimation with MLLM (BLiM), das sowohl die Anfrage- als auch die Kandidatenwahrscheinlichkeit nutzt, indem das Modell trainiert wird, Text aus einem gegebenen Video sowie Videomerkmale aus einem gegebenen Text zu generieren. Darüber hinaus führen wir Candidate Prior Normalization (CPN) ein, ein einfaches, aber effektives, trainingsfreies Score-Kalibrierungsmodul, das entwickelt wurde, um die Verzerrung durch die Kandidatenpriorität in der Kandidatenwahrscheinlichkeit zu mildern. Auf vier Text-Video Retrieval Benchmarks übertrifft unser mit CPN ausgestattetes BLiM frühere State-of-the-Art-Modelle im Durchschnitt um 6,4 R@1, wodurch die Verzerrung durch die Kandidatenpriorität effektiv gemildert und die Relevanz zwischen Anfrage und Kandidat betont wird. Unsere detaillierte Analyse über verschiedene multimodale Aufgaben hinaus zeigt die breite Anwendbarkeit von CPN, das das visuelle Verständnis verbessert, indem es die Abhängigkeit von textuellen Prioritäten reduziert. Der Code ist verfügbar unter https://github.com/mlvlab/BLiM.
Langkontext-große Sprachmodelle (LLMs), wie Gemini-2.5-Pro und Claude-Sonnet-4, werden zunehmend eingesetzt, um fortschrittliche KI-Systeme zu stärken, einschließlich Retrieval-Augmented-Generation (RAG)-Pipelines und autonomer Agenten. In diesen Systemen erhält ein LLM eine Anweisung zusammen mit einem Kontext – oft bestehend aus Texten, die aus einer Wissensdatenbank oder einem Speicher abgerufen wurden – und generiert eine Antwort, die kontextuell fundiert ist, indem die Anweisung befolgt wird. Aktuelle Studien haben Lösungen entwickelt, um auf eine Teilmenge der Texte im Kontext zurückzugreifen, die am meisten zur vom LLM generierten Antwort beitragen. Diese Lösungen haben zahlreiche praktische Anwendungen, einschließlich der Durchführung von forensischen Analysen nach Angriffen und der Verbesserung der Interpretierbarkeit und Vertrauenswürdigkeit von LLM-Ausgaben. Obwohl erhebliche Anstrengungen unternommen wurden, führen state-of-the-art Lösungen wie TracLLM oft zu hohen Berechnungskosten, z.B. benötigt TracLLM Hunderte von Sekunden, um eine Rückverfolgung für ein einzelnes Antwort-Kontext-Paar durchzuführen. In dieser Arbeit schlagen wir AttnTrace vor, eine neue Methode zur Kontextrückverfolgung, die auf den Aufmerksamkeitsgewichten basiert, die ein LLM für einen Prompt erzeugt. Um Aufmerksamkeitsgewichte effektiv zu nutzen, führen wir zwei Techniken ein, die darauf abzielen, die Wirksamkeit von AttnTrace zu verbessern, und wir liefern theoretische Einblicke für unsere Designentscheidung. Wir führen auch eine systematische Bewertung für AttnTrace durch. Die Ergebnisse zeigen, dass AttnTrace genauer und effizienter ist als bestehende state-of-the-art Methoden zur Kontextrückverfolgung. Wir zeigen auch, dass AttnTrace state-of-the-art Methoden bei der Erkennung von Prompt-Injection unter langen Kontexten durch das Attribution-before-Detection-Paradigma verbessern kann. Als praktische Anwendung demonstrieren wir, dass AttnTrace effektiv injizierte Anweisungen in einem Papier identifizieren kann, das darauf abzielt, LLM-generierte Bewertungen zu manipulieren. Der Code ist unter https://github.com/Wang-Yanting/AttnTrace verfügbar.
Low-Rank-Adaptation (LoRA) hat sich zu einem Standardwerkzeug für die effiziente Feinabstimmung großer Sprachmodelle (LLMs) entwickelt. Doch selbst geringfügige LoRA-Updates können eine Ausrichtungsdrift verursachen, die Sicherheits- und Verhaltensbeschränkungen durch verflochtene Parameteränderungen schwächt. Um dies zu adressieren, schlagen wir AlignGuard-LoRA (AGL) vor, ein prinzipielles Framework zur Bewahrung der Ausrichtung während der Feinabstimmung. AGL führt mehrere Schlüsselkomponenten ein: einen primären Aufgabenverlust zur Überwachung, eine Regularisierung basierend auf der Fisher-Informationsmatrix, um Updates in ausrichtungsempfindlichen Unterräumen einzuschränken, und aufgaben spezifische Regularisierung, um die Integration neuen Wissens zu stabilisieren. Weiterhin führen wir kollisionsbewusste Regularisierung ein, die Riemannsche Überlappung – welche koordinatenweise Interferenzen bestraft – und geodätische Trennung – welche disjunkte Update-Geometrie fördert – kombiniert. Wir stellen DriftCaps vor, einen gezielten diagnostischen Benchmark aus sicheren und unsicheren Prompts, der entwickelt wurde, um Ausrichtungsdrift und Sicherheitsverschlechterung zu quantifizieren. Empirische Auswertungen zeigen, dass AGL die Ausrichtungsdrift auf sicherheitskritischen Benchmarks um bis zu 50 % reduziert, ohne die Leistung bei nachgelagerten Aufgaben zu beeinträchtigen. Umfassende Ablation bestätigt, dass jede Komponente eindeutig zur Bewahrung latenter Sicherheitsverhaltensweisen beiträgt. Schließlich leiten wir ein Skalierungsgesetz für katastrophales Vergessen ab und validieren es, das zeigt, dass AGL den Anstieg des Verlusts nach der Feinabstimmung abflacht, während die Anpassungsdynamik erhalten bleibt. AGL ist eine strukturell fundierte Verfeinerung von LoRA, die die Bewahrung der Ausrichtung mit minimalen Kompromissen sicherstellt. Um weitere Erkundungen und Entwicklungen zu fördern, stellen wir unsere Implementierung als Open-Source zur Verfügung.
Die Token-Level-Code-Vervollständigung ist eine der wichtigsten Funktionen in modernen Integrierten Entwicklungsumgebungen (IDEs). Sie unterstützt Entwickler, indem sie relevante Bezeichner und APIs während des Programmierens vorschlägt. Obwohl Vervollständigungen typischerweise aus statischen Analysen abgeleitet werden, hängt ihre Nützlichkeit stark davon ab, wie sie gerankt werden, da korrekte Vorhersagen, die tief in der Liste verborgen sind, selten von Nutzern gesehen werden. Die meisten aktuellen Systeme verlassen sich auf handgefertigte Heuristiken oder leichtgewichtige maschinelle Lernmodelle, die auf Benutzerprotokollen trainiert wurden. Diese können weiter verbessert werden, um Kontextinformationen zu erfassen und sich über Projekte und Programmierstile hinweg zu verallgemeinern. In dieser Arbeit schlagen wir einen neuen Bewertungsansatz vor, um statische Vervollständigungen mithilfe von Sprachmodellen auf eine leichtgewichtige und modellunabhängige Weise zu ranken. Unsere Methode organisiert alle gültigen Vervollständigungen in einen Präfixbaum und führt einen einzigen gierigen Dekodierungsdurchlauf durch, um Token-Level-Bewertungen über den Baum hinweg zu sammeln. Dies ermöglicht ein präzises, tokenbewusstes Ranking ohne die Notwendigkeit von Beam Search, Prompt Engineering oder Modellanpassungen. Der Ansatz ist schnell, architekturunabhängig und kompatibel mit bereits eingesetzten Modellen für die Code-Vervollständigung. Diese Ergebnisse zeigen einen praktischen und effektiven Weg auf, um Sprachmodelle in bereits vorhandene Tools innerhalb von IDEs zu integrieren und letztendlich intelligentere und reaktionsschnellere Entwicklerunterstützung zu bieten.
Große Sprachmodelle (LLMs), die feinabgestimmt wurden, um menschliche Werte zu berücksichtigen, zeigen oft eine Abweichung in der Ausrichtung (Alignment Drift), was zu unsicheren oder richtlinienverletzenden Vervollständigungen führt, wenn sie mit adversarischen Eingabeaufforderungen, Dekodierungsstörungen oder umformulierten Jailbreaks konfrontiert werden. Während frühere Arbeiten das Scheitern der Ausrichtung verhaltensbezogen charakterisiert haben, ist wenig über die Quellen der Überzeugungen während des Trainings bekannt, die diesen Fehlern zugrunde liegen. Wir stellen TraceAlign vor, ein einheitliches Framework, um unsichere Vervollständigungen auf ihre Ursachen im Trainingskorpus des Modells zurückzuverfolgen. Kern unseres Ansatzes ist der Belief Conflict Index (BCI), der semantische Inkonsistenzen zwischen generierten Textabschnitten und ausgerichteten Richtlinien quantifiziert, basierend auf abgerufenen Trainingsdokumenten unter Verwendung von Suffix-Array-Matching. Wir schlagen drei komplementäre Interventionen vor: (i) TraceShield, ein Sicherheitsfilter zur Inferenzzeit, der Vervollständigungen mit hohen BCI-Werten ablehnt, (ii) Contrastive Belief Deconfliction Loss, ein kontrastives Feinabstimmungsziel, das Fortsetzungen mit hohen BCI-Werten während des DPO bestraft, und (iii) Prov-Decode, eine herkunftsbewusste Dekodierungsstrategie, die Strahlausweitungen ablehnt, von denen vorhergesagt wird, dass sie hohe BCI-Werte erzeugen. Zusammen reduzieren diese Abwehrmaßnahmen die Ausrichtungsabweichung um bis zu 85 % auf unserem kuratierten Alignment Drift Benchmark (ADB), während die Nützlichkeit bei Standardaufgaben erhalten bleibt, mit einer Delta von weniger als 0,2 und verbesserter Ablehnungsqualität. Wir leiten weiterhin eine theoretische Obergrenze für die Wahrscheinlichkeit einer Abweichung über Suffix-Array-Textabschnittsstatistiken ab, die Häufigkeit und Länge der Speicherung mit dem Risiko der adversarischen Reaktivierung verknüpft. TraceAlign bietet somit das erste skalierbare, nachvollziehbare und fundierte Toolkit zum Verständnis und zur Minderung von Ausrichtungsfehlern an der Quelle. Um weitere Erkundungen und Entwicklungen zu fördern, stellen wir unsere Implementierung als Open Source zur Verfügung unter: https://anonymous.4open.science/r/tracealign-2DA7