papers.description
Wir präsentieren Qwen3-Omni, ein multimodales Modell, das erstmals eine state-of-the-art Leistung über Text, Bild, Audio und Video hinweg ohne jegliche Einbußen im Vergleich zu einmodalen Gegenstücken aufrechterhält. Qwen3-Omni erreicht die Leistung gleich großer einmodaler Modelle innerhalb der Qwen-Serie und überzeugt insbesondere bei Audio-Aufgaben. Über 36 Audio- und audiovisuelle Benchmarks hinweg erzielt Qwen3-Omni auf 32 Benchmarks den Open-Source-SOTA und auf insgesamt 22 den allgemeinen SOTA, wobei es starke Closed-Source-Modelle wie Gemini-2.5-Pro, Seed-ASR und GPT-4o-Transcribe übertrifft. Qwen3-Omni nutzt eine Thinker-Talker-MoE-Architektur, die Wahrnehmung und Erzeugung über Text, Bilder, Audio und Video vereint und fließenden Text sowie natürliche Echtzeit-Sprache ermöglicht. Es unterstützt Textinteraktion in 119 Sprachen, Spracherkennung in 19 Sprachen und Sprachgenerierung in 10 Sprachen. Um die First-Packet-Latenz bei der Streaming-Synthese zu reduzieren, sagt Talker diskrete Sprachcodecs autoregressiv unter Verwendung eines Multi-Codebook-Schemas voraus. Durch die Nutzung der Repräsentationsfähigkeit dieser Codebooks ersetzen wir rechenintensive blockweise Diffusion durch ein leichtgewichtiges kausales ConvNet, was Streaming ab dem ersten Codec-Frame ermöglicht. In Cold-Start-Szenarien erreicht Qwen3-Omni eine theoretische End-to-End-First-Packet-Latenz von 234 ms. Um das multimodale Denken weiter zu stärken, führen wir ein Thinking-Modell ein, das explizit über Eingaben aus beliebigen Modalitäten schlussfolgert. Da der Forschungsgemeinschaft derzeit ein allgemeiner Audio-Beschreibungsmodell fehlt, haben wir Qwen3-Omni-30B-A3B feinabgestimmt, um Qwen3-Omni-30B-A3B-Captioner zu erhalten, das detaillierte, halluzinationsarme Beschreibungen für beliebige Audioeingaben liefert. Qwen3-Omni-30B-A3B, Qwen3-Omni-30B-A3B-Thinking und Qwen3-Omni-30B-A3B-Captioner werden unter der Apache-2.0-Lizenz öffentlich zugänglich gemacht.
Wir definieren Agency als die emergente Fähigkeit von KI-Systemen, als autonome Agenten zu fungieren, die aktiv Probleme entdecken, Hypothesen formulieren und Lösungen durch selbstgesteuertes Engagement mit Umgebungen und Werkzeugen ausführen. Diese grundlegende Fähigkeit markiert den Beginn des Zeitalters der KI-Agency, angetrieben durch einen kritischen Branchenwandel: den dringenden Bedarf an KI-Systemen, die nicht nur denken, sondern auch arbeiten. Während aktuelle KI in der Argumentation und der Generierung von Antworten hervorragt ist, fordern Branchen autonome Agenten, die Aufgaben ausführen, Werkzeuge bedienen und reale Ergebnisse erzielen können. Da agentische Intelligenz zum entscheidenden Merkmal wird, das kognitive Systeme von produktiven Arbeitskräften trennt, wird die effiziente Entwicklung von Maschinenautonomie von größter Bedeutung. Aktuelle Ansätze gehen davon aus, dass mehr Daten zu besserer Agency führen, gemäß den traditionellen Skalierungsgesetzen des Sprachmodellierens. Wir stellen dieses Paradigma grundlegend in Frage. LIMI (Less Is More for Intelligent Agency) zeigt, dass Agency radikal anderen Entwicklungsprinzipien folgt. Durch strategische Konzentration auf kollaborative Softwareentwicklung und wissenschaftliche Forschungsabläufe demonstrieren wir, dass anspruchsvolle agentische Intelligenz aus minimalen, aber strategisch kuratierten Demonstrationen autonomen Verhaltens entstehen kann. Mit nur 78 sorgfältig gestalteten Trainingsbeispielen erreicht LIMI 73,5 % auf umfassenden Agency-Benchmarks und übertrifft damit die aktuellsten Modelle deutlich: Kimi-K2-Instruct (24,1 %), DeepSeek-V3.1 (11,9 %), Qwen3-235B-A22B-Instruct (27,5 %) und GLM-4.5 (45,1 %). Am bemerkenswertesten ist, dass LIMI eine Verbesserung von 53,7 % gegenüber Modellen zeigt, die mit 10.000 Beispielen trainiert wurden – und damit überlegene agentische Intelligenz mit 128-mal weniger Beispielen erreicht. Unsere Ergebnisse etablieren das Agency-Effizienz-Prinzip: Maschinenautonomie entsteht nicht aus Datenfülle, sondern aus der strategischen Kuratierung hochwertiger agentischer Demonstrationen.
Jüngste Fortschritte bei der Videoeinfügung basierend auf Diffusionsmodellen sind beeindruckend. Allerdings stützen sich bestehende Methoden auf komplexe Steuersignale, haben jedoch Schwierigkeiten mit der Subjektkonsistenz, was ihre praktische Anwendbarkeit einschränkt. In diesem Artikel konzentrieren wir uns auf die Aufgabe der maskenfreien Videoeinfügung und zielen darauf ab, drei zentrale Herausforderungen zu lösen: Datenknappheit, Subjekt-Szenen-Gleichgewicht und Einfügungsharmonisierung. Um die Datenknappheit zu bewältigen, schlagen wir eine neue Datenpipeline, InsertPipe, vor, die automatisch vielfältige Kreuzpaardaten konstruiert. Aufbauend auf unserer Datenpipeline entwickeln wir OmniInsert, ein neuartiges, einheitliches Framework für die maskenfreie Videoeinfügung sowohl aus einzelnen als auch aus mehreren Subjektreferenzen. Um das Subjekt-Szenen-Gleichgewicht zu erhalten, führen wir einen einfachen, aber effektiven Mechanismus zur bedingungsspezifischen Merkmalsinjektion ein, der Multi-Quellen-Bedingungen deutlich injiziert, und schlagen eine neuartige Progressive Trainingsstrategie vor, die es dem Modell ermöglicht, die Merkmalsinjektion von Subjekten und Quellvideo auszugleichen. Gleichzeitig entwerfen wir den Subjekt-Fokussierten Verlust, um das detaillierte Erscheinungsbild der Subjekte zu verbessern. Um die Einfügungsharmonisierung weiter zu verbessern, schlagen wir eine Einfügungs-Präferenz-Optimierungsmethodik vor, um das Modell durch die Simulation menschlicher Präferenzen zu optimieren, und integrieren ein Kontextbewusstes Umformulierungsmodul während der Referenz, um das Subjekt nahtlos in die ursprünglichen Szenen zu integrieren. Um den Mangel an einem Benchmark für das Feld zu beheben, führen wir InsertBench ein, einen umfassenden Benchmark, der vielfältige Szenen mit sorgfältig ausgewählten Subjekten umfasst. Die Auswertung auf InsertBench zeigt, dass OmniInsert state-of-the-art Closed-Source-Kommerziellösungen übertrifft. Der Code wird veröffentlicht.
Wir stellen Meta Agents Research Environments (ARE) vor, eine Forschungsplattform für die skalierbare Erstellung von Umgebungen, die Integration von synthetischen oder realen Anwendungen und die Ausführung von agentenbasierten Orchestrierungen. ARE bietet einfache Abstraktionen, um komplexe und vielfältige Umgebungen zu erstellen, die jeweils ihre eigenen Regeln, Werkzeuge, Inhalte und Verifizierer haben, wodurch die Lücke zwischen Modellentwicklung und realem Einsatz überbrückt wird. Wir schlagen außerdem Gaia2 vor, einen Benchmark, der in ARE entwickelt wurde und dazu dient, allgemeine Fähigkeiten von Agenten zu messen. Über die Suche und Ausführung hinaus erfordert Gaia2, dass Agenten mit Unklarheiten und Rauschen umgehen, sich an dynamische Umgebungen anpassen, mit anderen Agenten zusammenarbeiten und unter zeitlichen Einschränkungen operieren. Im Gegensatz zu früheren Benchmarks läuft Gaia2 asynchron und deckt neue Fehlermodi auf, die in statischen Umgebungen unsichtbar bleiben. Unsere Experimente zeigen, dass kein System über das gesamte Spektrum der Intelligenz hinweg dominiert: Stärkeres logisches Denken geht oft auf Kosten der Effizienz, und Budget-Skalierungskurven erreichen ein Plateau, was die Notwendigkeit neuer Architekturen und adaptiver Rechenstrategien unterstreicht. Vielleicht noch wichtiger ist, dass die Abstraktionen von ARE eine kontinuierliche Erweiterung von Gaia2 auf andere Umgebungen ermöglichen, wodurch die Gemeinschaft befähigt wird, schnell neue, auf ihre Domänen zugeschnittene Benchmarks zu erstellen. In der zweiten Hälfte der KI hängt der Fortschritt zunehmend davon ab, sinnvolle Aufgaben und robuste Bewertungen zu definieren, um die Fähigkeiten an der Grenze des Möglichen voranzutreiben.
Trotz des wachsenden Interesses an der Übertragung des skalierbaren Erfolgs großer Sprachmodelle (LLMs) auf industrielle Such- und Empfehlungssysteme, beschränken sich die meisten bestehenden industriellen Bemühungen weitgehend auf die Übernahme von Transformer-Architekturen, die nur inkrementelle Verbesserungen gegenüber leistungsstarken Deep Learning Recommendation Models (DLRMs) bringen. Aus einer grundlegenden Perspektive betrachtet, resultieren die Durchbrüche von LLMs nicht nur aus ihren Architekturen, sondern auch aus zwei komplementären Mechanismen: Kontextengineering, das rohe Eingabeanfragen mit kontextuellen Hinweisen anreichert, um die Fähigkeiten des Modells besser zu aktivieren, und mehrstufiges Reasoning, das die Modellausgaben iterativ durch Zwischenschritte verfeinert. Diese beiden Mechanismen und ihr Potenzial, erhebliche Verbesserungen zu erzielen, bleiben jedoch in industriellen Rankingsystemen weitgehend unerforscht. In diesem Artikel schlagen wir OnePiece vor, ein einheitliches Framework, das LLM-artiges Kontextengineering und Reasoning nahtlos in sowohl Retrieval- als auch Ranking-Modelle industrieller Kaskadenpipelines integriert. OnePiece basiert auf einer reinen Transformer-Architektur und führt drei wesentliche Innovationen ein: (1) strukturiertes Kontextengineering, das die Interaktionshistorie mit Präferenz- und Szenariosignalen anreichert und sie in eine strukturierte, tokenisierte Eingabesequenz für sowohl Retrieval als auch Ranking vereinheitlicht; (2) blockweises latentes Reasoning, das das Modell mit einer mehrstufigen Verfeinerung von Repräsentationen ausstattet und die Reasoning-Bandbreite über die Blockgröße skaliert; (3) progressives Multi-Task-Training, das Nutzerfeedbackketten nutzt, um die Reasoning-Schritte während des Trainings effektiv zu überwachen. OnePiece wurde im Hauptszenario der personalisierten Suche von Shopee eingesetzt und erzielt konsistente Online-Gewinne über verschiedene wichtige Geschäftskennzahlen hinweg, darunter über +2 % GMV/UU und eine Steigerung der Werbeeinnahmen um +2,90 %.
Dieses Paper stellt TempSamp-R1 vor, ein neues Framework zur Verfeinerung durch Verstärkungslernen, das darauf abzielt, die Effektivität der Anpassung multimodaler großer Sprachmodelle (MLLMs) an Aufgaben zur zeitlichen Verankerung in Videos zu verbessern. Wir zeigen, dass bestehende Methoden des Verstärkungslernens, wie die Group Relative Policy Optimization (GRPO), auf On-Policy-Sampling für Policy-Updates angewiesen sind. Bei Aufgaben mit großen zeitlichen Suchräumen erweist sich diese Strategie jedoch als ineffizient und leistungsbegrenzt, da sie häufig keine zeitlich präzisen Lösungen identifizieren kann. Um diese Einschränkung zu überwinden, nutzt TempSamp-R1 Ground-Truth-Annotationen als Off-Policy-Supervision, um zeitlich präzise Anleitungen zu bieten und so die Lücken und Fehlausrichtungen in On-Policy-Lösungen effektiv auszugleichen. Um das Training weiter zu stabilisieren und die Varianz bei belohnungsbasierten Updates zu reduzieren, bietet TempSamp-R1 eine nichtlineare Soft-Advantage-Berechnungsmethode, die die Belohnungsrückmeldung durch eine asymmetrische Transformation dynamisch anpasst. Durch den Einsatz eines hybriden Chain-of-Thought (CoT)-Trainingsparadigmas optimiert TempSamp-R1 ein einheitliches Modell, das sowohl CoT- als auch Nicht-CoT-Inferenzmodi unterstützt und so die effiziente Bearbeitung von Anfragen mit unterschiedlicher Komplexität ermöglicht. Experimentelle Ergebnisse zeigen, dass TempSamp-R1 GRPO-basierte Baselines übertrifft und neue Bestwerte auf Benchmark-Datensätzen erzielt: Charades-STA (R1@0.7: 52,9 %, +2,7 %), ActivityNet Captions (R1@0.5: 56,0 %, +5,3 %) und QVHighlights (mAP: 30,0 %, +3,0 %). Darüber hinaus zeigt TempSamp-R1 robuste Few-Shot-Generalisierungsfähigkeiten bei begrenzten Daten. Code: https://github.com/HVision-NKU/TempSamp-R1
In diesem Artikel stellen wir VideoFrom3D vor, ein neuartiges Framework zur Synthese hochwertiger 3D-Szenenvideos aus grober Geometrie, einer Kameratrajektorie und einem Referenzbild. Unser Ansatz vereinfacht den 3D-Grafikdesign-Workflow und ermöglicht flexible Designexploration sowie die schnelle Erstellung von Ergebnissen. Ein naheliegender Ansatz zur Videosynthese aus grober Geometrie könnte ein Video-Diffusionsmodell auf der geometrischen Struktur konditionieren. Bestehende Video-Diffusionsmodelle haben jedoch Schwierigkeiten, hochwertige Ergebnisse für komplexe Szenen zu erzeugen, da die gemeinsame Modellierung von visueller Qualität, Bewegung und zeitlicher Konsistenz eine Herausforderung darstellt. Um dies zu lösen, schlagen wir ein generatives Framework vor, das die komplementären Stärken von Bild- und Video-Diffusionsmodellen nutzt. Konkret besteht unser Framework aus einem Sparse Anchor-view Generation (SAG)-Modul und einem Geometry-guided Generative Inbetweening (GGI)-Modul. Das SAG-Modul erzeugt hochwertige, konsistente Ankeransichten mithilfe eines Bild-Diffusionsmodells, unterstützt durch Sparse Appearance-guided Sampling. Aufbauend auf diesen Ankeransichten interpoliert das GGI-Modul Zwischenbilder treu mithilfe eines Video-Diffusionsmodells, das durch flussbasierte Kamerasteuerung und strukturelle Führung verbessert wird. Bemerkenswerterweise arbeiten beide Module ohne ein gepaartes Datensatz von 3D-Szenenmodellen und natürlichen Bildern, der äußerst schwer zu beschaffen ist. Umfassende Experimente zeigen, dass unsere Methode hochwertige, stilkonstante Szenenvideos in diversen und anspruchsvollen Szenarien erzeugt und dabei einfache sowie erweiterte Baselines übertrifft.
Online Reinforcement Learning (RL) hat eine zentrale Rolle bei der Nachschulung von Sprachmodellen gespielt, doch seine Erweiterung auf Diffusionsmodelle bleibt aufgrund von intrakten Wahrscheinlichkeiten eine Herausforderung. Aktuelle Arbeiten diskretisieren den umgekehrten Sampling-Prozess, um GRPO-ähnliches Training zu ermöglichen, erben jedoch grundlegende Nachteile, darunter Solver-Einschränkungen, Vorwärts-Rückwärts-Inkonsistenz und eine komplizierte Integration mit Classifier-Free Guidance (CFG). Wir stellen Diffusion Negative-aware FineTuning (DiffusionNFT) vor, ein neues Online-RL-Paradigma, das Diffusionsmodelle direkt über den Vorwärtsprozess mittels Flow Matching optimiert. DiffusionNFT kontrastiert positive und negative Generierungen, um eine implizite Richtung der Politikverbesserung zu definieren, und integriert dabei auf natürliche Weise Verstärkungssignale in das überwachte Lernziel. Diese Formulierung ermöglicht das Training mit beliebigen Black-Box-Solvern, eliminiert die Notwendigkeit der Wahrscheinlichkeitsschätzung und erfordert lediglich saubere Bilder anstatt von Sampling-Trajektorien für die Politikoptimierung. DiffusionNFT ist in direkten Vergleichen bis zu 25-mal effizienter als FlowGRPO, während es CFG-frei bleibt. Beispielsweise verbessert DiffusionNFT den GenEval-Score von 0,24 auf 0,98 innerhalb von 1.000 Schritten, während FlowGRPO 0,95 mit über 5.000 Schritten und zusätzlichem CFG-Einsatz erreicht. Durch die Nutzung mehrerer Belohnungsmodelle steigert DiffusionNFT die Leistung von SD3.5-Medium in jedem getesteten Benchmark signifikant.
Wir stellen SWE-Bench Pro vor, einen deutlich anspruchsvolleren Benchmark, der auf den Best Practices von SWE-BENCH [25] aufbaut, jedoch explizit darauf ausgelegt ist, realistische, komplexe, unternehmensweite Probleme zu erfassen, die über den Rahmen von SWE-BENCH hinausgehen. SWE-BENCH PRO enthält 1.865 Aufgaben, die aus einer vielfältigen Auswahl von 41 aktiv gepflegten Repositories stammen, die Geschäftsanwendungen, B2B-Dienste und Entwicklertools abdecken. Der Benchmark ist in einen öffentlichen Satz mit freiem Zugang zu Aufgaben aus 11 Repositories, einen zurückgehaltenen Satz von 12 Repositories und einen kommerziellen Satz von 18 proprietären Repositories unterteilt, für die wir formelle Partnerschaftsvereinbarungen mit Startups in der Frühphase haben. Die Aufgaben im zurückgehaltenen und im kommerziellen Satz sind nicht öffentlich zugänglich, aber wir veröffentlichen Ergebnisse zum kommerziellen Satz. Unser Benchmark umfasst langfristige Aufgaben, die für einen professionellen Softwareentwickler Stunden bis Tage in Anspruch nehmen können und oft Patches über mehrere Dateien sowie umfangreiche Codeänderungen erfordern. Alle Aufgaben sind von Menschen verifiziert und mit ausreichendem Kontext angereichert, um die Lösbarkeit sicherzustellen. In unserer Bewertung weit verbreiteter Codierungsmodelle unter einem einheitlichen Rahmen beobachten wir, dass ihre Leistung bei SWE-Bench PRO unter 25 % (Pass@1) bleibt, wobei GPT-5 mit 23,3 % den bisher höchsten Wert erzielt. Um diese Grenzen besser zu verstehen, clustern wir die in den gesammelten Agenten-Trajektorien beobachteten Fehlermodi, um die Fehlermuster aktueller Modelle klarer zu charakterisieren. Insgesamt bietet SWE-BENCH PRO ein kontaminationsresistentes Testumfeld, das die Komplexität und Vielfalt der realen Softwareentwicklung treuer abbildet und das Streben nach wirklich autonomen Softwareentwicklungsagenten auf professionellem Niveau vorantreibt.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben die Kontextlängen erweitert, wodurch Assistenten in der Lage sind, lange Historie zu speichern, um kohärente und personalisierte Antworten zu liefern. Diese Fähigkeit hängt jedoch vom Key-Value (KV)-Caching ab, dessen Speicherbedarf linear mit der Dialoglänge wächst und unter strengen Ressourcenbeschränkungen schnell dominiert. Eine aktive Forschungsrichtung zur Reduzierung dieses Overheads ist die KV-Cache-Komprimierung, die darauf abzielt, die Cache-Größe zu begrenzen, während die Genauigkeit erhalten bleibt. Bisherige Methoden stehen jedoch vor zwei großen Herausforderungen: (i) Das Entfernen von Einträgen nach dem vollständigen Kontext-Prefill führt zu unbegrenztem Spitzenspeicherbedarf, und (ii) abfrageabhängiges Entfernen verengt den Cache auf eine einzelne Abfrage, was zu einer verringerten Genauigkeit in mehrschrittigen Konversationen führt. Wir stellen EpiCache vor, ein trainingsfreies KV-Cache-Management-Framework für langfristige konversationelle Frage-Antwort-Systeme (LongConvQA) unter festen Speicherbudgets. EpiCache begrenzt das Cache-Wachstum durch blockweises Prefill und bewahrt themenrelevante Kontexte durch episodische KV-Komprimierung, die die Konversationshistorie in kohärente Episoden clustert und episodenspezifische KV-Cache-Entfernung anwendet. Wir entwickeln außerdem eine adaptive, schichtenweise Budgetzuweisungsstrategie, die die Empfindlichkeit jeder Schicht gegenüber der Entfernung misst und das Speicherbudget entsprechend über die Schichten verteilt. In drei LongConvQA-Benchmarks verbessert EpiCache die Genauigkeit um bis zu 40 % im Vergleich zu aktuellen Baselines, erhält nahezu vollständige KV-Genauigkeit bei 4-6-facher Komprimierung und reduziert Latenz und Speicherbedarf um bis zu 2,4x bzw. 3,5x, wodurch effiziente mehrschrittige Interaktionen unter strengen Ressourcenbeschränkungen ermöglicht werden.
Jüngste Fortschritte im Bereich des Reinforcement Learning (RL) haben die Fähigkeiten großer Sprachmodelle (LLMs) zur logischen Schlussfolgerung verbessert, doch die Auswirkungen auf multimodale LLMs (MLLMs) sind begrenzt. Insbesondere bei visuell anspruchsvollen Aufgaben wie der geometrischen Schlussfolgerung neigen MLLMs häufig zu Halluzinationen, was zu ungenauen Schlussfolgerungen führt. Wir führen dies auf den Wahrnehmungsengpass in MLLMs zurück, der den Nutzen des Schlussfolgerungstrainings begrenzt. Um dies zu quantifizieren, entwickeln wir einen Benchmark für Geo-Perception Question-Answering (GeoPQA), der grundlegende geometrische Konzepte und räumliche Beziehungen abdeckt. Experimente mit GeoPQA zeigen erhebliche Defizite von MLLMs in der visuellen Wahrnehmung, die die RL-Belohnungssignale für ein effektives Training einschränken. Um diesen Engpass zu überwinden, schlagen wir ein zweistufiges RL-Trainingsframework vor, das zunächst die visuelle Wahrnehmung geometrischer Strukturen verbessert und dann die Fähigkeiten zur Schlussfolgerung fördert. Angewendet auf Qwen2.5-VL-3B-Instruct verbessert unser zweistufiges Training die geometrische Schlussfolgerung um 9,7 % und das Lösen geometrischer Probleme um 9,1 % im Vergleich zum direkten Ansatz des Schlussfolgerungstrainings. Unsere Methode lässt sich auch auf andere visuell anspruchsvolle Bereiche wie das Verständnis von Figuren übertragen, was die Bedeutung der Wahrnehmungsverankerung für effektive MLLM-Schlussfolgerungen unterstreicht.
Dieses Papier stellt ByteWrist vor, ein neuartiges, hochflexibles und anthropomorphes Parallelgelenk für die robotergestützte Manipulation. ByteWrist adressiert die kritischen Einschränkungen bestehender serieller und paralleler Handgelenke bei Operationen in engen Räumen durch einen kompakten dreistufigen Parallelantriebsmechanismus, der mit bogenförmigen Endgelenken integriert ist. Das Design ermöglicht präzise RPY-Bewegungen (Roll-Pitch-Yaw) bei gleichzeitig außergewöhnlicher Kompaktheit, was es besonders geeignet für komplexe, unstrukturierte Umgebungen wie Haushaltsdienstleistungen, medizinische Assistenz und Präzisionsmontage macht. Die wesentlichen Innovationen umfassen: (1) verschachtelte dreistufige motorgetriebene Gelenke, die das Volumen minimieren und gleichzeitig eine unabhängige Mehr-DOF-Steuerung ermöglichen, (2) bogenförmige Endgelenke, die die Kraftübertragung optimieren und den Bewegungsbereich erweitern, sowie (3) eine zentrale Stützkugel, die als sphärisches Gelenk fungiert und die strukturelle Steifigkeit erhöht, ohne die Flexibilität zu beeinträchtigen. Gleichzeitig präsentieren wir ein umfassendes kinematisches Modell, einschließlich Vorwärts-/Inverskinematik und einer numerischen Jacobi-Lösung für die präzise Steuerung. Empirisch beobachten wir, dass ByteWrist eine starke Leistung bei der Manövrierfähigkeit in engen Räumen und bei kooperativen Manipulationsaufgaben mit zwei Armen zeigt und dabei Kinova-basierte Systeme übertrifft. Die Ergebnisse zeigen signifikante Verbesserungen in Bezug auf Kompaktheit, Effizienz und Steifigkeit im Vergleich zu traditionellen Designs, was ByteWrist als vielversprechende Lösung für die robotergestützte Manipulation der nächsten Generation in beengten Umgebungen etabliert.
Wir führen eine mittelgroße, weitgehend kontaminationsfreie Bewertung aktueller großer Reasoning-Modelle (LRMs) durch und präsentieren einige vorläufige Ergebnisse. Zudem veröffentlichen wir ROME, unseren Evaluierungsbenchmark für Vision-Language-Modelle, der darauf abzielt, das Reasoning anhand visueller Hinweise zu testen. Wir stellen Links zum Benchmark, den Evaluierungsdaten und weiteren Updates auf dieser Website bereit: https://flageval-baai.github.io/LRM-Eval/
Große Sprachmodelle (LLMs) erwerben während des Vortrainings umfangreiches Weltwissen, das durch Nachtrainingsverfahren wie überwachtes Feinabstimmen (Supervised Fine-Tuning, SFT) weiter geformt wird. Der Einfluss von SFT auf das Wissen eines Modells bleibt jedoch weitgehend unerforscht, was unsere Fähigkeit einschränkt, das Wissensänderungsverhalten in feinabgestimmten Modellen zu kontrollieren. Um diese Lücke zu schließen, evaluieren wir die Leistung beim geschlossenen Frage-Antworten (Closed-Book Question Answering, CBQA) über fünf LLMs aus den LLaMA-2- und LLaMA-3-Familien. Überraschenderweise schneiden Modelle, die mit 1.920 Stichproben feinabgestimmt wurden, bis zu 14 % schlechter ab als solche, die mit nur 240 Stichproben feinabgestimmt wurden. Darüber hinaus führen unterschiedliche Niveaus der Wissensbeherrschung in den Feinabstimmungsdaten zu Leistungsschwankungen von über 12 %. Um diese Effekte zu untersuchen, analysieren wir das Modellverhalten sowohl auf Token- als auch auf Parameterebene. Unsere Analyse zeigt, dass bis zu 90 % der Parameteraktualisierungen während des SFT nicht zur Wissensverbesserung beitragen. Die Wiederherstellung dieser Aktualisierungen kann die Leistung bei der CBQA-Aufgabe verbessern, abhängig von den Eigenschaften der Feinabstimmungsdaten. Diese Erkenntnisse bieten praktische Leitlinien für die Entwicklung von Feinabstimmungsstrategien, die das Modellwissen effektiver stärken.
Entwickler großer Sprachmodelle (LLMs) streben danach, dass ihre Modelle ehrlich, hilfreich und harmlos sind. Wenn sie jedoch mit bösartigen Anfragen konfrontiert werden, sind die Modelle darauf trainiert, diese abzulehnen, wodurch die Hilfsbereitschaft eingeschränkt wird. Wir zeigen, dass fortschrittliche LLMs eine Präferenz für Unehrlichkeit als neue Strategie entwickeln können, selbst wenn andere Optionen verfügbar sind. Betroffene Modelle reagieren auf schädliche Anfragen mit Ausgaben, die schädlich klingen, aber subtil falsch oder in der Praxis harmlos sind. Dieses Verhalten tritt mit schwer vorhersehbaren Variationen auf, sogar innerhalb von Modellen derselben Modellfamilie. Wir finden keine offensichtliche Ursache für die Neigung zur Täuschung, zeigen jedoch, dass leistungsfähigere Modelle besser in der Lage sind, diese Strategie umzusetzen. Strategische Unehrlichkeit hat bereits praktische Auswirkungen auf Sicherheitsbewertungen, da wir zeigen, dass unehrliche Antworten alle auf Ausgaben basierenden Überwachungssysteme, die wir zur Erkennung von Jailbreaks testen, täuschen und somit Benchmark-Ergebnisse unzuverlässig machen. Darüber hinaus kann strategische Unehrlichkeit wie ein Honigtopf gegen bösartige Benutzer wirken, was frühere Jailbreak-Angriffe deutlich verschleiert. Während Ausgabeüberwachungen versagen, zeigen wir, dass lineare Sonden auf internen Aktivierungen zuverlässig strategische Unehrlichkeit erkennen können. Wir validieren Sonden anhand von Datensätzen mit überprüfbaren Ergebnissen und indem wir ihre Merkmale als Steuerungsvektoren verwenden. Insgesamt betrachten wir strategische Unehrlichkeit als ein konkretes Beispiel für ein größeres Problem, dass die Ausrichtung von LLMs schwer zu kontrollieren ist, insbesondere wenn Hilfsbereitschaft und Harmlosigkeit in Konflikt stehen.
Die Nachfrage nach effizientem Einsatz großer Sprachmodelle (LLMs) hat das Interesse an Quantisierung, welche die Inferenzkosten reduziert, und parameter-effizientem Feinabgleich (PEFT), der den Trainingsaufwand verringert, geweckt. Dies hat die Entwicklung von Quantisierungs-bewusstem PEFT motiviert, um präzise und dennoch effiziente quantisierte Modelle zu erzeugen. In diesem Kontext ist die Reduzierung von Quantisierungsfehlern vor dem Feinabgleich entscheidend, um eine hohe Modellgenauigkeit zu erreichen. Allerdings leiden bestehende Methoden, die auf Low-Rank-Adaption basieren, unter einer begrenzten Repräsentationskapazität. Neuere Fourier-bezogene Transform (FT)-basierte Adapter bieten eine größere Repräsentationskraft als Low-Rank-Adapter, aber ihre direkte Integration in quantisierte Modelle führt oft zu ineffektiver Fehlerreduktion und erhöhtem Rechenaufwand. Um diese Einschränkungen zu überwinden, schlagen wir QWHA vor, eine Methode, die FT-basierte Adapter in quantisierte Modelle integriert, indem die Walsh-Hadamard-Transformation (WHT) als Transformationskern verwendet wird, zusammen mit einem neuartigen Adapter-Initialisierungsschema, das adaptive Parameterauswahl und Wertverfeinerung beinhaltet. Wir zeigen, dass QWHA Quantisierungsfehler effektiv mindert und gleichzeitig den Feinabgleich erleichtert, und dass sein Design den Rechenaufwand erheblich reduziert. Experimentelle Ergebnisse zeigen, dass QWHA in der Genauigkeit bei niedrigbitiger Quantisierung durchweg die Vergleichsmethoden übertrifft und signifikante Trainingsbeschleunigungen gegenüber bestehenden FT-basierten Adaptern erreicht. Der Code ist verfügbar unter https://github.com/vantaa89/qwha.
Grafische Benutzeroberflächen (GUIs) sind das primäre Medium für die Mensch-Computer-Interaktion, dennoch bleibt die Automatisierung von GUI-Interaktionen aufgrund der Komplexität visueller Elemente, dynamischer Umgebungen und der Notwendigkeit von mehrstufigem Denken eine Herausforderung. Bestehende Methoden, die auf Vision-Language-Modellen (VLMs) basieren, leiden oft unter begrenzter Auflösung, Domäneninkongruenz und unzureichender Fähigkeit zur sequenziellen Entscheidungsfindung. Um diese Probleme zu lösen, schlagen wir Mano vor, einen robusten GUI-Agenten, der auf einem multimodalen Basismodell aufbaut, das umfangreich mit Web- und Computersystemdaten vortrainiert wurde. Unser Ansatz integriert eine neuartige simulierte Umgebung zur Erzeugung hochwertiger Daten, eine dreistufige Trainingspipeline (überwachtes Feintuning, Offline-Reinforcement-Learning und Online-Reinforcement-Learning) sowie ein Verifizierungsmodul zur Fehlerbehebung. Mano zeigt Spitzenleistungen auf mehreren GUI-Benchmarks, einschließlich Mind2Web und OSWorld, und erzielt signifikante Verbesserungen bei der Erfolgsrate und der operationellen Genauigkeit. Unsere Arbeit bietet neue Einblicke in die effektive Integration von Reinforcement-Learning mit VLMs für die praktische Bereitstellung von GUI-Agenten und unterstreicht die Bedeutung von domänenspezifischen Daten, iterativem Training und ganzheitlichem Belohnungsdesign.
Wir stellen Synthetic Bootstrapped Pretraining (SBP) vor, ein Verfahren zur Vorabschulung von Sprachmodellen (LM), das zunächst ein Modell der Beziehungen zwischen Dokumenten aus dem Vorabschulungsdatensatz erlernt und dieses dann nutzt, um ein umfangreiches neues Korpus für das gemeinsame Training zu synthetisieren. Während die Standardvorabschulung LMs beibringt, kausale Zusammenhänge zwischen Tokens innerhalb eines einzelnen Dokuments zu lernen, ist sie nicht darauf ausgelegt, die reichen, lernbaren Korrelationen zwischen Dokumenten effizient zu modellieren, die potenziell zu einer besseren Leistung führen können. Wir validieren SBP, indem wir eine rechenleistungsangepasste Vorabschulungsumgebung entwerfen und ein 3-Milliarden-Parameter-Modell von Grund auf mit bis zu 1 Billion Tokens vorabschulen. Wir stellen fest, dass SBP durchgehend eine starke Wiederholungsbaseline verbessert und einen signifikanten Anteil der Leistungsverbesserung erreicht, die durch eine Obergrenze mit Zugriff auf 20-mal mehr einzigartige Daten erzielbar ist. Qualitative Analysen zeigen, dass die synthetisierten Dokumente über bloße Paraphrasen hinausgehen – SBP abstrahiert zunächst ein Kernkonzept aus dem Ausgangsmaterial und entwickelt dann eine neue Erzählung darauf aufbauend. Neben der starken empirischen Leistung lässt SBP eine natürliche Bayes’sche Interpretation zu: Der Synthesizer lernt implizit, die latenten Konzepte zu abstrahieren, die zwischen verwandten Dokumenten geteilt werden.
Universelle multimodale Embedding-Modelle haben große Erfolge bei der Erfassung semantischer Relevanz zwischen Anfragen und Kandidaten erzielt. Allerdings komprimieren aktuelle Methoden entweder Anfragen und Kandidaten in einen einzelnen Vektor, was die Ausdrucksfähigkeit für fein abgestufte Informationen potenziell einschränkt, oder sie erzeugen zu viele Vektoren, die für die Mehrvektor-Retrieval unpraktikabel teuer sind. In dieser Arbeit stellen wir MetaEmbed vor, ein neues Framework für multimodale Retrieval, das überdenkt, wie multimodale Embeddings konstruiert und in großem Maßstab interagiert werden. Während des Trainings wird eine feste Anzahl von lernbaren Meta-Tokens an die Eingabesequenz angehängt. Zur Testzeit dienen ihre kontextualisierten Darstellungen der letzten Schicht als kompakte, aber ausdrucksstarke Mehrvektor-Embeddings. Durch das vorgeschlagene Matryoshka-Multi-Vector-Retrieval-Training lernt MetaEmbed, Informationen nach Granularität über mehrere Vektoren zu organisieren. Dadurch ermöglichen wir eine Skalierung zur Testzeit im multimodalen Retrieval, bei der Benutzer die Retrieval-Qualität gegen Effizienzanforderungen abwägen können, indem sie die Anzahl der für die Indizierung und Retrieval-Interaktionen verwendeten Tokens auswählen. Umfangreiche Auswertungen auf dem Massive Multimodal Embedding Benchmark (MMEB) und dem Visual Document Retrieval Benchmark (ViDoRe) bestätigen, dass MetaEmbed state-of-the-art Retrieval-Leistungen erzielt und dabei robust auf Modelle mit 32B Parametern skaliert.
Trainingsfreie Videoobjektbearbeitung zielt darauf ab, präzise Objektmanipulationen, einschließlich Objekteinfügung, -austausch und -löschung, zu erreichen. Sie steht jedoch vor erheblichen Herausforderungen bei der Wahrung von Detailtreue und zeitlicher Konsistenz. Bestehende Methoden, die oft für U-Net-Architekturen entwickelt wurden, leiden unter zwei Hauptproblemen: ungenaue Inversion aufgrund von Solvern erster Ordnung und kontextuelle Konflikte, die durch grobe „harte“ Merkmalsersetzung verursacht werden. Diese Probleme sind in Diffusion Transformers (DiTs) noch schwieriger, da die Ungeeignetheit früherer Layer-Auswahlheuristiken eine effektive Steuerung erschwert. Um diese Einschränkungen zu überwinden, stellen wir ContextFlow vor, ein neuartiges trainingsfreies Framework für DiT-basierte Videoobjektbearbeitung. Im Detail verwenden wir zunächst einen Solver höherer Ordnung (Rectified Flow), um eine robuste Bearbeitungsgrundlage zu schaffen. Das Kernstück unseres Frameworks ist Adaptive Context Enrichment (zur Spezifikation, was bearbeitet werden soll), ein Mechanismus, der kontextuelle Konflikte adressiert. Anstatt Merkmale zu ersetzen, bereichert er den Self-Attention-Kontext durch die Verkettung von Key-Value-Paaren aus parallelen Rekonstruktions- und Bearbeitungspfaden, wodurch das Modell befähigt wird, Informationen dynamisch zu fusionieren. Zusätzlich schlagen wir, um festzulegen, wo diese Anreicherung angewendet werden soll (zur Spezifikation, wo bearbeitet werden soll), eine systematische, datengetriebene Analyse vor, um aufgaben-spezifische entscheidende Layer zu identifizieren. Basierend auf einer neuartigen Guidance Responsiveness Metric lokalisiert unsere Methode die einflussreichsten DiT-Blöcke für verschiedene Aufgaben (z.B. Einfügung, Austausch), was eine gezielte und hocheffektive Steuerung ermöglicht. Umfangreiche Experimente zeigen, dass ContextFlow bestehende trainingsfreie Methoden deutlich übertrifft und sogar mehrere state-of-the-art trainingsbasierte Ansätze übertrumpft, indem es zeitlich kohärente, detailgetreue Ergebnisse liefert.
Die weitverbreitete Einführung von Large Language Models (LLMs) wird durch ihre Tendenz zur Halluzination behindert, bei der sie plausible, aber faktisch falsche Informationen generieren. Während Retrieval-Augmented Generation (RAG)-Systeme versuchen, dieses Problem zu lösen, indem sie Antworten in externem Wissen verankern, bleibt die Halluzination eine anhaltende Herausforderung, insbesondere für morphologisch komplexe, ressourcenarme Sprachen wie Türkisch. Diese Arbeit stellt Turk-LettuceDetect vor, die erste Suite von Halluzinationserkennungsmodellen, die speziell für türkische RAG-Anwendungen entwickelt wurde. Aufbauend auf dem LettuceDetect-Framework formulieren wir die Halluzinationserkennung als eine Token-Level-Klassifikationsaufgabe und feintunen drei verschiedene Encoder-Architekturen: einen türkisch-spezifischen ModernBERT, TurkEmbed4STS und den mehrsprachigen EuroBERT. Diese Modelle wurden auf einer maschinell übersetzten Version des RAGTruth-Benchmark-Datensatzes trainiert, der 17.790 Instanzen aus den Bereichen Frage-Antwort, Daten-zu-Text-Generierung und Zusammenfassung enthält. Unsere experimentellen Ergebnisse zeigen, dass das auf ModernBERT basierende Modell einen F1-Score von 0,7266 auf dem vollständigen Testdatensatz erreicht, mit besonders starker Leistung bei strukturierten Aufgaben. Die Modelle behalten ihre Recheneffizienz bei und unterstützen lange Kontexte von bis zu 8.192 Tokens, was sie für den Einsatz in Echtzeit geeignet macht. Eine vergleichende Analyse zeigt, dass zwar state-of-the-art LLMs eine hohe Recall-Rate aufweisen, sie jedoch unter einer niedrigen Präzision leiden, da sie übermäßig halluzinierte Inhalte generieren, was die Notwendigkeit spezialisierter Erkennungsmechanismen unterstreicht. Durch die Veröffentlichung unserer Modelle und des übersetzten Datensatzes schließt diese Arbeit eine kritische Lücke im Bereich der mehrsprachigen NLP und legt den Grundstein für die Entwicklung zuverlässigerer und vertrauenswürdigerer KI-Anwendungen für das Türkische und andere Sprachen.
Cross-Attention ist ein Kernmechanismus in Encoder-Decoder-Architekturen, der in vielen Bereichen weit verbreitet ist, einschließlich der Sprach-zu-Text-Verarbeitung (S2T). Seine Scores wurden für verschiedene nachgelagerte Anwendungen – wie die Schätzung von Zeitstempeln und die Audio-Text-Ausrichtung – wiederverwendet, unter der Annahme, dass sie die Abhängigkeiten zwischen der Eingabesprachrepräsentation und dem generierten Text widerspiegeln. Während die erklärende Natur von Aufmerksamkeitsmechanismen in der breiteren NLP-Literatur intensiv diskutiert wurde, bleibt diese Annahme im Bereich der Sprachverarbeitung weitgehend unerforscht. Um diese Lücke zu schließen, bewerten wir die erklärende Kraft der Cross-Attention in S2T-Modellen, indem wir ihre Scores mit Eingabe-Saliency-Maps vergleichen, die aus der Attributionsanalyse von Merkmalen abgeleitet wurden. Unsere Analyse umfasst monolinguale und multilinguale, Single-Task- und Multi-Task-Modelle in verschiedenen Größenordnungen und zeigt, dass die Aufmerksamkeits-Scores mäßig bis stark mit salienzbasierten Erklärungen übereinstimmen, insbesondere wenn sie über Köpfe und Schichten aggregiert werden. Sie zeigt jedoch auch, dass die Cross-Attention nur etwa 50 % der Eingaberelevanz erfasst und im besten Fall nur teilweise widerspiegelt, wie der Decoder die Repräsentationen des Encoders berücksichtigt – was lediglich 52–75 % der Salienz ausmacht. Diese Erkenntnisse decken grundlegende Einschränkungen bei der Interpretation der Cross-Attention als erklärendes Proxy auf und legen nahe, dass sie eine informative, aber unvollständige Sicht auf die Faktoren bietet, die die Vorhersagen in S2T-Modellen antreiben.
Die Skalierung von Empfehlungsmodellen zu großen Empfehlungsmodellen ist zu einem der am häufigsten diskutierten Themen geworden. Jüngste Bemühungen konzentrieren sich auf Komponenten, die über die Skalierung der Embedding-Dimension hinausgehen, da angenommen wird, dass die Skalierung von Embeddings zu Leistungseinbußen führen kann. Obwohl es bereits einige erste Beobachtungen zu Embeddings gibt, bleibt die Ursache für deren mangelnde Skalierbarkeit unklar. Darüber hinaus ist es noch ein unerforschtes Gebiet, ob Leistungsverschlechterungen bei verschiedenen Modelltypen und Datensätzen auftreten. In Bezug auf die Auswirkungen der Embedding-Dimensionen auf die Leistung führen wir groß angelegte Experimente mit 10 Datensätzen unterschiedlicher Sparsity-Level und Skalen durch, wobei wir 4 repräsentative klassische Architekturen verwenden. Überraschenderweise beobachten wir zwei neuartige Phänomene: Doppelgipfel und logarithmisch. Bei ersterem verbessert sich die Leistung zunächst mit zunehmender Embedding-Dimension, verschlechtert sich dann, steigt erneut an und fällt schließlich ab. Bei letzterem zeigt sich eine perfekte logarithmische Kurve. Unsere Beiträge sind dreifach. Erstens entdecken wir zwei neuartige Phänomene bei der Skalierung von kollaborativen Filtermethoden. Zweitens gewinnen wir ein Verständnis für die zugrunde liegenden Ursachen des Doppelgipfel-Phänomens. Schließlich analysieren wir theoretisch die Rauschrobustheit von kollaborativen Filtermethoden, wobei die Ergebnisse mit den empirischen Beobachtungen übereinstimmen.
Jüngste Fortschritte bei großen multimodalen Modellen (Large Multi-modal Models, LMMs) haben deren bemerkenswerten Erfolg als universelle multimodale Assistenten demonstriert, mit einem besonderen Fokus auf ganzheitlichem Bild- und Video-Sprachverständnis. Im Gegensatz dazu wurde weniger Aufmerksamkeit auf die Skalierung fein abgestimmter pixelgenauer Verständnisfähigkeiten gelegt, bei denen die Modelle eine pixelgenaue Ausrichtung zwischen visuellen Signalen und Sprachsemantik erreichen sollen. Einige frühere Studien haben LMMs auf verwandte Aufgaben wie regionenbezogene Bildbeschreibung und referenzielle Ausdruckssegmentierung angewendet. Diese Modelle sind jedoch darauf beschränkt, entweder referenzielle oder Segmentierungsaufgaben unabhängig voneinander auszuführen, und es gelingt ihnen nicht, diese fein abgestimmten Wahrnehmungsfähigkeiten in die visuelle Argumentation zu integrieren. Um diese Lücke zu schließen, schlagen wir UniPixel vor, ein großes multimodales Modell, das in der Lage ist, visuelle Eingabeaufforderungen flexibel zu verstehen und maskenbasierte Antworten zu generieren. Unser Modell zeichnet sich dadurch aus, dass es pixelgenaue Wahrnehmung nahtlos mit allgemeinen visuellen Verständnisfähigkeiten integriert. Insbesondere verarbeitet UniPixel visuelle Aufforderungen und generiert bei Bedarf relevante Masken, führt anschließend eine Argumentation durch, die auf diesen Zwischenzeigern während der Inferenz basiert, und ermöglicht so eine fein abgestimmte pixelgenaue Argumentation. Die Wirksamkeit unseres Ansatzes wurde auf 10 Benchmarks über eine Vielzahl von Aufgaben hinweg überprüft, darunter pixelgenaue Referenzierung/Segmentierung und objektzentriertes Verständnis in Bildern/Videos. Eine neuartige PixelQA-Aufgabe, die gleichzeitig Referenzierung, Segmentierung und Fragebeantwortung erfordert, wurde ebenfalls entwickelt, um die Flexibilität unserer Methode zu überprüfen.
Wir stellen Reasoning Core vor, eine neue skalierbare Umgebung für Reinforcement Learning mit verifizierbaren Belohnungen (RLVR), die entwickelt wurde, um das grundlegende symbolische Denken in Large Language Models (LLMs) voranzutreiben. Im Gegensatz zu bestehenden Benchmarks, die sich auf Spiele oder isolierte Rätsel konzentrieren, generiert Reasoning Core prozedural Probleme in zentralen formalen Domänen, darunter PDDL-Planung, Logik erster Ordnung, Parsing von kontextfreien Grammatiken, kausales Schließen und das Lösen von Systemgleichungen. Die Umgebung basiert auf den zentralen Designprinzipien hochgenereller Problemverteilungen, Verifizierung durch externe Tools und kontinuierlicher Schwierigkeitssteuerung, die zusammen eine praktisch unendliche Versorgung mit neuen Trainingsinstanzen bieten. Erste Zero-Shot-Evaluierungen mit führenden LLMs bestätigen die Schwierigkeit der Aufgaben von Reasoning Core und positionieren es als vielversprechende Ressource zur Verbesserung der Denkfähigkeiten zukünftiger Modelle.
Derzeitige state-of-the-art autonome Fahrzeuge könnten in sicherheitskritische Situationen geraten, wenn ihre lokalen Sensoren durch große nahegelegene Objekte auf der Straße verdeckt werden. Vehicle-to-Vehicle (V2V) kooperatives autonomes Fahren wurde als Mittel zur Lösung dieses Problems vorgeschlagen, und ein kürzlich eingeführtes Framework für kooperatives autonomes Fahren hat zudem einen Ansatz übernommen, der ein Multimodales Großes Sprachmodell (MLLM) integriert, um kooperative Wahrnehmungs- und Planungsprozesse zu vereinen. Obwohl die Anwendung von Graph-of-Thoughts-Reasoning auf das MLLM potenzielle Vorteile bietet, wurde diese Idee in bisheriger Forschung zum kooperativen autonomen Fahren nicht berücksichtigt. In diesem Artikel schlagen wir ein neuartiges Graph-of-Thoughts-Framework vor, das speziell für MLLM-basiertes kooperatives autonomes Fahren entwickelt wurde. Unser Graph-of-Thoughts beinhaltet unsere neuartigen Ideen der verdeckungsbewussten Wahrnehmung und planungsbewussten Vorhersage. Wir erstellen den V2V-GoT-QA-Datensatz und entwickeln das V2V-GoT-Modell für das Training und Testen des kooperativen Fahrens mit Graph-of-Thoughts. Unsere experimentellen Ergebnisse zeigen, dass unsere Methode andere Baselines in den Aufgaben der kooperativen Wahrnehmung, Vorhersage und Planung übertrifft.
Die Sicherheit und Ausrichtung von Large Language Models (LLMs) sind entscheidend für ihren verantwortungsvollen Einsatz. Aktuelle Evaluierungsmethoden konzentrieren sich hauptsächlich darauf, offensichtlich schädliche Ausgaben zu identifizieren und zu verhindern. Sie versagen jedoch oft darin, einen heimtückischeren Fehlermodus zu adressieren: Modelle, die scheinbar harmlose Ausgaben erzeugen, während sie auf bösartiger oder trügerischer interner Logik operieren. Diese Schwachstelle, die oft durch ausgeklügelte System-Prompt-Injektionen ausgelöst wird, ermöglicht es Modellen, konventionelle Sicherheitsfilter zu umgehen und stellt ein erhebliches, bisher unerforschtes Risiko dar. Um diese Lücke zu schließen, führen wir das Deceptive Reasoning Exposure Suite (D-REX) ein, einen neuartigen Datensatz, der entwickelt wurde, um die Diskrepanz zwischen dem internen Denkprozess eines Modells und seiner endgültigen Ausgabe zu bewerten. D-REX wurde durch eine wettbewerbsorientierte Red-Teaming-Übung erstellt, bei der Teilnehmer adversariale System-Prompts erstellten, um solche trügerischen Verhaltensweisen zu induzieren. Jede Probe in D-REX enthält den adversariellen System-Prompt, eine Testanfrage eines Endnutzers, die scheinbar harmlose Antwort des Modells und, entscheidend, die interne Gedankenkette des Modells, die die zugrunde liegende bösartige Absicht offenlegt. Unser Benchmark ermöglicht eine neue, essentielle Evaluierungsaufgabe: die Erkennung von trügerischer Ausrichtung. Wir zeigen, dass D-REX eine erhebliche Herausforderung für bestehende Modelle und Sicherheitsmechanismen darstellt und unterstreichen die dringende Notwendigkeit neuer Techniken, die die internen Prozesse von LLMs untersuchen, nicht nur ihre endgültigen Ausgaben.
Auch ohne Geräusche direkt zu hören, können Menschen mühelos auditive Eigenschaften wie Tonhöhe, Lautstärke oder Klangquellen-Zuordnungen durch auditiven Hausverstand erschließen. Im Gegensatz dazu fehlt Sprachmodellen oft diese Fähigkeit, was ihre Effektivität in multimodalen Interaktionen einschränkt. Als ersten Schritt zur Schließung dieser Lücke präsentieren wir AuditoryBench++, einen umfassenden Benchmark zur Bewertung von auditivem Wissen und Schlussfolgerungen in rein textbasierten Umgebungen. Der Benchmark umfasst Aufgaben, die von einfachen auditiven Vergleichen bis hin zu kontextuell fundiertem Denken reichen, und ermöglicht eine detaillierte Analyse, wie Modelle auditive Konzepte verarbeiten und integrieren. Zusätzlich stellen wir AIR-CoT vor, eine neuartige Methode zur auditiven Vorstellungsbildung, die während der Inferenz durch Spannenerkennung mit speziellen Tokens und Wissenseinspeisung auditive Informationen generiert und integriert. Umfangreiche Experimente mit aktuellen LLMs und Multimodalen LLMs zeigen, dass AIR-CoT sowohl die Standardmodelle als auch solche, die mit auditivem Wissen angereichert wurden, im Allgemeinen übertrifft. Die Projektseite ist unter https://auditorybenchpp.github.io verfügbar.
In diesem Beitrag gehen wir auf die Herausforderungen ein, die mit dem Zusammenführen von Low-Rank-Adaptionen großer neuronaler Netzwerke verbunden sind. Mit dem Aufkommen parameter-effizienter Adaptionstechniken wie Low-Rank Adaptation (LoRA) ist das Feinabstimmen von Modellen zugänglicher geworden. Obwohl das Feinabstimmen von Modellen mit LoRA äußerst effizient ist, opfern bestehende Zusammenführungsmethoden oft diese Effizienz, indem sie vollständig dimensionierte Gewichtsmatrizen zusammenführen. Wir schlagen das Core-Space-Zusammenführungsframework vor, das das Zusammenführen von LoRA-adaptierten Modellen innerhalb einer gemeinsamen Ausrichtungsbasis ermöglicht und dadurch die Effizienz der Low-Rank-Adaption bewahrt, während die Genauigkeit über verschiedene Aufgaben hinweg erheblich verbessert wird. Wir liefern zudem einen formalen Beweis, dass die Projektion in den Core-Space keinen Informationsverlust verursacht, und eine Komplexitätsanalyse, die die Effizienzgewinne zeigt. Umfangreiche empirische Ergebnisse demonstrieren, dass Core-Space bestehende Zusammenführungstechniken signifikant verbessert und state-of-the-art Ergebnisse sowohl bei Bild- als auch bei Sprachaufgaben erzielt, während nur ein Bruchteil der Rechenressourcen genutzt wird. Die Codebasis ist verfügbar unter https://github.com/apanariello4/core-space-merging.
Reinforcement Learning hat sich als grundlegende Technik zur Verbesserung der Argumentationsfähigkeit von LLMs etabliert. Allerdings wenden bestehende Algorithmen eine einheitliche Optimierung auf alle Tokens an, ohne deren unterschiedliche Rollen im Argumentationsprozess zu berücksichtigen. Um diese Einschränkung zu überwinden, führen wir Heterogeneous Adaptive Policy Optimization (HAPO) ein, einen umfassenden token-bewussten Algorithmus, der die Optimierung dynamisch basierend auf der Token-Entropie anpasst. Für das Rollout-Sampling schlagen wir Adaptive Temperature Sampling vor, das die Sampling-Temperatur in Echtzeit anpasst und die Exploration bei Tokens mit hoher Entropie fördert, während die Kohärenz bei Tokens mit niedriger Entropie erhalten bleibt. Für die Vorteilsberechnung führen wir Token Level Group Average ein, das Vorteile auf Token-Ebene normalisiert und dabei sowohl die Sequenzlänge als auch den Token-Mittelwert-Verlust berücksichtigt, ohne eine verzerrte Behandlung zu ermöglichen. Anschließend entwickeln wir Differential Advantage Redistribution, das Entropie und Wichtigkeitsverhältnisse nutzt, um Belohnungsanpassungen für Tokens mit klaren Signalen zu modulieren. Für den Clipping-Verlust entwerfen wir Asymmetric Adaptive Clipping, das eine aggressive Wahrscheinlichkeitsreduktion für verrauschte Tokens mit niedriger Entropie ermöglicht, während die Exploration für Tokens mit hoher Entropie unterstützt wird. Durch eine systematische Untersuchung des Zusammenhangs zwischen Entropie und Trainingsdynamik haben wir die Token-bezogene Behandlung in jede Phase integriert, um eine fein abgestimmte Kontrolle zu erreichen. Umfangreiche Experimente zeigen, dass HAPO DAPO über mehrere Modellgrößen hinweg konsequent übertrifft. Unser Code ist unter https://github.com/starriver030515/HAPO verfügbar.
Versteckte Lizenzkonflikte im Ökosystem der Open-Source-KI bergen ernsthafte rechtliche und ethische Risiken, die Organisationen potenziellen Rechtsstreitigkeiten und Nutzer nicht offengelegten Risiken aussetzen. Dennoch fehlt es in diesem Bereich an einem datengestützten Verständnis darüber, wie häufig diese Konflikte auftreten, wo sie ihren Ursprung haben und welche Gemeinschaften am stärksten betroffen sind. Wir präsentieren die erste umfassende Prüfung von Lizenzen für Datensätze und Modelle auf Hugging Face sowie deren nachgelagerte Integration in Open-Source-Softwareanwendungen, die 364.000 Datensätze, 1,6 Millionen Modelle und 140.000 GitHub-Projekte umfasst. Unsere empirische Analyse zeigt systemische Nichteinhaltung auf, bei der 35,5 % der Übergänge von Modellen zu Anwendungen restriktive Lizenzklauseln durch Neulizenzierung unter freizügigen Bedingungen eliminieren. Zudem entwickeln wir einen Prototyp einer erweiterbaren Regel-Engine, die fast 200 SPDX- und modellspezifische Klauseln zur Erkennung von Lizenzkonflikten kodiert und 86,4 % der Lizenzkonflikte in Softwareanwendungen lösen kann. Um zukünftige Forschung zu unterstützen, veröffentlichen wir unseren Datensatz und die Prototyp-Engine. Unsere Studie unterstreicht die Lizenzkonformität als eine kritische Governance-Herausforderung in der Open-Source-KI und stellt sowohl die Daten als auch die Werkzeuge bereit, die notwendig sind, um automatisierte, KI-bewusste Konformität in großem Maßstab zu ermöglichen.
Wir stellen perioperation vor, ein Paradigma für die robotische Datenerfassung, das menschliche Manipulation sensorisiert und aufzeichnet, während die Übertragbarkeit der Daten auf reale Roboter maximiert wird. Wir implementieren dieses Paradigma in DEXOP, einem passiven Hand-Exoskelett, das darauf ausgelegt ist, die menschliche Fähigkeit zur Erfassung umfangreicher sensorischer (visueller + taktiler) Daten für vielfältige geschickte Manipulationsaufgaben in natürlichen Umgebungen zu maximieren. DEXOP verbindet menschliche Finger mechanisch mit Roboterfingern, bietet Nutzern direkte Kontakt-Rückmeldung (über Propriozeption) und spiegelt die Pose der menschlichen Hand auf die passive Roboterhand, um die Übertragung demonstrierter Fähigkeiten auf den Roboter zu maximieren. Die Kraftrückmeldung und Posenspiegelung machen Aufgaben-Demonstrationen für Menschen im Vergleich zur Teleoperation natürlicher, was sowohl die Geschwindigkeit als auch die Genauigkeit erhöht. Wir evaluieren DEXOP über eine Reihe geschickter, kontaktintensiver Aufgaben und demonstrieren seine Fähigkeit, hochwertige Demonstrationsdaten in großem Maßstab zu sammeln. Mit DEXOP-Daten gelernte Strategien verbessern die Aufgabenleistung pro Zeiteinheit der Datenerfassung im Vergleich zur Teleoperation signifikant, was DEXOP zu einem leistungsstarken Werkzeug für die Weiterentwicklung der Geschicklichkeit von Robotern macht. Unsere Projektseite finden Sie unter https://dex-op.github.io.
Diffusionsbasierte große Sprachmodelle (DLLMs) haben in letzter Zeit zunehmendes Interesse als Alternative zu autoregressiven Dekodern geweckt. In dieser Arbeit präsentieren wir eine empirische Studie zur Verwendung des diffusionsbasierten großen Sprachmodells LLaDA für die automatische Spracherkennung (ASR). Zunächst untersuchen wir seinen Einsatz als externes, deliberatives Verarbeitungsmodul für Whisper-LLaMA-Transkripte. Durch die Nutzung der bidirektionalen Aufmerksamkeit und der Rauschunterdrückungsfähigkeiten von LLaDA explorieren wir Strategien wie zufällige Maskierung, Maskierung bei geringer Konfidenz und semi-autoregressive Ansätze. Dabei zeigen wir, dass Whisper-LLaDA die Wortfehlerrate (WER) im Vergleich zur Baseline deutlich reduziert. Auf LibriSpeech erreicht das beste Kaskadensystem eine WER von 2,25 %/4,94 % auf test-clean/test-other, was einer relativen Verbesserung von 12,3 % gegenüber der Whisper-LLaMA-Baseline auf der test-other-Teilmenge entspricht. Im Gegensatz dazu kann ein rein textbasiertes LLaDA ohne akustische Merkmale die Genauigkeit nicht verbessern, was die Bedeutung von audio-konditionierten Einbettungen unterstreicht. Wir evaluieren Whisper-LLaDA weiterhin als eigenständigen Dekoder für ASR mit diffusionsbasierter und semi-autoregressiver Dekodierung. Die meisten experimentellen Konfigurationen erreichen eine schnellere Inferenz als die Whisper-LLaMA-Baseline, obwohl die Erkennungsgenauigkeit leicht niedriger ist. Diese Ergebnisse bieten eine empirische Sicht auf diffusionsbasierte LLMs für ASR und weisen auf vielversprechende Richtungen für zukünftige Verbesserungen hin.
Die Effizienz der Bayes'schen Optimierung (BO) hängt maßgeblich von der Wahl des Gauß-Prozess-Kernels (GP) ab, der eine zentrale Rolle bei der Balance zwischen Exploration und Exploitation unter begrenzten Evaluierungsbudgets spielt. Traditionelle BO-Methoden verlassen sich oft auf feste oder heuristische Kernel-Auswahlstrategien, die zu langsamer Konvergenz oder suboptimalen Lösungen führen können, wenn der gewählte Kernel schlecht zur zugrunde liegenden Zielfunktion passt. Um diese Einschränkung zu überwinden, schlagen wir einen neuartigen Context-Aware Kernel Evolution (CAKE) Ansatz vor, der BO mit großen Sprachmodellen (LLMs) erweitert. Konkret nutzt CAKE LLMs als Crossover- und Mutationsoperatoren, um GP-Kernel basierend auf den beobachteten Daten während des Optimierungsprozesses adaptiv zu generieren und zu verfeinern. Um die Leistungsfähigkeit von CAKE zu maximieren, schlagen wir zusätzlich BIC-Acquisition Kernel Ranking (BAKER) vor, um den effektivsten Kernel durch die Balance zwischen der Modellanpassung, gemessen durch das Bayes'sche Informationskriterium (BIC), und der erwarteten Verbesserung in jeder Iteration von BO auszuwählen. Umfangreiche Experimente zeigen, dass unsere neue CAKE-basierte BO-Methode etablierte Baselines in einer Reihe von realen Anwendungen, einschließlich Hyperparameteroptimierung, Controller-Abstimmung und photonischem Chip-Design, konsequent übertrifft. Unser Code ist öffentlich verfügbar unter https://github.com/cake4bo/cake.
Große Sprachmodelle (LLMs) werden in verschiedenen Aufgaben und Anwendungen weit verbreitet eingesetzt. Trotz ihrer umfangreichen Fähigkeiten wurde jedoch gezeigt, dass ihnen kulturelle Ausrichtung fehlt (ryan-etal-2024-unintended, alkhamissi-etal-2024-investigating) und sie aufgrund mangelnden kulturellen Wissens und Kompetenz voreingenommene Generierungen produzieren (naous-etal-2024-beer). Die Bewertung von LLMs hinsichtlich kulturellen Bewusstseins und Ausrichtung ist besonders herausfordernd, da es an geeigneten Bewertungsmetriken und der Verfügbarkeit von kulturell fundierten Datensätzen mangelt, die die immense Komplexität von Kulturen auf regionaler und subregionaler Ebene repräsentieren. Bestehende Datensätze für kulturspezifische Elemente (CSIs) konzentrieren sich hauptsächlich auf Konzepte auf regionaler Ebene und können falsch positive Ergebnisse enthalten. Um dieses Problem zu adressieren, stellen wir einen neuartigen CSI-Datensatz für die indische Kultur vor, der 17 kulturelle Facetten umfasst. Der Datensatz besteht aus sim8k kulturellen Konzepten aus 36 Subregionen. Um die kulturelle Kompetenz von LLMs bei einer kulturellen Textanpassungsaufgabe zu messen, bewerten wir die Anpassungen mithilfe der erstellten CSIs, LLM als Richter und menschlichen Bewertungen aus verschiedenen soziodemografischen Regionen. Darüber hinaus führen wir eine quantitative Analyse durch, die selektive subregionale Abdeckung und oberflächliche Anpassungen bei allen betrachteten LLMs aufzeigt. Unser Datensatz ist hier verfügbar: https://huggingface.co/datasets/nlip/DIWALI{https://huggingface.co/datasets/nlip/DIWALI}, Projektwebseite\href{https://nlip-lab.github.io/nlip/publications/diwali/{https://nlip-lab.github.io/nlip/publications/diwali/}}, und unser Codebase mit Modellausgaben kann hier gefunden werden: https://github.com/pramitsahoo/culture-evaluation{https://github.com/pramitsahoo/culture-evaluation}.
Wir stellen BeepBank-500 vor, einen kompakten, vollständig synthetischen Earcon/Alert-Datensatz (300-500 Clips), der für schnelle, rechtlich unbedenkliche Experimente in der Mensch-Computer-Interaktion und im Audio-Machine-Learning entwickelt wurde. Jeder Clip wird aus einem parametrischen Rezept generiert, das die Wellenformfamilie (Sinus, Rechteck, Dreieck, FM), die Grundfrequenz, die Dauer, die Hüllkurve, die Amplitudenmodulation (AM) und eine leichte Schroeder-artige Nachhallsteuerung bestimmt. Wir verwenden drei Nachhall-Einstellungen: trocken sowie zwei synthetische Räume, die im gesamten Papier und in den Metadaten als 'rir small' ('klein') und 'rir medium' ('mittel') bezeichnet werden. Wir veröffentlichen Mono-48-kHz-WAV-Audio (16-Bit), eine umfangreiche Metadatentabelle (Signal-/Spektraleigenschaften) und reproduzierbare Baselines für (i) die Klassifizierung von Wellenformfamilien und (ii) die F0-Regression bei einzelnen Tönen. Das Korpus zielt auf Aufgaben wie Earcon-Klassifizierung, Timbre-Analysen und Onset-Erkennung ab, mit klar festgelegten Lizenzbedingungen und Einschränkungen. Die Audiodaten sind über CC0-1.0 der öffentlichen Domain gewidmet; der Code steht unter der MIT-Lizenz. Daten-DOI: https://doi.org/10.5281/zenodo.17172015. Code: https://github.com/mandip42/earcons-mini-500.
Die Analyse von Kulturerbe-Artefakten bleibt eine Herausforderung für MLLMs (Multimodale Large Language Models): Allgemeine Modelle verfügen nicht über domänenspezifisches Fachwissen, und Supervised Fine-Tuning (SFT) führt oft zu einer Überanpassung an oberflächliche Muster, was eine brüchige Argumentation für Authentifizierung und historische Zuschreibung zur Folge hat. Dies wirft die Frage auf, wie MLLMs mit einer robusten, expertenähnlichen Argumentationsfähigkeit für antike griechische Keramik ausgestattet werden können. Wir präsentieren VaseVL, ein SFT-then-RL-System, das die Evaluation in Supervision umwandelt: Wir konstruieren eine Taxonomie von Fragentypen, untersuchen das SFT-Modell, um typspezifische Leistungslücken zu lokalisieren, und optimieren mit typspezifischen, kompositionalitätsorientierten Belohnungen, die auf diese Lücken abzielen. Zudem veröffentlichen wir VaseVQA, einen umfassenden Benchmark mit 31.773 Bildern, der darauf abzielt, ein tiefes Verständnis zu testen. Experimente zeigen state-of-the-art Ergebnisse in der Stilklassifikation und historischen Zuschreibung mit deutlichen Verbesserungen in der kompositionellen Robustheit gegenüber reinen SFT-Baselines. Dies bestätigt die diagnosegesteuerte, taxonomiebasierte Belohnungsoptimierung und bietet eine wiederverwendbare Ressource für zukünftige Forschung. Code und Datensatz werden unter https://github.com/AIGeeksGroup/VaseVQA verfügbar sein.
Große Vision-Sprach-Modelle (Large Vision-Language Models, L-VLMs) haben bemerkenswerte Leistungen in verschiedenen Vision- und Sprachaufgaben gezeigt, einschließlich visueller Fragebeantwortung (Visual Question Answering, VQA). Ihre hohen Rechenkosten machen sie jedoch für ressourcenbeschränkte Umgebungen und anwendungen mit hohem Inferenzaufwand unpraktisch. Im Gegensatz dazu bieten Kleine Vision-Sprach-Modelle (Small Vision-Language Models, S-VLMs) Effizienz, leiden jedoch unter einer erheblichen Leistungslücke im Vergleich zu ihren größeren Gegenstücken. In dieser Arbeit stellen wir den Model Parity Aligner (MPA) vor, ein neuartiges Framework, das darauf abzielt, S-VLMs systematisch zu verbessern, indem es unmarkierte Bilder und effektiven Wissenstransfer von L-VLMs nutzt. Anstelle traditioneller Wissensdistillationsmethoden, die auf markierten Trainingsdaten basieren, verwendet MPA einen strategischen, paritätsbasierten Ansatz, der die Wissensunterschiede zwischen S-VLMs und L-VLMs präzise identifiziert und das Training gezielt auf diese Unterschiede optimiert. Wir führen umfangreiche Experimente auf vier verschiedenen VQA-Benchmarks durch, nämlich TextVQA, ST-VQA, ChartQA und OKVQA, von denen jeder spezialisierte Fähigkeiten wie Texterkennung, Diagramminterpretation sowie Alltags- und Faktenverständnis erfordert. Unsere Ergebnisse zeigen, dass MPA die Leistung von S-VLMs auf allen Benchmarks konsistent verbessert, die Leistungslücke verringert und dabei die Recheneffizienz beibehält. Wir stellen unseren Code öffentlich zur Verfügung.
Die Tiefenschätzung mit Unterwasser-Stereokameras liefert präzise 3D-Geometrie für Robotikaufgaben wie Navigation, Inspektion und Kartierung und bietet metrische Tiefeninformationen aus kostengünstigen passiven Kameras, während die Skalenunschärfe monokularer Methoden vermieden wird. Bestehende Ansätze stehen jedoch vor zwei kritischen Herausforderungen: (i) die parameter-effiziente Anpassung großer Vision-Foundation-Encoder an den Unterwasserbereich ohne umfangreiche annotierte Daten und (ii) die enge Fusion global kohärenter, aber skalenunschärfer monokularer Prioritäten mit lokal metrischen, jedoch photometrisch fragilen Stereo-Korrespondenzen. Um diese Herausforderungen zu bewältigen, schlagen wir StereoAdapter vor, ein parameter-effizientes, selbstüberwachtes Framework, das einen LoRA-adaptierten monokularen Foundation-Encoder mit einem rekursiven Stereo-Verfeinerungsmodul integriert. Wir führen zudem eine dynamische LoRA-Adaption für effiziente Rangauswahl und ein Pre-Training auf dem synthetischen UW-StereoDepth-40K-Datensatz ein, um die Robustheit unter verschiedenen Unterwasserbedingungen zu verbessern. Umfassende Bewertungen auf simulierten und realen Benchmarks zeigen Verbesserungen von 6,11 % auf TartanAir und 5,12 % auf SQUID im Vergleich zu state-of-the-art Methoden, während der reale Einsatz mit dem BlueROV2-Roboter die konsistente Robustheit unseres Ansatzes weiter unterstreicht. Code: https://github.com/AIGeeksGroup/StereoAdapter. Website: https://aigeeksgroup.github.io/StereoAdapter.
Neurale Audiocodecs sind eine grundlegende Komponente moderner generativer Audio-Pipelines. Obwohl aktuelle Codecs eine starke Rekonstruktion bei niedriger Bitrate erreichen und leistungsstarke Repräsentationen für nachgelagerte Aufgaben bieten, sind die meisten nicht streamfähig, was ihren Einsatz in Echtzeitanwendungen einschränkt. Wir stellen FocalCodec-Stream vor, einen hybriden Codec basierend auf fokaler Modulation, der Sprache in ein einzelnes binäres Codebuch bei 0,55 - 0,80 kbps mit einer theoretischen Latenz von 80 ms komprimiert. Unser Ansatz kombiniert eine mehrstufige kausale Destillation von WavLM mit gezielten architektonischen Verbesserungen, einschließlich eines leichten Verfeinerungsmoduls, das die Qualität unter Latenzbeschränkungen verbessert. Experimente zeigen, dass FocalCodec-Stream bestehende streamfähige Codecs bei vergleichbaren Bitraten übertrifft, während sowohl semantische als auch akustische Informationen erhalten bleiben. Das Ergebnis ist ein vorteilhafter Kompromiss zwischen Rekonstruktionsqualität, Leistung bei nachgelagerten Aufgaben, Latenz und Effizienz. Code und Checkpoints werden unter https://github.com/lucadellalib/focalcodec veröffentlicht.
Automatisierte Code-Review (CR) ist eine zentrale Anwendung für Large Language Models (LLMs), doch der Fortschritt wird durch eine „Realitätslücke“ behindert: bestehende Benchmarks bewerten Modelle anhand isolierter Teilaufgaben unter Verwendung vereinfachter, kontextarmer Daten. Dies spiegelt nicht die ganzheitliche, kontextreiche Natur von CR in der Praxis wider. Um diese Lücke zu schließen, führen wir CodeFuse-CR-Bench ein, den ersten umfassendkeitsbewussten Benchmark für die Bewertung von CR auf Repository-Ebene. CodeFuse-CR-Bench umfasst 601 hochwertige Instanzen aus 70 Python-Projekten, die neun Problemdomänen von Pull-Requests (PRs) abdecken. Jede Instanz bietet einen reichhaltigen, vielschichtigen Kontext, einschließlich des zugehörigen Issues, PR-Details und des Repository-Zustands, wodurch eine end-to-end-Bewertung ermöglicht wird. Über oberflächliche Metriken hinaus schlagen wir auch ein neuartiges Bewertungsframework vor, das regelbasierte Prüfungen von Ort und Syntax mit modellbasierten Urteilen zur Review-Qualität kombiniert. Wir präsentieren die erste groß angelegte Bewertung von state-of-the-art LLMs für diese umfassende CR-Aufgabe. Unsere Ergebnisse etablieren entscheidende Baselines und zeigen, dass (1) kein einzelnes LLM alle Aspekte von CR dominiert; (2) Gemini 2.5 Pro die höchste Gesamtleistung erzielt; und (3) verschiedene LLMs unterschiedliche Robustheit gegenüber redundantem Kontext aufweisen. Diese Erkenntnisse unterstreichen die Notwendigkeit einer ganzheitlichen, mehrdimensionalen Bewertung und liefern umsetzbare Einblicke für die Weiterentwicklung wirklich intelligenter und praktischer CR-Assistenten.
Prozess-Belohnungsmodelle (PRMs) bieten feingranulare, schrittweise Bewertungen, die tiefere Denkprozesse in großen Sprachmodellen (LLMs) fördern und sich in komplexen Aufgaben wie mathematischem Denken als effektiv erweisen. Die Entwicklung von PRMs ist jedoch aufgrund der hohen Kosten und der begrenzten Skalierbarkeit von menschlich annotierten Daten herausfordernd. Synthetische Daten aus Monte-Carlo (MC)-Schätzungen stellen eine vielversprechende Alternative dar, leiden jedoch unter einem hohen Rauschanteil, der zu Überanpassung führen und das Training in großem Maßstab behindern kann. In dieser Arbeit führen wir eine Vorstudie zur Rauschverteilung in synthetischen Daten aus MC-Schätzungen durch und identifizieren, dass Annotationsmodelle aufgrund von Einschränkungen in ihren Annotationsfähigkeiten dazu neigen, die Schrittkorrektheit sowohl zu unterschätzen als auch zu überschätzen. Aufbauend auf diesen Erkenntnissen schlagen wir Self-Denoising Monte Carlo Annotation (SCAN) vor, ein effizientes Framework für die Datensynthese und rauschtolerantes Lernen. Unsere zentralen Ergebnisse zeigen, dass: (1) Selbst leichte Modelle (z. B. mit 1,5 Milliarden Parametern) durch eine Selbstentrauschungsstrategie hochwertige Annotationen erzeugen können, wodurch PRMs mit nur 6 % der Inferenzkosten, die für die herkömmliche MC-Schätzung erforderlich sind, eine überlegene Leistung erzielen können. (2) Mit unserer robusten Lernstrategie können PRMs effektiv aus dieser schwachen Überwachung lernen und eine Verbesserung des F1-Scores um 39,2 Punkte (von 19,9 auf 59,1) in ProcessBench erreichen. Trotz der Verwendung eines kompakten synthetischen Datensatzes übertreffen unsere Modelle starke Baseline-Modelle, einschließlich solcher, die auf groß angelegten, menschlich annotierten Datensätzen wie PRM800K trainiert wurden. Darüber hinaus verbessert sich die Leistung weiter, wenn wir die synthetischen Daten skalieren, was das Potenzial von SCAN für skalierbares, kosteneffizientes und robustes PRM-Training unterstreicht.