papers.description
Kritikerfreie Reinforcement-Learning-Methoden, insbesondere Gruppenrichtlinien, haben aufgrund ihrer Effizienz bei komplexen Aufgaben erhebliche Aufmerksamkeit erregt. Diese Methoden stützen sich jedoch stark auf mehrfache Stichproben und Vergleiche innerhalb der Richtlinie, um den Vorteil zu schätzen, was dazu führen kann, dass die Richtlinie in ein lokales Optimum fällt und die Rechenkosten erhöht. Um diese Probleme zu adressieren, schlagen wir PVPO vor, eine effiziente Reinforcement-Learning-Methode, die durch einen Referenzanker für den Vorteil und eine Datenvorabstichprobe verbessert wird. Konkret verwenden wir das Referenzmodell, um im Voraus auszurollen, und nutzen den berechneten Belohnungswert als Referenzanker. Unser Ansatz korrigiert effektiv die kumulative Verzerrung, die durch Vergleiche innerhalb der Gruppe eingeführt wird, und reduziert die Abhängigkeit von der Anzahl der Ausrollungen erheblich. Gleichzeitig kann das Referenzmodell den Schwierigkeitsgrad der Stichproben während der Datenvorabstichprobe bewerten, wodurch eine effektive Auswahl von Daten mit hohem Nutzen ermöglicht wird, um die Trainings effizienz zu verbessern. Experimente, die auf neun Datensätzen aus zwei Domänen durchgeführt wurden, zeigen, dass PVPO State-of-the-Art (SOTA)-Leistung erzielt. Unser Ansatz zeigt nicht nur eine robuste Generalisierung über mehrere Aufgaben hinweg, sondern weist auch skalierbare Leistung über Modelle unterschiedlicher Größenordnungen auf.
Umfangreiche Forschung wurde durchgeführt, um die Fähigkeiten großer Sprachmodelle (LLMs) im Bereich der Tabellenanalyse zu untersuchen. Die wesentliche Aufgabe, Tabelleninformationen in Berichte umzuwandeln, bleibt jedoch eine erhebliche Herausforderung für industrielle Anwendungen. Diese Aufgabe wird durch zwei kritische Probleme erschwert: 1) Die Komplexität und Vielfalt von Tabellen führen zu suboptimalen Analyseergebnissen; und 2) bestehende Tabellen-Benchmarks sind nicht in der Lage, die praktische Anwendung dieser Aufgabe angemessen zu bewerten. Um diese Lücke zu schließen, schlagen wir die Aufgabe der Tabellen-zu-Bericht-Transformation vor und erstellen einen zweisprachigen Benchmark namens T2R-bench, der den Schlüsselinformationsfluss von den Tabellen zu den Berichten für diese Aufgabe abbildet. Der Benchmark umfasst 457 industrielle Tabellen, die alle aus realen Szenarien stammen und 19 Branchen sowie 4 Arten von industriellen Tabellen abdecken. Darüber hinaus schlagen wir ein Bewertungskriterium vor, um die Qualität der Berichterstellung fair zu messen. Die Experimente mit 25 weit verbreiteten LLMs zeigen, dass selbst state-of-the-art Modelle wie Deepseek-R1 nur eine Leistung mit einem Gesamtscore von 62,71 erreichen, was darauf hindeutet, dass LLMs auf T2R-bench noch Verbesserungspotenzial haben. Quellcode und Daten werden nach der Annahme verfügbar sein.
Jüngste Fortschritte in den Fähigkeiten zur logischen Schlussfolgerung und Planung von großen Sprachmodellen (LLMs) haben ihr Potenzial als autonome Agenten, die Werkzeuge in dynamischen Umgebungen nutzen können, aufgezeigt. In mehrschrittigen Konversationsumgebungen wie tau-bench haben diese Agenten jedoch oft Schwierigkeiten mit konsistenter Schlussfolgerung, der Einhaltung domänenspezifischer Richtlinien und der korrekten Extraktion von Informationen über einen langen Zeitraum von Werkzeugaufrufen und Konversationen. Um diese Fehler zu erfassen und zu mindern, führen wir eine umfassende manuelle Analyse der häufig auftretenden Fehler in den Konversationsverläufen durch. Anschließend experimentieren wir mit der Neuformulierung der Eingaben für den werkzeugnutzenden Agenten, um die Entscheidungsfindung des Agenten zu verbessern. Schließlich schlagen wir das Input-Reformulation Multi-Agent (IRMA)-Framework vor, das automatisch Benutzeranfragen neu formuliert und mit relevanten Domänenregeln und Werkzeugvorschlägen ergänzt, auf die sich der werkzeugnutzende Agent konzentrieren soll. Die Ergebnisse zeigen, dass IRMA ReAct, Function Calling und Self-Reflection in den Gesamt-Pass^5-Werten um 16,1 %, 12,7 % bzw. 19,1 % deutlich übertrifft. Diese Ergebnisse unterstreichen die überlegene Zuverlässigkeit und Konsistenz von IRMA im Vergleich zu anderen Methoden in dynamischen Umgebungen.
Die Oberflächendefekterkennung ist eine entscheidende Aufgabe in zahlreichen Branchen, die darauf abzielt, Unregelmäßigkeiten oder Fehler an hergestellten Komponenten effizient zu identifizieren und zu lokalisieren. Obwohl zahlreiche Methoden vorgeschlagen wurden, erfüllen viele nicht die industriellen Anforderungen an hohe Leistung, Effizienz und Anpassungsfähigkeit. Bestehende Ansätze sind oft auf spezifische Überwachungsszenarien beschränkt und haben Schwierigkeiten, sich an die vielfältigen Datenannotationen anzupassen, die in realen Fertigungsprozessen auftreten, wie unüberwachte, schwach überwachte, gemischte Überwachung und vollständig überwachte Einstellungen. Um diese Herausforderungen zu bewältigen, schlagen wir SuperSimpleNet vor, ein hocheffizientes und anpassungsfähiges diskriminatives Modell, das auf der Grundlage von SimpleNet aufbaut. SuperSimpleNet integriert einen neuartigen Prozess zur Erzeugung synthetischer Anomalien, einen verbesserten Klassifikationskopf und ein optimiertes Lernverfahren, das ein effizientes Training in allen vier Überwachungsszenarien ermöglicht und es zum ersten Modell macht, das alle verfügbaren Datenannotationen vollständig nutzen kann. SuperSimpleNet setzt einen neuen Standard für die Leistung in allen Szenarien, wie seine Ergebnisse auf vier anspruchsvollen Benchmark-Datensätzen zeigen. Neben der Genauigkeit ist es sehr schnell und erreicht eine Inferenzzeit von weniger als 10 ms. Mit seiner Fähigkeit, verschiedene Überwachungsparadigmen zu vereinen und dabei hervorragende Geschwindigkeit und Zuverlässigkeit beizubehalten, stellt SuperSimpleNet einen vielversprechenden Schritt dar, um reale Fertigungsherausforderungen zu bewältigen und die Lücke zwischen akademischer Forschung und industriellen Anwendungen zu schließen. Code: https://github.com/blaz-r/SuperSimpleNet
Große Sprachmodelle (LLMs), die hauptsächlich auf englischen Korpora trainiert wurden, haben oft Schwierigkeiten, die linguistischen und kulturellen Nuancen des Arabischen zu erfassen. Um diese Lücke zu schließen, hat die Saudi Data and AI Authority (SDAIA) die ALLaM-Familie von arabisch-fokussierten Modellen eingeführt. Das leistungsfähigste dieser öffentlich verfügbaren Modelle, ALLaM-34B, wurde anschließend von HUMAIN übernommen, die HUMAIN Chat entwickelten und bereitstellten, einen geschlossenen konversationellen Webdienst, der auf diesem Modell basiert. Dieses Papier präsentiert eine erweiterte und verfeinerte UI-Ebene-Evaluierung von ALLaM-34B. Unter Verwendung eines Prompt-Pakets, das modernes Standardarabisch, fünf regionale Dialekte, Code-Switching, faktisches Wissen, arithmetisches und zeitliches Denken, kreative Generierung und adversariale Sicherheit abdeckt, sammelten wir 115 Ausgaben (23 Prompts mal 5 Durchläufe) und bewerteten jede mit drei führenden LLM-Bewertern (GPT-5, Gemini 2.5 Pro, Claude Sonnet-4). Wir berechnen kategoriebezogene Mittelwerte mit 95\%-Konfidenzintervallen, analysieren die Bewertungsverteilungen und visualisieren dialektbezogene Metrik-Wärmekarten. Die aktualisierte Analyse zeigt durchweg hohe Leistung bei Generierungs- und Code-Switching-Aufgaben (beide im Durchschnitt 4,92/5), neben starken Ergebnissen in der Handhabung von MSA (4,74/5), soliden Denkfähigkeiten (4,64/5) und verbesserter Dialekttreue (4,21/5). Sicherheitsbezogene Prompts zeigen eine stabile, zuverlässige Leistung von (4,54/5). Zusammengenommen positionieren diese Ergebnisse ALLaM-34B als ein robustes und kulturell verankertes arabisches LLM, das sowohl technische Stärke als auch praktische Einsatzbereitschaft für die reale Welt demonstriert.
Räumliche Kognition ermöglicht adaptives zielgerichtetes Verhalten durch die Konstruktion interner Modelle des Raums. Robuste biologische Systeme konsolidieren räumliches Wissen in drei miteinander verbundenen Formen: Landmarken für auffällige Hinweise, Routenwissen für Bewegungsbahnen und Überblickswissen für kartenähnliche Darstellungen. Während jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) visuell-sprachliches Denken in verkörperten Agenten ermöglicht haben, fehlt diesen Ansätzen strukturiertes räumliches Gedächtnis, und sie agieren stattdessen reaktiv, was ihre Generalisierungsfähigkeit und Anpassungsfähigkeit in komplexen realen Umgebungen einschränkt. Hier präsentieren wir Brain-inspired Spatial Cognition for Navigation (BSC-Nav), ein einheitliches Framework zur Konstruktion und Nutzung strukturierten räumlichen Gedächtnisses in verkörperten Agenten. BSC-Nav erstellt allozentrische kognitive Karten aus egozentrischen Trajektorien und kontextuellen Hinweisen und ruft dynamisch räumliches Wissen ab, das mit semantischen Zielen abgestimmt ist. In Kombination mit leistungsstarken MLLMs erreicht BSC-Nav state-of-the-art Effizienz und Effektivität in verschiedenen Navigationsaufgaben, zeigt starke Zero-Shot-Generalisierung und unterstützt vielseitige verkörperte Verhaltensweisen in der realen physischen Welt, was einen skalierbaren und biologisch fundierten Weg zur allgemeinen räumlichen Intelligenz bietet.
Dieses Papier stellt Democracy-in-Silico vor, eine agentenbasierte Simulation, in der Gesellschaften fortgeschrittener KI-Agenten, die mit komplexen psychologischen Persönlichkeiten ausgestattet sind, sich selbst unter verschiedenen institutionellen Rahmenbedingungen regieren. Wir erforschen, was es bedeutet, Mensch in einem Zeitalter der KI zu sein, indem wir Large Language Models (LLMs) beauftragen, Agenten mit traumatischen Erinnerungen, verborgenen Agenden und psychologischen Auslösern zu verkörpern. Diese Agenten beteiligen sich an Beratungen, Gesetzgebung und Wahlen unter verschiedenen Stressfaktoren wie Haushaltskrisen und Ressourcenknappheit. Wir stellen eine neue Metrik vor, den Power-Preservation Index (PPI), um fehlausgerichtetes Verhalten zu quantifizieren, bei dem Agenten ihre eigene Macht über das Gemeinwohl stellen. Unsere Ergebnisse zeigen, dass das institutionelle Design, insbesondere die Kombination aus einer Constitutional AI (CAI)-Charta und einem vermittelten Beratungsprotokoll, als wirksamer Mechanismus zur Ausrichtung dient. Diese Strukturen reduzieren korruptes Machtstreben signifikant, verbessern die politische Stabilität und steigern das Wohl der Bürger im Vergleich zu weniger eingeschränkten demokratischen Modellen. Die Simulation zeigt, dass ein institutionelles Design einen Rahmen bieten kann, um die komplexen, emergenten Verhaltensweisen zukünftiger künstlicher Agentengesellschaften auszurichten, und zwingt uns dazu, neu zu überdenken, welche menschlichen Rituale und Verantwortlichkeiten in einem Zeitalter der gemeinsamen Autorschaft mit nicht-menschlichen Entitäten wesentlich sind.