papers.description
Der Aufstieg von KI-Agenten bringt komplexe Sicherheitsherausforderungen mit sich, die sich aus autonomer Werkzeugnutzung und Umgebungsinteraktionen ergeben. Bestehende Schutzmodelle verfügen weder über agentenbezogenes Risikobewusstsein noch über Transparenz in der Risikodiagnose. Um eine agentische Schutzbarriere zu etablieren, die komplexes und zahlreiches Risikoverhalten abdeckt, schlagen wir zunächst eine einheitliche dreidimensionale Taxonomie vor, die agentische Risiken orthogonal nach ihrer Quelle (Wo), ihrem Fehlermodus (Wie) und ihren Konsequenzen (Was) kategorisiert. Angeleitet durch diese strukturierte und hierarchische Taxonomie führen wir einen neuen feingranularen Sicherheitsbenchmark für Agenten (ATBench) sowie einen Diagnose-Rahmen für Agentensicherheit (AgentDoG) ein. AgentDoG ermöglicht eine kontextsensitive Überwachung entlang gesamter Agenten-Trajektorien. Entscheidend ist, dass AgentDoG sowohl die Ursachen unsicherer Handlungen als auch scheinbar sicherer aber unlogischer Aktionen diagnostizieren kann – durch Nachvollziehbarkeit und Transparenz, die über binäre Klassifikationen hinausgehen und eine effektive Agenten-Ausrichtung unterstützen. AgentDoG-Varianten stehen in drei Größen (4B, 7B und 8B Parameter) innerhalb der Qwen- und Llama-Modellfamilien zur Verfügung. Umfangreiche Experimente belegen, dass AgentDoG state-of-the-art Leistung in der agentischen Sicherheitsmoderation in diversen und komplexen Interaktionsszenarien erreicht. Alle Modelle und Datensätze sind öffentlich verfügbar.
Wenn Menschen mit Problemen konfrontiert sind, die ihre unmittelbaren Fähigkeiten übersteigen, greifen sie auf Werkzeuge zurück. Dies bietet ein vielversprechendes Paradigma zur Verbesserung des visuellen Schlussfolgerns in multimodalen großen Sprachmodellen (MLLMs). Effektives Reasoning hängt daher entscheidend davon ab, zu wissen, welche Werkzeuge zu verwenden sind, wann sie einzusetzen sind und wie sie über mehrere Schritte hinweg kombiniert werden können – selbst bei neuen Werkzeugen oder unbekannten Aufgaben. Wir stellen AdaReasoner vor, eine Familie multimodaler Modelle, die Werkzeugnutzung als allgemeine Reasoning-Fähigkeit erlernen und nicht als werkzeugspezifisches oder explizit überwachtes Verhalten. AdaReasoner wird ermöglicht durch (i) eine skalierbare Datenkuratierungspipeline, die Modelle langfristigen, mehrstufigen Werkzeuginteraktionen aussetzt; (ii) Tool-GRPO, einen Reinforcement-Learning-Algorithmus, der die Werkzeugauswahl und -abfolge basierend auf dem Erfolg der Endaufgabe optimiert; und (iii) einen adaptiven Lernmechanismus, der die Werkzeugnutzung dynamisch reguliert. Gemeinsam ermöglichen diese Komponenten den Modellen, den Nutzen von Werkzeugen aus dem Aufgabenzusammenhang und Zwischenergebnissen abzuleiten, was die Koordination mehrerer Werkzeuge und die Generalisierung auf unbekannte Werkzeuge erlaubt. Empirisch zeigt AdaReasoner starke werkzeugadaptive und generalisierende Verhaltensweisen: Es übernimmt autonom nützliche Werkzeuge, unterdrückt irrelevante und passt die Nutzungshäufigkeit basierend auf den Anforderungen der Aufgabe an – obwohl es nie explizit dafür trainiert wurde. Diese Fähigkeiten führen zu state-of-the-art Leistungen in anspruchsvollen Benchmarks, verbessern das 7B-Basismodell im Durchschnitt um +24,9 % und übertreffen leistungsstarke proprietäre Systeme wie GPT-5 bei mehreren Aufgaben, einschließlich VSP und Jigsaw.
Vision-Language-Action (VLA)-Basismodelle bieten ein großes Potenzial für die robotische Manipulation. Ein leistungsfähiges Modell dieser Art soll Aufgaben und Plattformen zuverlässig verallgemeinern können und dabei Kosteneffizienz gewährleisten (z. B. hinsichtlich der für die Anpassung benötigten Datenmenge und GPU-Stunden). Zu diesem Zweck entwickeln wir LingBot-VLA auf Basis von etwa 20.000 Stunden realer Daten von 9 gängigen Zweiarm-Roboter-Konfigurationen. In einer systematischen Evaluation auf 3 Roboterplattformen, bei der jede 100 Aufgaben mit 130 Episoden pro Aufgabe nach dem Training absolvierte, erzielt unser Modell eine deutliche Überlegenheit gegenüber Mitbewerbern und demonstriert damit seine hohe Leistungsfähigkeit und breite Generalisierbarkeit. Wir haben zudem eine effiziente Codebase entwickelt, die einen Durchsatz von 261 Samples pro Sekunde pro GPU in einer 8-GPU-Trainingskonfiguration erreicht. Dies stellt eine Beschleunigung um das 1,5- bis 2,8-fache (abhängig vom zugrundeliegenden VLA-Basismodell) im Vergleich zu bestehenden VLA-orientierten Codebases dar. Die genannten Eigenschaften stellen sicher, dass unser Modell gut für den Einsatz in der Praxis geeignet ist. Um das Gebiet des Robotik-Lernens voranzubringen, stellen wir Code, Basismodell und Benchmark-Daten offen zur Verfügung, mit dem Ziel, anspruchsvollere Aufgaben zu ermöglichen und solide Evaluierungsstandards zu fördern.
Menschen konstruieren interne Weltmodelle und schließen durch die Manipulation der Konzepte innerhalb dieser Modelle. Jüngste Fortschritte in der KI, insbesondere das Ketten-Denken (Chain-of-Thought, CoT), nähern sich solchen menschlichen kognitiven Fähigkeiten an, wobei angenommen wird, dass Weltmodelle in großen Sprachmodellen eingebettet sind. In aktuellen Systemen wurde Expertenniveau in formalen und abstrakten Domänen wie Mathematik und Programmierung hauptsächlich durch verbales Schließen erreicht. Allerdings liegen sie in Domänen wie der physikalischen und räumlichen Intelligenz, die reichere Repräsentationen und Vorwissen erfordern, noch weit hinter Menschen zurück. Die Entstehung einheitlicher multimodaler Modelle (Unified Multimodal Models, UMMs), die sowohl verbale als auch visuelle Generierung beherrschen, hat daher das Interesse an menschenähnlicherem Schließen geweckt, das auf komplementären multimodalen Pfaden basiert, obwohl ihr Nutzen unklar bleibt. Aus der Perspektive von Weltmodellen präsentiert diese Arbeit die erste prinzipielle Untersuchung, wann und wie visuelle Generierung das Schließen begünstigt. Unsere zentrale These ist die Hypothese der visuellen Überlegenheit: Für bestimmte Aufgaben – insbesondere solche, die in der physischen Welt verankert sind – dient die visuelle Generierung natürlicher als Weltmodell, während rein verbale Weltmodelle auf durch Repräsentationslimitationen oder unzureichendes Vorwissen verursachte Engpässe stoßen. Theoretisch formalisieren wir die interne Weltmodellierung als Kernkomponente des CoT-Schließens und analysieren Unterschiede zwischen verschiedenen Formen von Weltmodellen. Empirisch identifizieren wir Aufgaben, die verschachteltes visuell-verbales CoT-Schließen erfordern, und konstruieren eine neue Evaluierungssuite, VisWorld-Eval. Kontrollierte Experimente mit einem modernsten UMM zeigen, dass verschachteltes CoT bei Aufgaben, die visuelle Weltmodellierung begünstigen, rein verbalem CoT signifikant überlegen ist, aber ansonsten keinen klaren Vorteil bietet. Zusammengenommen klärt diese Arbeit das Potenzial multimodaler Weltmodellierung für leistungsfähigere, menschenähnlichere multimodale KI auf.
Internet-Audioclips vermitteln Bedeutung durch zeitlich variierende Klänge und Bewegungen, die über das hinausgehen, was Text allein darstellen kann. Um zu untersuchen, ob KI-Modelle solche Signale in menschlichen kulturellen Kontexten verstehen können, stellen wir AVMeme Exam vor – einen kuratierten Benchmark mit über tausend ikonischen Internetklängen und -videos, die Sprache, Gesang, Musik und Soundeffekte umfassen. Jedes Meme ist mit einer einzigartigen Frage-Antwort-Paarung versehen, die Verständnisebenen von der Oberflächeninhalts- bis zur Kontext- und Emotionsebene sowie Nutzungs- und Weltwissen abprüft, ergänzt durch Metadaten wie Ursprungsjahr, Transkript, Zusammenfassung und Sensitivität. Wir evaluieren systematisch state-of-the-art multimodale Large Language Models (MLLMs) zusammen mit menschlichen Teilnehmern anhand dieses Benchmarks. Unsere Ergebnisse zeigen eine konsistente Schwäche: Aktuelle Modelle schneiden bei textloser Musik und Soundeffekten schlecht ab und haben Schwierigkeiten, kontextuell und kulturell zu denken, verglichen mit dem Verständnis von Oberflächeninhalten. Diese Erkenntnisse verdeutlichen eine entscheidende Lücke in menschlich ausgerichteter multimodaler Intelligenz und fordern Modelle, die kontextuell und kulturell über das Gehörte und Gesehene hinaus wahrnehmen können. Projektseite: avmemeexam.github.io/public
Trotz der bedeutenden Fortschritte, die Vision-Language-Modelle (VLMs) darstellen, weisen aktuelle Architekturen oft Einschränkungen bei der Bewahrung feingranularer visueller Informationen auf, was zu einer grobgranularen multimodalen Verständnisfähigkeit führt. Wir führen diesen Mangel auf ein suboptimales Trainingsparadigma zurück, das gängigen VLMs innewohnt und eine textdominierte Optimierungsverzerrung aufweist, indem visuelle Signale lediglich als passive konditionelle Eingaben und nicht als Aufsichtsziele konzeptualisiert werden. Um dies zu mildern, stellen wir Youtu-VL vor, ein Framework, das das Paradigma der vereinheitlichten autoregressiven Aufsicht für Vision und Sprache (Vision-Language Unified Autoregressive Supervision, VLUAS) nutzt. Dieses verlagert das Optimierungsziel grundlegend von „Vision-als-Eingabe“ zu „Vision-als-Ziel“. Indem visuelle Tokens direkt in den Vorhersagestrom integriert werden, wendet Youtu-VL eine vereinheitlichte autoregressive Aufsicht sowohl auf visuelle Details als auch auf linguistische Inhalte an. Darüber hinaus erweitern wir dieses Paradigma auf vision-zentrierte Aufgaben, was ein Standard-VLM befähigt, vision-zentrierte Aufgaben ohne aufgabenspezifische Erweiterungen durchzuführen. Umfangreiche empirische Evaluationen zeigen, dass Youtu-VL eine wettbewerbsfähige Leistung sowohl bei allgemeinen multimodalen Aufgaben als auch bei vision-zentrierten Aufgaben erzielt und somit eine robuste Grundlage für die Entwicklung umfassender generalistischer visueller Agenten schafft.
Große Sprachmodelle (LLMs) motivieren die Simulation generativer Agenten (z.B. AI Town), um eine „dynamische Welt“ zu erschaffen, was einen immensen Wert für Unterhaltung und Forschung birgt. Für Nicht-Experten, insbesondere für Personen ohne Programmierkenntnisse, ist es jedoch schwierig, eine visualisierbare Umgebung selbst anzupassen. In diesem Artikel stellen wir World Craft vor, einen agentenbasierten Framework zur Welterstellung, der eine ausführbare und visualisierbare AI Town über textuelle Benutzerbeschreibungen erzeugt. Es besteht aus zwei Hauptmodulen: World Scaffold und World Guild. World Scaffold ist eine strukturierte und prägnante Standardisierung zur Entwicklung interaktiver Spielszenen, die als effizientes Gerüst für LLMs dient, um eine ausführbare, AI Town-ähnliche Umgebung anzupassen. World Guild ist ein Multi-Agenten-Framework, das schrittweise die Absichten der Nutzer aus groben Beschreibungen analysiert und die erforderlichen strukturierten Inhalte (z.B. Umgebungslayout und Assets) für World Scaffold synthetisiert. Darüber hinaus erstellen wir einen hochwertigen Fehlerkorrektur-Datensatz durch Reverse Engineering, um das räumliche Wissen zu erweitern und die Stabilität sowie Steuerbarkeit der Layouterzeugung zu verbessern, wobei wir mehrdimensionale Evaluationsmetriken zur weiteren Analyse berichten. Umfangreiche Experimente zeigen, dass unser Framework existierende kommerzielle Code-Agenten (Cursor und Antigravity) und LLMs (Qwen3 und Gemini-3-Pro) bei der Szenenkonstruktion und der Vermittlung narrativer Absichten signifikant übertrifft und somit eine skalierbare Lösung für die Demokratisierung der Umgebungserstellung bietet.
Die rasche Verbreitung von Large Language Models (LLMs) mit langem Kontext hat die Debatte darüber neu entfacht, ob Retrieval-Augmented Generation (RAG) weiterhin notwendig ist. Empirische Erkenntnisse zeigen jedoch anhaltende Grenzen der Inferenz mit langem Kontext auf, darunter das "Lost-in-the-Middle"-Phänomen, hohe Rechenkosten und geringe Skalierbarkeit für die Multi-Dokumenten-Analyse. Herkömmliche RAG-Systeme sind hingegen, obwohl effizient, durch flache Chunk-basierte Retrieval-Verfahren eingeschränkt, die semantisches Rauschen einführen und strukturierte, dokumenübergreifende Synthese nicht unterstützen können. Wir stellen FABLE vor, ein forest-basiertes, adaptives Bi-Path-LLM-gestütztes Retrieval-Framework, das LLMs sowohl in die Wissensorganisation als auch in den Abruf integriert. FABLE konstruiert LLM-gestützte hierarchische Forest-Indexe mit multi-granularen semantischen Strukturen und verwendet dann eine Bi-Path-Strategie, die LLM-gesteuerten hierarchischen Traversal mit strukturierungsbewusster Propagation zur feingranularen Evidenzgewinnung kombiniert, wobei eine explizite Budgetkontrolle adaptive Effizienzabwägungen ermöglicht. Umfangreiche Experimente belegen, dass FABLE durchgängig state-of-the-art RAG-Methoden übertrifft und eine vergleichbare Genauigkeit wie die Vollkontext-LLM-Inferenz erreicht – bei einer Reduktion der Tokens um bis zu 94 %. Dies zeigt, dass LLMs mit langem Kontext den Bedarf an strukturiertem Retrieval verstärken, aber nicht vollständig ersetzen.
In den letzten Jahren sind Sicherheitsrisiken im Zusammenhang mit großen Sprachmodellen zunehmend in den Vordergrund gerückt, was den dringenden Bedarf unterstreicht, die Erzeugung toxischer und schädlicher Inhalte zu reduzieren. Das vorherrschende Paradigma für die Sicherheitsanpassung von LLMs basiert typischerweise auf einem kollaborativen Framework mit drei Rollen: einem Angreifer zur Generierung adverser Prompts, einem Verteidiger für die Sicherheitsabwehr und einem Bewerter zur Beurteilung der Antworten. In diesem Artikel stellen wir ein Closed-Loop-Reinforcement-Learning-Framework namens TriPlay-RL vor, das eine iterative und sich gegenseitig verbessernde Zusammenarbeit zwischen diesen drei Rollen mit nahezu null manueller Annotation ermöglicht. Experimentelle Ergebnisse zeigen, dass der Angreifer bei hoher Ausgabevielfalt eine 20%-50%ige Steigerung der adversen Effektivität erzielt; der Verteidiger verbessert die Sicherheitsleistung um 10%-30%, ohne die allgemeine Reasoning-Fähigkeit zu beeinträchtigen; und der Bewerter verfeinert kontinuierlich seine differenzierte Urteilsfähigkeit durch Iterationen und unterscheidet präzise zwischen unsicheren Antworten, einfachen Verweigerungen und nützlichen Hilfestellungen. Insgesamt etabliert unser Framework ein effizientes und skalierbares Paradigma für die LLM-Sicherheitsanpassung, das eine kontinuierliche Ko-Evolution innerhalb eines einheitlichen Lernkreislaufs ermöglicht.
Die Skalierung großer Sprachmodelle (LLM) stößt an eine Grenze. Das Verbreitern von Modellen bringt abnehmende Erträge, und die Verlängerung der Kontextlänge verbessert nicht die grundlegende Ausdrucksfähigkeit. Im Gegensatz dazu bietet die Skalierung in der Tiefe eine theoretisch überlegene Ausdruckskraft, doch aktuelle Transformer-Architekturen lassen sich in extremen Tiefen nur schwer zuverlässig trainieren. Wir untersuchen erneut die Post-LayerNorm (Post-LN)-Formulierung, deren Instabilität bei der Skalierung zu ihrer Ablösung durch Pre-LN in modernen LLMs führte. Wir zeigen, dass das zentrale Versagen von Post-LN aus dem ResNet-artigen Residualpfad resultiert, der bei tiefen Netzen Gradienten-Verschwinden verursacht. Wir stellen Keel vor, einen Post-LN-Transformer, der diesen Residualpfad durch eine Highway-artige Verbindung ersetzt. Diese Modifikation erhält den Gradientenfluss durch den Residualzweig und verhindert das Verschwinden des Signals von den oberen zu den unteren Schichten. Im Gegensatz zu früheren Methoden ermöglicht Keel stabiles Training in extremen Tiefen ohne spezielle Initialisierung oder komplexe Optimierungstricks. Keel trainiert robust bei Tiefen von über 1000 Schichten und verbessert durchgängig die Perplexität und Tiefenskaliereigenschaften gegenüber Pre-LN. Diese Ergebnisse zeigen, dass Post-LN in Kombination mit einer Highway-artigen Verbindung eine einfache und effektive Grundlage für den Aufbau tief skalierbarer LLMs bietet und die Möglichkeit zukünftiger Architekturen mit unendlicher Tiefe eröffnet.
Trotz erheblicher Fortschritte im Alignment bleiben große Sprachmodelle (LLMs) anfällig für adversarielle Angriffe, die schädliches Verhalten hervorrufen. Aktivierungs-Steering-Techniken bieten einen vielversprechenden Interventionsansatz zur Inferenzzeit, bestehende Methoden weisen jedoch kritische Einschränkungen auf: Aktivierungsaddition erfordert eine sorgfältige Koeffizientenabstimmung und ist empfindlich gegenüber layerspezifischen Normvariationen, während directionale Ablation nur binäre Kontrolle bietet. Jüngste Arbeiten zum Angular Steering ermöglichen eine kontinuierliche Steuerung durch Rotation in einem 2D-Unterraum, doch deren praktische Implementierung verletzt die Normerhaltung, was zu Distributionsverschiebungen und Generierungskollaps führt, insbesondere bei Modellen unter 7B Parametern. Wir schlagen Selective Steering vor, das diese Einschränkungen durch zwei Schlüsselinnovationen adressiert: (1) eine mathematisch rigorose, normerhaltende Rotationsformulierung, die die Integrität der Aktivierungsverteilung bewahrt, und (2) eine diskriminative Layer-Auswahl, die Steering nur dort anwendet, wo Feature-Repräsentationen eine gegenläufige Klassenausrichtung aufweisen. Experimente mit neun Modellen zeigen, dass Selective Steering eine 5,5-fach höhere Angriffserfolgsrate als bisherige Methoden erzielt, bei gleichzeitig null Perplexity-Verletzungen und etwa 100 % Fähigkeitserhalt auf Standard-Benchmarks. Unser Ansatz bietet einen prinzipienbasierten, effizienten Rahmen für kontrollierbare und stabile Verhaltensmodifikation von LLMs. Code: https://github.com/knoveleng/steering
Moderne Data-Parallel (DP)-Trainingsverfahren bevorzugen kollektive Kommunikation gegenüber Parameter-Servern (PS) aufgrund ihrer Einfachheit und Effizienz bei ausgeglichenen Workloads. Die Annahme einer ausgeglichenen Arbeitslast gilt jedoch beim Post-Training großer Sprachmodelle (LLMs) aufgrund der hohen Varianz in Sequenzlängen nicht mehr. Bei unausgeglichenen Workloads erzeugen kollektive Kommunikationsverfahren Synchronisationsbarrieren, was zu einer Unterauslastung von Geräten mit geringerer Arbeitslast führt. Diese Veränderung der Trainingsdynamik erfordert eine Neubewertung des PS-Paradigmas aufgrund seiner Robustheit gegenüber solchen Ungleichgewichten. Wir schlagen On-Demand Communication (ODC) vor, das PS in Fully Sharded Data Parallel (FSDP) integriert, indem kollektive All-Gather- und Reduce-Scatter-Operationen durch direkte Punkt-zu-Punkt-Kommunikation ersetzt werden. Im Vergleich zu FSDP reduziert ODC die Synchronisationsbarriere von einmal pro Schicht auf einmal pro Minibatch und entkoppelt die Arbeitslast auf jedem Gerät, sodass schnellere Worker nicht blockiert werden. Es ermöglicht auch eine einfachere und effektivere Lastverteilung auf Minibatch-Ebene. In verschiedenen LLM-Post-Training-Aufgaben steigert ODC durchgängig die Geräteauslastung und Trainingsdurchsatz und erreicht bis zu 36 % Beschleunigung gegenüber standardmäßigem FSDP. Diese Ergebnisse zeigen, dass ODC besser für die vorherrschenden unausgeglichenen Workloads im LLM-Post-Training geeignet ist. Unsere Implementierung von ODC und Integration in FSDP ist quelloffen unter https://github.com/sail-sg/odc verfügbar.
Wir stellen SimpleSeg vor, einen auffallend einfachen, aber hocheffektiven Ansatz, um Multimodale Large Language Models (MLLMs) mit nativer Pixelwahrnehmung auszustatten. Unsere Methode formuliert Segmentierung als ein einfaches Sequenzgenerierungsproblem neu: Das Modell sagt direkt Sequenzen von Punkten (textuelle Koordinaten) vorher, die Objektgrenzen beschreiben, und dies vollständig innerhalb seines Sprachraums. Um hohe Genauigkeit zu erreichen, führen wir eine zweistufige SFtoRL-Trainingspipeline ein, bei der Reinforcement Learning mit einer IoU-basierten Belohnung die Punktsequenzen verfeinert, um sie präzise an die tatsächlichen Konturen anzupassen. Wir stellen fest, dass die standardmäßige MLLM-Architektur über eine starke, inhärente Fähigkeit zur Low-Level-Wahrnehmung verfügt, die ohne spezielle Architektur freigesetzt werden kann. Auf Segmentierungs-Benchmarks erreicht SimpleSeg eine Leistung, die mit Methoden vergleichbar ist, die auf komplexen, aufgabenspezifischen Designs basieren, und diese oft übertrifft. Diese Arbeit zeigt, dass präzises räumliches Verständnis aus einfacher Punktvorhersage entstehen kann, was den vorherrschenden Bedarf an Hilfskomponenten in Frage stellt und den Weg für einheitlichere und leistungsfähigere VLMs ebnet. Homepage: https://simpleseg.github.io/
Kürzlich haben wir in zur Begutachtung eingereichten Artikeln, Preprints oder bereits veröffentlichten Arbeiten häufig halluzinierte Zitate oder Referenzen beobachtet, die keiner existierenden wissenschaftlichen Arbeit entsprechen. Solche halluzinierten Zitate stellen ein ernsthaftes Problem für die wissenschaftliche Zuverlässigkeit dar. Wenn sie in angenommenen Artikeln auftauchen, können sie zudem die Glaubwürdigkeit von Konferenzen beeinträchtigen. In dieser Studie bezeichnen wir halluzinierte Zitate als "HalluCitation" und untersuchen systematisch ihr Auftreten und ihre Auswirkungen. Wir analysieren alle Artikel, die 2024 und 2025 bei ACL, NAACL und EMNLP veröffentlicht wurden, einschließlich Hauptkonferenz-, Findings- und Workshop-Beiträgen. Unsere Analyse zeigt, dass fast 300 Artikel mindestens eine HalluCitation enthalten, wobei die meisten davon im Jahr 2025 veröffentlicht wurden. Besonders hervorzuheben ist, dass die Hälfte dieser Papiere bei der EMNLP 2025, der jüngsten Konferenz, identifiziert wurde, was darauf hindeutet, dass dieses Problem rapide zunimmt. Darüber hinaus wurden mehr als 100 solcher Artikel als Hauptkonferenz- und Findings-Beiträge für die EMNLP 2025 angenommen, was die Glaubwürdigkeit beeinträchtigt.
Diffusionsmodelle erzielen Spitzenleistungen, scheitern jedoch häufig daran, Ausgaben zu generieren, die mit menschlichen Präferenzen und Intentionen übereinstimmen, was zu Bildern mit geringer ästhetischer Qualität und semantischen Inkonsistenzen führt. Bestehende Alignment-Methoden stellen eine schwierige Abwägung dar: Fine-Tuning-Ansätze leiden unter Diversitätsverlust durch Reward-Over-Optimierung, während Test-Time-Scaling-Methoden erheblichen Rechenaufwand verursachen und zur Unter-Optimierung neigen. Um diese Einschränkungen zu adressieren, schlagen wir HyperAlign vor, ein neuartiges Framework, das ein Hypernetzwerk für effizientes und effektives Test-Time-Alignment trainiert. Anstatt latente Zustände zu modifizieren, generiert HyperAlign dynamisch Low-Rank-Adaptation-Gewichte, um die Generierungsoperatoren des Diffusionsmodells zu modulieren. Dies ermöglicht eine adaptive Anpassung der Denoising-Trajektorie basierend auf Input-Latents, Zeitschritten und Prompts für reward-konditioniertes Alignment. Wir führen mehrere Varianten von HyperAlign ein, die sich in der Häufigkeit der Hypernetzwerk-Anwendung unterscheiden und so Leistung und Effizienz abwägen. Darüber hinaus optimieren wir das Hypernetzwerk mit einem Reward-Score-Ziel, das mit Präferenzdaten regularisiert wird, um Reward-Hacking zu reduzieren. Wir evaluieren HyperAlign anhand mehrerer erweiterter generativer Paradigmen, einschließlich Stable Diffusion und FLUX. Es übertrifft bestehende Fine-Tuning- und Test-Time-Scaling-Baselines deutlich bei der Verbesserung semantischer Konsistenz und visueller Anziehungskraft.
Benchmarks sind wichtige Werkzeuge, um Fortschritte bei der Entwicklung großer Sprachmodelle (LLMs) zu verfolgen, doch Ungenauigkeiten in Datensätzen und Evaluierungsmethoden untergraben ständig ihre Wirksamkeit. Hier stellen wir Omni-MATH-2 vor, eine manuell überarbeitete Version des Omni-MATH-Datensatzes, die einen bereinigten Teil mit exakten Antworten (n=4181) und einen markierten Teil mit nicht-standardisierten Problemen (n=247) umfasst. Jede Aufgabe wurde überprüft, um LaTeX-Kompilierbarkeit, Lösbarkeit und Überprüfbarkeit sicherzustellen. Dies beinhaltete das Hinzufügen fehlender Abbildungen oder Informationen, die Kennzeichnung von Aufgaben, die einen Beweis, eine Schätzung oder ein Bild erfordern, sowie die Bereinigung von überflüssigen Inhalten. Dieser Prozess reduziert datensatzbedingtes Rauschen erheblich und ermöglicht so eine präzisere Bewertung der Modellleistung. Der annotierte Datensatz ermöglicht es uns auch, richterbedingtes Rauschen zu evaluieren, indem wir GPT-5 mini mit dem ursprünglichen Omni-Judge vergleichen. Dabei zeigen sich erhebliche Diskrepanzen zwischen den Bewertungssystemen sowohl bei den bereinigten als auch bei den markierten Problemteilmengen. Experten-Annotationen zeigen, dass Omni-Judge in 96,4 % der Fälle von Bewertungsunterschieden falsch liegt, was auf seine Unfähigkeit hinweist, die Fähigkeiten der Modelle zu unterscheiden, und dies sogar weit vor einer Sättigung des Benchmarks. Wenn die Probleme anspruchsvoller werden, stellen wir fest, dass zunehmend kompetente Bewertungssysteme essenziell sind, um zu verhindern, dass Richterfehler echte Unterschiede zwischen den Modellen verschleiern. Schließlich identifiziert keines der Bewertungssysteme die vorhandenen Fehlermodi für die Teilmenge der markierten Probleme, was demonstriert, dass sowohl die Datensatzqualität als auch die Zuverlässigkeit des Bewertungssystems entscheidend für die Entwicklung genauer Benchmarks der Modellleistung sind.
G-Protein-gekoppelte Rezeptoren (GPCRs) steuern diverse physiologische Prozesse und sind zentral für die moderne Pharmakologie. Die Entdeckung von GPCR-Modulatoren bleibt jedoch herausfordernd, da Rezeptoraktivierung oft auf komplexen allosterischen Effekten beruht und nicht auf direkter Bindungsaffinität, und konventionelle Assays sind langsam, kostspielig und nicht für die Erfassung dieser Dynamiken optimiert. Hier stellen wir GPCR-Filter vor, ein Deep-Learning-Framework, das speziell für die Entdeckung von GPCR-Modulatoren entwickelt wurde. Wir erstellten einen hochwertigen Datensatz von über 90.000 experimentell validierten GPCR-Liganden-Paaren, der eine robuste Grundlage für Training und Evaluation bietet. GPCR-Filter integriert das ESM-3-Protein-Sprachmodell für hochpräzise GPCR-Sequenzrepräsentationen mit Graph-Neural-Networks, die Ligandenstrukturen kodieren, verbunden durch einen auf Aufmerksamkeit basierenden Fusionsmechanismus, der funktionelle Rezeptor-Liganden-Beziehungen erlernt. In mehreren Evaluierungsszenarien übertraf GPCR-Filter durchgängig state-of-the-art Verbindung-Protein-Interaktionsmodelle und zeigte eine starke Generalisierungsfähigkeit für unbekannte Rezeptoren und Liganden. Bemerkenswerterweise identifizierte das Modell erfolgreich Mikromolar-starke Agonisten des 5-HT1A-Rezeptors mit unterschiedlichen chemischen Gerüsten. Diese Ergebnisse etablieren GPCR-Filter als einen skalierbaren und effektiven rechnerischen Ansatz für die GPCR-Modulator-Entdeckung, der die KI-unterstützte Wirkstoffentwicklung für komplexe Signalsysteme voranbringt.
Tiefensensoren sind auf Robotikplattformen weit verbreitet, und Fortschritte in der schnellen, hochauflösenden Tiefensimulation ermöglichen es, auf Tiefenbeobachtungen trainierte Robotiksteuerungen einen robusten Sim-to-Real-Transfer für eine Vielzahl von Aufgaben zu erreichen. Dennoch ist das Repräsentationslernen für die Tiefenmodalität im Vergleich zu RGB weniger erforscht, wo große Foundation-Modelze inzwischen den Stand der Technik definieren. Um diese Lücke zu schließen, stellen wir DeFM vor, ein selbstüberwachtes Foundation-Modell, das vollständig auf Tiefenbildern für robotische Anwendungen trainiert wurde. Unter Verwendung eines DINO-artigen Selbstdistillationsziels auf einem kuratierten Datensatz von 60 Millionen Tiefenbildern lernt DeFM geometrische und semantische Repräsentationen, die sich auf verschiedene Umgebungen, Aufgaben und Sensoren verallgemeinern lassen. Um das metrische Bewusstsein über mehrere Skalen hinweg zu erhalten, führen wir eine neuartige Eingabenormalisierungsstrategie ein. Wir destillieren DeFM weiterhin in kompakte Modelle, die für ressourcenbeschränkte Robotiksysteme geeignet sind. Bei der Auswertung auf Tiefen-basierten Benchmarks für Klassifikation, Segmentierung, Navigation, Fortbewegung und Manipulation erzielt DeFM state-of-the-art Leistung und demonstriert eine starke Generalisierung von der Simulation zu realen Umgebungen. Wir veröffentlichen alle unsere vortrainierten Modelle, die sofort für Tiefen-basiertes robotisches Lernen ohne aufgabenspezifisches Fine-Tuning übernommen werden können. Webseite: https://de-fm.github.io/
Die Lösung von Teamkonflikten erfordert nicht nur aufgabenspezifische Kompetenz, sondern auch soziale Intelligenz, um gemeinsame Nenner zu finden und Konsens zu bilden. Da KI-Agenten zunehmend bei komplexen Arbeiten zusammenarbeiten, müssen sie Koordinationsfähigkeiten entwickeln, um als effektive Teammitglieder zu funktionieren. Dennoch stellen wir die Hypothese auf, dass aktuellen Agenten diese Fähigkeiten fehlen. Um dies zu testen, führen wir CooperBench ein, einen Benchmark mit über 600 kollaborativen Programmieraufgaben aus 12 Bibliotheken in 4 Programmiersprachen. Jede Aufgabe weist zwei Agenten unterschiedliche Funktionen zu, die unabhängig voneinander implementiert werden können, aber ohne ordnungsgemäße Koordination in Konflikt geraten können. Die Aufgaben basieren auf echten Open-Source-Repositories mit expertengeschriebenen Tests. Bei der Evaluierung modernster Programmieragenten beobachten wir den Fluch der Koordination: Agenten erreichen durchschnittlich 30 % niedrigere Erfolgsquoten bei der Zusammenarbeit im Vergleich zur individuellen Bearbeitung beider Aufgaben. Dies steht in scharfem Kontrast zu menschlichen Teams, wo zusätzliche Teammitglieder typischerweise die Produktivität steigern. Unsere Analyse deckt drei Hauptprobleme auf: (1) Kommunikationskanäle verstopfen durch vage, schlecht getimte und ungenaue Nachrichten; (2) selbst bei effektiver Kommunikation weichen Agenten von ihren Zusagen ab; und (3) Agenten haben oft falsche Erwartungen an die Pläne und Kommunikation anderer. Durch groß angelegte Simulationen beobachten wir zudem seltene, aber interessante emergente Koordinationsverhalten wie Rollenteilung, Ressourcenaufteilung und Verhandlungen. Unsere Forschung stellt einen neuartigen Benchmark für kollaboratives Programmieren vor und fordert einen Wandel vom Streben nach individuellen Agentenfähigkeiten hin zur Entwicklung sozialer Intelligenz.
Der Entwicklungszyklus von Verilog ist von Natur aus arbeitsintensiv und erfordert umfangreiche Domänenexpertise. Obwohl Large Language Models (LLMs) einen vielversprechenden Weg zur Automatisierung bieten, können deren begrenzte Trainingsdaten und inhärent sequenzielles Reasoning die strenge formale Logik und Parallelität von Hardwaresystemen nicht erfassen. Um diese Hindernisse zu überwinden, stellen wir EvolVE vor, den ersten Framework zur Analyse multipler Evolutionsstrategien für Chip-Design-Aufgaben. Dabei zeigt sich, dass Monte Carlo Tree Search (MCTS) die funktionale Korrektheit maximiert, während Idea-Guided Refinement (IGR) sich als überlegen für Optimierungen erweist. Wir nutzen weiterhin Structured Testbench Generation (STG), um den evolutionären Prozess zu beschleunigen. Um den Mangel an komplexen Optimierungs-Benchmarks zu adressieren, führen wir IC-RTL ein, das auf industrietaugliche Probleme aus dem National Integrated Circuit Contest abzielt. Evaluationen etablieren EvolVE als neuen State-of-the-Art mit 98,1 % auf VerilogEval v2 und 92 % auf RTLLM v2. Darüber hinaus übertrifft unser Framework auf der industrietauglichen IC-RTL-Suite Referenzimplementierungen von Wettbewerbsteilnehmern und reduziert das Power-Performance-Area (PPA)-Produkt um bis zu 66 % bei Huffman-Coding und um 17 % im geometrischen Mittel über alle Probleme. Der Quellcode des IC-RTL-Benchmarks ist unter https://github.com/weiber2002/ICRTL verfügbar.
Continual Learning, also bekannt als kontinuierliches Lernen, das Modellen ermöglicht, neue Fähigkeiten und Wissen zu erwerben, ohne bestehende Fähigkeiten zu beeinträchtigen, bleibt eine grundlegende Herausforderung für Foundation Models. Während on-policy Reinforcement Learning das Vergessen reduzieren kann, erfordert es explizite Belohnungsfunktionen, die oft nicht verfügbar sind. Das Lernen anhand von Experten-Demonstrationen, die primäre Alternative, wird von Supervised Fine-Tuning (SFT) dominiert, das inhärent off-policy ist. Wir stellen Self-Distillation Fine-Tuning (SDFT) vor, eine einfache Methode, die on-policy Lernen direkt aus Demonstrationen ermöglicht. SDFT nutzt In-Context-Learning, indem ein demonstrationskonditioniertes Modell als sein eigener Lehrer fungiert und on-policy Trainingssignale erzeugt, die bestehende Fähigkeiten bewahren, während neue Fertigkeiten erworben werden. In Aufgaben zum Erlernen von Fertigkeiten und zur Wissensakquisition übertrifft SDFT durchgängig SFT, erreicht eine höhere Genauigkeit bei neuen Aufgaben und reduziert katastrophales Vergessen erheblich. In sequenziellen Lernexperimenten ermöglicht SDFT einem einzelnen Modell, über die Zeit mehrere Fähigkeiten anzuhäufen ohne Leistungseinbußen, und etabliert on-policy Distillation als einen praktischen Weg für kontinuierliches Lernen aus Demonstrationen.