papers.description
Akademische Präsentationsvideos sind zu einem wesentlichen Medium für die Forschungsvermittlung geworden, doch ihre Produktion bleibt äußerst arbeitsintensiv und erfordert oft Stunden für die Gestaltung von Folien, Aufnahme und Bearbeitung für ein kurzes Video von 2 bis 10 Minuten. Im Gegensatz zu natürlichen Videos birgt die Generierung von Präsentationsvideos besondere Herausforderungen: Eingaben aus Forschungsarbeiten, dichte multimodale Informationen (Text, Abbildungen, Tabellen) sowie die Notwendigkeit, mehrere abgestimmte Kanäle wie Folien, Untertitel, Sprache und den sprechenden Menschen zu koordinieren. Um diese Herausforderungen zu bewältigen, stellen wir PaperTalker vor, den ersten Benchmark mit 101 Forschungsarbeiten, die mit vom Autor erstellten Präsentationsvideos, Folien und Sprechermetadaten gepaart sind. Darüber hinaus entwickeln wir vier maßgeschneiderte Bewertungsmetriken – Meta Similarity, PresentArena, PresentQuiz und IP Memory –, um zu messen, wie gut die Videos die Informationen der Arbeit an das Publikum vermitteln. Auf dieser Grundlage aufbauend, präsentieren wir PaperTalker, das erste Multi-Agenten-Framework zur Generierung akademischer Präsentationsvideos. Es integriert die Foliengenerierung mit effektiver Layoutverfeinerung durch eine neuartige effiziente Baum-Suche für visuelle Auswahl, Cursor-Verankerung, Untertitelung, Sprachsynthese und Talking-Head-Rendering, während es die folienweise Generierung zur Steigerung der Effizienz parallelisiert. Experimente mit Paper2Video zeigen, dass die von unserem Ansatz erzeugten Präsentationsvideos treuer und informativer sind als bestehende Baselines, was einen praktischen Schritt in Richtung automatisierter und sofort einsatzbereiter akademischer Videogenerierung darstellt. Unser Datensatz, Agent und Code sind unter https://github.com/showlab/Paper2Video verfügbar.
Große Sprachmodelle (LLMs) wie Agenten und domänenspezifische Reasoning-Systeme setzen zunehmend auf Kontextanpassung – die Modifikation von Eingaben mit Anweisungen, Strategien oder Beweisen, anstatt Gewichtsaktualisierungen. Bisherige Ansätze verbessern zwar die Benutzerfreundlichkeit, leiden jedoch oft unter Kürzungsverzerrung, die domänenspezifische Erkenntnisse zugunsten prägnanter Zusammenfassungen vernachlässigt, sowie unter Kontextkollaps, bei dem iteratives Umschreiben Details im Laufe der Zeit verschlechtert. Aufbauend auf dem adaptiven Gedächtnis, das durch Dynamic Cheatsheet eingeführt wurde, präsentieren wir ACE (Agentic Context Engineering), ein Framework, das Kontexte als sich entwickelnde Playbooks behandelt, die Strategien durch einen modularen Prozess von Generierung, Reflexion und Kuratierung sammeln, verfeinern und organisieren. ACE verhindert den Kollaps durch strukturierte, inkrementelle Aktualisierungen, die detailliertes Wissen bewahren und mit Langzeitkontextmodellen skalieren. In Benchmarks für Agenten und domänenspezifische Anwendungen optimiert ACE Kontexte sowohl offline (z.B. Systemprompts) als auch online (z.B. Agentengedächtnis) und übertrifft dabei konsequent starke Baselines: +10,6 % bei Agenten und +8,6 % im Finanzbereich, während gleichzeitig die Anpassungslatenz und die Rollout-Kosten deutlich reduziert werden. Bemerkenswerterweise konnte ACE effektiv ohne überwachte Beschriftungen adaptieren, indem es natürliches Ausführungsfeedback nutzte. Auf der AppWorld-Rangliste erreicht ACE den durchschnittlichen Gesamtwert des führenden Produktionsagenten und übertrifft ihn im schwierigeren Test-Challenge-Split, obwohl ein kleineres Open-Source-Modell verwendet wird. Diese Ergebnisse zeigen, dass umfassende, sich entwickelnde Kontexte skalierbare, effiziente und selbstverbessernde LLM-Systeme mit geringem Overhead ermöglichen.
Die Videoanalyse stellt die anspruchsvollste Grenze in der Computer Vision dar, da sie von Modellen verlangt, komplexe raumzeitliche Beziehungen, langfristige Abhängigkeiten und multimodale Beweise zu verarbeiten. Das kürzliche Aufkommen von Video-Large Multimodal Models (Video-LMMs), die visuelle Encoder mit leistungsstarken, dekodierbasierten Sprachmodellen integrieren, hat bemerkenswerte Fähigkeiten in der Videoanalyse gezeigt. Dennoch bleibt die kritische Phase, die diese Modelle von einfachen Wahrnehmungssystemen in ausgeklügelte Denkmaschinen verwandelt – das Post-Training – in der Literatur fragmentiert. Diese Übersichtsarbeit bietet die erste umfassende Untersuchung von Post-Training-Methoden für Video-LMMs, die drei grundlegende Säulen umfasst: Supervised Fine-Tuning (SFT) mit Chain-of-Thought, Reinforcement Learning (RL) aus überprüfbaren Zielen und Test-Time Scaling (TTS) durch verbesserte Inferenzberechnung. Wir präsentieren eine strukturierte Taxonomie, die die Rollen, Zusammenhänge und videospezifischen Anpassungen dieser Techniken verdeutlicht und einzigartige Herausforderungen wie zeitliche Lokalisierung, raumzeitliche Verankerung, Effizienz bei langen Videos und die Integration multimodaler Beweise adressiert. Durch systematische Analyse repräsentativer Methoden synthetisieren wir Schlüsselprinzipien, Erkenntnisse und Evaluationsprotokolle und identifizieren kritische offene Herausforderungen in der Belohnungsgestaltung, Skalierbarkeit und Kosten-Leistungs-Optimierung. Darüber hinaus stellen wir wesentliche Benchmarks, Datensätze und Metriken zusammen, um eine rigorose Bewertung der Post-Training-Effektivität zu ermöglichen. Diese Übersichtsarbeit zielt darauf ab, Forschern und Praktikern einen einheitlichen Rahmen zur Weiterentwicklung der Fähigkeiten von Video-LMMs zu bieten. Zusätzliche Ressourcen und Aktualisierungen werden unter folgender Adresse gepflegt: https://github.com/yunlong10/Awesome-Video-LMM-Post-Training
Die Baumsuche hat sich als ein repräsentatives Framework für das Testzeit-Schließen mit großen Sprachmodellen (LLMs) etabliert, wie beispielsweise Methoden wie Tree-of-Thought und Monte-Carlo-Baumsuche, die mehrere Schlussfolgerungspfade erkunden. Es bleibt jedoch schwierig, sofortige und zuverlässige quantitative Bewertungen der Qualität von Zwischenschritten in der Schlussfolgerung bereitzustellen, und die umfangreiche Erkundung von Pfaden ist rechenintensiv. Um dies zu adressieren, schlagen wir die Mutual Information Tree Search (MITS) vor, ein neuartiges Framework, das das Schließen mit informationstheoretischen Prinzipien leitet. MITS führt eine effektive Bewertungsfunktion basierend auf der punktweisen gegenseitigen Information (PMI) ein, die eine schrittweise Bewertung von Schlussfolgerungspfaden und die Erweiterung des Suchbaums durch Beam Search ohne kostspielige Vorausschau-Simulationen ermöglicht. Dadurch werden überlegene Schlussfolgerungsleistungen bei gleichzeitiger Beibehaltung der Recheneffizienz erreicht. Das Framework wird durch eine entropiebasierte dynamische Sampling-Strategie ergänzt, die Rechenressourcen adaptiv auf unsichere Schlussfolgerungsschritte verteilt, bei denen die Erkundung am vorteilhaftesten ist. Für die endgültige Vorhersage verwendet MITS ein gewichtetes Abstimmungsschema, das PMI-Bewertungen mit Vorhersagekonsens kombiniert. Durch umfassende Experimente auf diversen Schlussfolgerungs-Benchmarks übertrifft MITS konsistent Baseline-Methoden und etabliert ein prinzipielles und effizientes Framework für das Schließen mit LLMs.
Aktuelle Modelle zur Videogenerierung können flüssige und visuell ansprechende Clips erzeugen, haben jedoch oft Schwierigkeiten, komplexe Dynamiken mit einer kohärenten Kette von Konsequenzen zu synthetisieren. Die präzise Modellierung visueller Ergebnisse und Zustandsübergänge über die Zeit bleibt eine zentrale Herausforderung. Im Gegensatz dazu zeigen große Sprach- und Multimodale Modelle (z. B. GPT-4o) starke Fähigkeiten in der visuellen Zustandslogik und Zukunftsprognose. Um diese Stärken zu vereinen, führen wir VChain ein, ein neuartiges Inferenzzeit-Framework der „Chain-of-Visual-Thought“, das visuelle Logiksignale aus multimodalen Modellen in die Videogenerierung einbringt. Konkret umfasst VChain eine spezialisierte Pipeline, die große multimodale Modelle nutzt, um eine spärliche Menge kritischer Keyframes als Momentaufnahmen zu generieren. Diese werden dann verwendet, um die spärliche Inferenzzeit-Anpassung eines vortrainierten Videogenerators nur an diesen Schlüsselmomenten zu steuern. Unser Ansatz ist anpassungseffizient, führt zu minimalem Overhead und vermeidet eine dichte Überwachung. Umfangreiche Experimente in komplexen, mehrstufigen Szenarien zeigen, dass VChain die Qualität der generierten Videos signifikant verbessert.
Jailbreaking-Angriffe auf die visuelle Modalität basieren typischerweise auf nicht wahrnehmbaren adversarischen Störungen, während Angriffe auf die textuelle Modalität allgemein als sichtbare Modifikationen (z. B. nicht-semantische Suffixe) angenommen werden. In diesem Artikel führen wir nicht wahrnehmbare Jailbreaks ein, die eine Klasse von Unicode-Zeichen namens Variationsselektoren ausnutzen. Durch das Anhängen unsichtbarer Variationsselektoren an bösartige Fragen erscheinen die Jailbreak-Prompts auf dem Bildschirm visuell identisch zu den ursprünglichen bösartigen Fragen, während ihre Tokenisierung „heimlich“ verändert wird. Wir schlagen eine Chain-of-Search-Pipeline vor, um solche adversarischen Suffixe zu generieren, die schädliche Antworten hervorrufen. Unsere Experimente zeigen, dass unsere nicht wahrnehmbaren Jailbreaks hohe Angriffserfolgsraten gegen vier ausgerichtete LLMs erreichen und sich auf Prompt-Injection-Angriffe verallgemeinern lassen, alles ohne sichtbare Modifikationen im geschriebenen Prompt zu erzeugen. Unser Code ist verfügbar unter https://github.com/sail-sg/imperceptible-jailbreaks.
Jüngste Fortschritte bei großen Sprachmodellen zeigen, dass hybride Architekturen – die Selbstaufmerksamkeitsmechanismen mit strukturierten Zustandsraummodellen wie Mamba kombinieren – ein überzeugendes Gleichgewicht zwischen Modellierungsqualität und Recheneffizienz erreichen können, insbesondere bei Aufgaben mit langem Kontext. Obwohl diese hybriden Modelle vielversprechende Leistungen zeigen, wurden systematische Vergleiche von Hybridisierungsstrategien und Analysen der Schlüsselfaktoren hinter ihrer Effektivität der Gemeinschaft noch nicht klar vermittelt. In dieser Arbeit präsentieren wir eine ganzheitliche Bewertung hybrider Architekturen, die auf inter-schichtiger (sequenzieller) oder intra-schichtiger (paralleler) Fusion basieren. Wir bewerten diese Entwürfe aus verschiedenen Perspektiven: Sprachmodellierungsleistung, Fähigkeiten im langen Kontext, Skalierungsanalysen sowie Trainings- und Inferenzeffizienz. Durch die Untersuchung der Kernmerkmale ihrer Rechenprimitive identifizieren wir die kritischsten Elemente für jede Hybridisierungsstrategie und schlagen optimale Designrezepte für beide hybriden Modelle vor. Unsere umfassende Analyse bietet praktische Anleitungen und wertvolle Einblicke für die Entwicklung hybrider Sprachmodelle und erleichtert die Optimierung architektonischer Konfigurationen.
Trotz jüngster Fortschritte beim optimalen Transfer von Hyperparametern unter Skalierung von Modellen und Datensätzen wurde kein einheitliches Erklärungsprinzip etabliert. Mithilfe des Scion-Optimierers entdecken wir, dass die gemeinsame optimale Skalierung über Modell- und Datensatzgrößen durch eine einzige Invariante bestimmt wird: die Operatornorm der Ausgabeschicht. Bei Modellen mit bis zu 1,3 Milliarden Parametern, die mit bis zu 138 Milliarden Tokens trainiert wurden, weist das optimale Lernraten/Batch-Größen-Paar (η^∗, B^∗) durchweg denselben Operatornorm-Wert auf – ein Phänomen, das wir als Normtransfer bezeichnen. Diese konstante Norm-Bedingung ist notwendig, aber nicht hinreichend: Während für jede Datensatzgröße mehrere (η, B) die optimale Norm erreichen, erzielt nur ein einziges (η^∗, B^∗) den besten Verlust. Als hinreichende Bedingung liefern wir die erste Messung der Skalierung von (η^∗, B^∗) mit der Datensatzgröße für Scion und stellen fest, dass die Skalierungsregeln mit denen des Adam-Optimierers übereinstimmen. Die Feinabstimmung der Lernraten pro Schichtgruppe verbessert ebenfalls die Modellleistung, wobei die Ausgabeschicht am empfindlichsten ist und versteckte Schichten von niedrigeren Lernraten profitieren. Wir bieten praktische Einblicke in die normgeleitete optimale Skalierung und veröffentlichen unsere Implementierung von Distributed Scion (Disco) mit Protokollen aus über zweitausend Durchläufen, um die Forschung zu den Trainingsdynamiken von LLMs im großen Maßstab zu unterstützen.
Die Transformer-Architektur hat sich als De-facto-Standard für Large Language Models (LLMs) etabliert und zeigt bemerkenswerte Fähigkeiten im Bereich des Sprachverständnisses und der Sprachgenerierung. Ihre Anwendung in der konversationellen KI wird jedoch grundlegend durch ihren zustandslosen Charakter und die quadratische Rechenkomplexität (O(L^2)) in Bezug auf die Sequenzlänge L eingeschränkt. Aktuelle Modelle imitieren Gedächtnis, indem sie eine ständig wachsende Konversationshistorie bei jedem Dialogschritt erneut verarbeiten, was zu unvertretbaren Kosten und Latenzzeiten in langen Dialogen führt. Dieses Papier stellt den Reactive Transformer (RxT) vor, eine neuartige Architektur, die entwickelt wurde, um diese Einschränkungen zu überwinden, indem sie von einem datengetriebenen zu einem ereignisgetriebenen Paradigma wechselt. RxT verarbeitet jeden Konversationsschritt als diskretes Ereignis in Echtzeit und bewahrt den Kontext in einem integrierten, festen Kurzzeitgedächtnis (Short-Term Memory, STM). Die Architektur zeichnet sich durch einen spezifischen Betriebszyklus aus, bei dem ein Generator-Decoder eine Antwort basierend auf der aktuellen Anfrage und dem vorherigen Gedächtniszustand erzeugt, woraufhin ein Memory-Encoder und ein dediziertes Memory-Attention-Netzwerk das STM asynchron mit einer Repräsentation der gesamten Interaktion aktualisieren. Dieser Entwurf verändert die Skalierungsdynamik grundlegend und reduziert die Gesamtkosten einer Konversation für den Benutzer von quadratisch (O(N^2 cdot T)) auf linear (O(N cdot T)) in Bezug auf die Anzahl der Interaktionen N. Durch die Entkopplung der Antwortgenerierung von Gedächtnisaktualisierungen erreicht RxT niedrige Latenzzeiten und ermöglicht damit echtzeitfähige, zustandsbehaftete und wirtschaftlich tragfähige Langzeitkonversationen. Wir haben unsere Architektur mit einer Reihe von Proof-of-Concept-Experimenten auf synthetischen Daten validiert und dabei eine überlegene Leistung sowie eine konstante Inferenzlatenz im Vergleich zu einem zustandslosen Basismodell vergleichbarer Größe nachgewiesen.
Das vorherrschende Paradigma zur Verbesserung der Fähigkeiten von Large Language Models (LLMs) im Bereich des logischen Denkens dreht sich um das Nachträgliche Training mit hochwertigen, denkintensiven Daten. Während neuere Literatur darauf hindeutet, dass Denkdaten zunehmend auch während des mittleren Trainingsstadiums einbezogen werden – eine Praxis, die eher proprietär und weniger offen charakterisiert ist – bleibt die Rolle solcher Daten im Pretraining unklar. Insbesondere aufgrund der Undurchsichtigkeit der Pretraining-Korpora in den meisten fortschrittlichen Modellen wird die Wirkung von Denkdaten, die in verschiedenen Phasen des Pre- und/oder Posttrainings eingeführt werden, in der wissenschaftlichen Literatur relativ wenig berichtet. Dies wirft mehrere wichtige Fragen auf: Ist die frühere Einführung von Denkdaten während des Pretrainings besser als die Einführung während des Posttrainings? Könnte eine frühere Einbindung das Risiko von Überanpassung erhöhen und die Generalisierung beeinträchtigen, oder stattdessen dauerhafte Grundlagen schaffen, die späteres Feintuning nicht wiederherstellen kann? Wir führen die erste systematische Studie durch, wie Denkdaten – variierend in Umfang, Vielfalt und Qualität – die Leistung von LLMs beeinflussen, wenn sie in verschiedenen Trainingsphasen eingeführt werden. Wir stellen fest, dass die frühzeitige Einbindung von Denkdaten in das Pretraining entscheidend ist (durchschnittlich 19 % Gewinn), da sie grundlegende Fähigkeiten etabliert, die durch späteres Supervised Fine-Tuning (SFT) nicht vollständig repliziert werden können, selbst mit mehr Daten. Wir entdecken ein asymmetrisches Prinzip für die optimale Datenverteilung: Das Pretraining profitiert am meisten von einer breiten Vielfalt an Denkmustern (durchschnittlich 11 % Gewinn), während SFT empfindlicher auf die Datenqualität reagiert (durchschnittlich 15 % Gewinn). Wir zeigen, dass hochwertige Pretraining-Daten latente Effekte haben, die erst nach dem SFT aktiviert werden, und dass eine naive Skalierung der SFT-Daten nachteilig sein kann, da sie die Vorteile der frühen Einbindung von Denkdaten zunichtemacht. Unsere Ergebnisse stellen die konventionelle Trennung von Sprachmodellierung und logischem Denken in Frage und bieten einen prinzipiellen Leitfaden für die strategische Verteilung von Daten über die gesamte Trainingspipeline hinweg, um leistungsfähigere Modelle zu entwickeln.
Während moderne Modelle zur visuellen Erzeugung hervorragend darin sind, ästhetisch ansprechende natürliche Bilder zu erstellen, haben sie Schwierigkeiten damit, strukturierte visuelle Inhalte wie Diagramme, Grafiken und mathematische Figuren zu erzeugen oder zu bearbeiten, die Planung der Komposition, Textdarstellung und multimodales Denken für faktische Genauigkeit erfordern. Um dies zu adressieren, präsentieren wir die erste umfassende, systematische Untersuchung dieses Bereichs, die die Datenerstellung, Modelltraining und einen Evaluierungsbenchmark umfasst. Zunächst erstellen wir einen groß angelegten Datensatz mit 1,3 Millionen hochwertigen strukturierten Bildpaaren, die aus ausführbaren Zeichenprogrammen abgeleitet und mit Chain-of-Thought-Reasoning-Annotationen angereichert wurden. Darauf aufbauend trainieren wir ein einheitliches Modell, das ein VLM mit FLUX.1 Kontext über einen leichten Connector für ein verbessertes multimodales Verständnis integriert. Ein dreistufiges Trainingscurriculum ermöglicht eine progressive Merkmalsausrichtung, Wissensinfusion und reasoning-augmentierte Erzeugung, die durch einen externen Reasoner zur Inferenzzeit weiter gesteigert wird. Schließlich führen wir StructBench ein, einen neuartigen Benchmark für die Erzeugung und Bearbeitung mit über 1.700 anspruchsvollen Instanzen, sowie eine begleitende Evaluierungsmetrik, StructScore, die ein mehrstufiges Q&A-Protokoll verwendet, um die feinkörnige faktische Genauigkeit zu bewerten. Bewertungen von 15 Modellen zeigen, dass selbst führende Closed-Source-Systeme weit von zufriedenstellenden Ergebnissen entfernt sind. Unser Modell erreicht eine starke Bearbeitungsleistung, und Inferenzzeit-Reasoning führt zu konsistenten Verbesserungen über verschiedene Architekturen hinweg. Durch die Veröffentlichung des Datensatzes, des Modells und des Benchmarks streben wir an, einheitliche multimodale Grundlagen für strukturierte visuelle Inhalte voranzutreiben.
Instruction-Tuning spielt eine entscheidende Rolle bei der Verbesserung der Aufgabenlösungsfähigkeiten großer Sprachmodelle (LLMs) und erhöht deren Nutzbarkeit bei der Generierung hilfreicher Antworten auf verschiedene Aufgaben. Frühere Arbeiten haben jedoch gezeigt, dass diese Modelle empfindlich auf geringfügige Variationen in der Formulierung von Anweisungen reagieren. In dieser Arbeit untersuchen wir, ob die Einführung von Störungen in den Instruction-Tuning-Daten die Widerstandsfähigkeit von LLMs gegenüber verrauschten Anweisungen verbessern kann. Wir konzentrieren uns darauf, wie Instruction-Tuning mit Störungen, wie dem Entfernen von Stoppwörtern oder dem Vertauschen von Wörtern, die Leistung von LLMs auf den ursprünglichen und gestörten Versionen weit verbreiteter Benchmarks (MMLU, BBH, GSM8K) beeinflusst. Darüber hinaus bewerten wir die Lern dynamiken und potenzielle Verschiebungen im Modellverhalten. Überraschenderweise deuten unsere Ergebnisse darauf hin, dass Instruction-Tuning mit gestörten Anweisungen in einigen Fällen die nachgelagerte Leistung verbessern kann. Diese Erkenntnisse unterstreichen die Bedeutung der Einbeziehung gestörter Anweisungen in das Instruction-Tuning, wodurch LLMs widerstandsfähiger gegenüber verrauschten Benutzereingaben werden können.
Gesprochene Dialogsysteme basieren oft auf kaskadierten Pipelines, die Sprache transkribieren, verarbeiten und resynthetisieren. Obwohl effektiv, verwirft dieser Entwurf paralinguistische Hinweise und begrenzt die Ausdrucksfähigkeit. Neuere End-to-End-Methoden reduzieren die Latenz und bewahren diese Hinweise besser, doch sie verlassen sich weiterhin auf Text-Zwischenstufen, was einen grundlegenden Engpass darstellt. Wir präsentieren MOSS-Speech, ein echtes Sprach-zu-Sprach-Großsprachmodell, das Sprache direkt versteht und erzeugt, ohne auf Textanleitung angewiesen zu sein. Unser Ansatz kombiniert eine modalitätsbasierte Schichtteilungsarchitektur mit einer eingefrorenen Vorabtrainingsstrategie, wodurch die Schlussfolgerungsfähigkeit und das Wissen vortrainierter Text-LLMs erhalten bleiben, während native Sprachfähigkeiten hinzugefügt werden. Experimente zeigen, dass unser Modell Spitzenergebnisse in der gesprochenen Frage-Antwort-Aufgabe erzielt und eine vergleichbare Sprach-zu-Sprach-Leistung im Verhältnis zu bestehenden textgesteuerten Systemen liefert, während es gleichzeitig wettbewerbsfähige Textleistungen beibehält. Indem wir die Lücke zwischen textgesteuerter und direkter Sprachgenerierung verringern, etablieren wir ein neues Paradigma für ausdrucksstarke und effiziente End-to-End-Sprachinteraktion.
Reinforcement Learning, das auf große Sprachmodelle (LLMs) für Reasoning-Aufgaben angewendet wird, wird häufig durch instabile Gradientenschätzungen behindert, die auf einer festen und gleichmäßigen Stichprobenziehung von Antworten über verschiedene Prompts hinweg beruhen. Vorherige Arbeiten wie GVM-RAFT adressieren dies, indem sie das Inferenzbudget pro Prompt dynamisch zuweisen, um die Varianz der stochastischen Gradienten unter einer Budgetbeschränkung zu minimieren. Inspiriert von dieser Erkenntnis schlagen wir Reinforce-Ada vor, ein adaptives Sampling-Framework für das Online-RL-Post-Training von LLMs, das kontinuierlich den Sampling-Aufwand auf die Prompts mit der größten Unsicherheit oder dem größten Lernpotenzial umverteilt. Im Gegensatz zu konventionellen zweistufigen Zuweisungsmethoden verknüpft Reinforce-Ada Schätzung und Sampling in einem Online-Successive-Elimination-Prozess und beendet das Sampling für einen Prompt automatisch, sobald ausreichend Signal gesammelt wurde. Um die Aktualisierungen zu stabilisieren, bilden wir feste Größen-Gruppen mit erzwungener Belohnungsvielfalt und berechnen Vorteilsbaselines unter Verwendung globaler Statistiken, die über die adaptive Sampling-Phase aggregiert werden. Empirische Ergebnisse über mehrere Modellarchitekturen und Reasoning-Benchmarks hinweg zeigen, dass Reinforce-Ada die Konvergenz beschleunigt und die Endleistung im Vergleich zu GRPO verbessert, insbesondere bei Verwendung der ausgewogenen Sampling-Variante. Unsere Arbeit unterstreicht die zentrale Rolle der varianzbewussten, adaptiven Datenkuratierung bei der Ermöglichung eines effizienten und zuverlässigen Reinforcement Learning für reasoning-fähige LLMs. Der Code ist verfügbar unter https://github.com/RLHFlow/Reinforce-Ada.
Die Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Werten beruht zunehmend auf der Verwendung anderer LLMs als automatisierte Bewerter oder „Autorater“. Ihre Zuverlässigkeit wird jedoch durch ein grundlegendes Problem eingeschränkt: Sie werden auf diskreten Präferenzlabels trainiert, wodurch eine einzige „Ground Truth“ für Aufgaben erzwungen wird, die oft subjektiv, mehrdeutig oder nuancenreich sind. Wir argumentieren, dass ein zuverlässiger Autorater die gesamte Verteilung der Präferenzen, die durch eine Zielpopulation definiert wird, modellieren muss. In diesem Artikel schlagen wir einen allgemeinen Rahmen zur Kalibrierung probabilistischer Autorater an eine gegebene Präferenzverteilung vor. Wir formalisieren das Problem und präsentieren zwei Lernmethoden, die auf unterschiedliche Datenbedingungen zugeschnitten sind: 1) ein direktes supervidiertes Fine-Tuning für dichte, probabilistische Labels und 2) einen Reinforcement-Learning-Ansatz für spärliche, binäre Labels. Unsere empirischen Ergebnisse zeigen, dass das Fine-Tuning von Autoratern mit einem Verteilungsanpassungsziel zu verbalisierten Wahrscheinlichkeitsvorhersagen führt, die besser mit der Zielpräferenzverteilung übereinstimmen, eine verbesserte Kalibrierung und deutlich geringere Positionsverzerrungen aufweisen, während gleichzeitig die Leistung bei objektiven Aufgaben erhalten bleibt.
Reinforcement Learning hat eine zentrale Rolle bei den jüngsten Fortschritten im Bereich des Reasoning großer Sprachmodelle gespielt, doch die meisten Algorithmen basieren auf On-Policy-Training, das frische Rollouts bei jedem Update erfordert, was die Effizienz und Skalierbarkeit einschränkt. Asynchrone RL-Systeme mildern dies, indem sie die Generierung von Rollouts vom Training entkoppeln, doch ihre Wirksamkeit hängt davon ab, große Verzögerungen in den Rollout-Daten zu tolerieren – ein Szenario, in dem bestehende Methoden entweder an Leistung einbüßen oder versagen. Wir nehmen diese Herausforderung erneut in den Blick und entdecken ein Prosperity-before-Collapse-Phänomen: Veraltete Daten können ebenso informativ sein wie On-Policy-Daten, wenn sie richtig genutzt werden. Aufbauend auf dieser Erkenntnis führen wir M2PO (Second-Moment Trust Policy Optimization) ein, das das zweite Moment der Importance-Weights beschränkt, um nur extreme Ausreißer zu unterdrücken, während informative Updates erhalten bleiben. Bemerkenswerterweise reduziert M2PO den Anteil der abgeschnittenen Tokens bei hoher Verzögerung deutlich (von 1,22 % auf 0,06 % während des Trainings), indem es präzise hochvarianz Tokens maskiert und gleichzeitig eine stabile Optimierung aufrechterhält. Eine umfangreiche Evaluierung über sechs Modelle (von 1,7B bis 32B) und acht Benchmarks zeigt, dass M2PO ein stabiles Off-Policy-Training selbst bei Daten ermöglicht, die mindestens 256 Modellupdates alt sind, und dabei die On-Policy-Leistung erreicht.
Aktuelle Arbeiten zeigen, dass große Sprachmodelle (LLMs) über die diskrete Argumentation durch explizite Schritte der Gedankenkette hinaus, die durch die Grenzen natürlicher Sprachen begrenzt sind, auch kontinuierlich im latenten Raum argumentieren können. Dies ermöglicht eine reichhaltigere Information pro Schritt und verbessert dadurch die Token-Effizienz. Trotz dieses Potenzials steht die latente Argumentation weiterhin vor zwei Herausforderungen, insbesondere in trainingsfreien Umgebungen: 1) Rein latente Argumentation erweitert die Suchverteilung, indem sie mehrere implizite Pfade beibehält, was die Wahrscheinlichkeitsmasse verteilt, Rauschen einführt und die Konvergenz zu einer einzigen hochvertrauenswürdigen Lösung behindert, was die Genauigkeit beeinträchtigt; und 2) Überdenken bleibt auch ohne expliziten Text bestehen, verschwendet Tokens und verschlechtert die Effizienz. Um diese Probleme zu lösen, führen wir SwiReasoning ein, ein trainingsfreies Framework für die Argumentation von LLMs, das zwei Schlüsselinnovationen aufweist: 1) SwiReasoning wechselt dynamisch zwischen expliziter und latenter Argumentation, geleitet durch blockweise Konfidenz, die aus Entropietrends in den nächsten Token-Verteilungen geschätzt wird, um Exploration und Exploitation auszugleichen und eine rechtzeitige Konvergenz zu fördern. 2) Durch die Begrenzung der maximalen Anzahl von Denkblock-Wechseln reduziert SwiReasoning Überdenken und verbessert die Token-Effizienz über verschiedene Problem-Schwierigkeitsgrade hinweg. Auf weit verbreiteten Mathematik- und STEM-Benchmarks verbessert SwiReasoning die durchschnittliche Genauigkeit konsistent um 1,5%-2,8% über Argumentations-LLMs verschiedener Modellfamilien und -größen hinweg. Darüber hinaus verbessert SwiReasoning unter begrenzten Budgets die durchschnittliche Token-Effizienz um 56%-79%, mit größeren Gewinnen, wenn die Budgets knapper werden.
Jüngste Fortschritte bei großen generativen Modellen haben die Bildbearbeitung und die kontextbezogene Bildgenerierung erheblich vorangetrieben, doch besteht nach wie vor eine kritische Lücke bei der Gewährleistung physikalischer Konsistenz, bei der bearbeitete Objekte kohärent bleiben müssen. Diese Fähigkeit ist besonders wichtig für Aufgaben im Zusammenhang mit der Weltsimulation. In diesem Artikel stellen wir ChronoEdit vor, ein Framework, das die Bildbearbeitung als ein Problem der Videogenerierung neu definiert. Zunächst behandelt ChronoEdit die Eingabe- und bearbeiteten Bilder als das erste und letzte Frame eines Videos, wodurch es möglich wird, große vortrainierte videogenerative Modelle zu nutzen, die nicht nur das Erscheinungsbild von Objekten, sondern auch die implizite Physik von Bewegung und Interaktion durch erlernte zeitliche Konsistenz erfassen. Zweitens führt ChronoEdit eine zeitliche Argumentationsstufe ein, die die Bearbeitung explizit zur Inferenzzeit durchführt. In diesem Rahmen wird das Zielbild gemeinsam mit Argumentationstokens entrauscht, um eine plausible Bearbeitungstrajektorie zu imaginieren, die den Lösungsraum auf physikalisch realisierbare Transformationen beschränkt. Die Argumentationstokens werden dann nach einigen Schritten verworfen, um die hohen Rechenkosten der Rendering eines vollständigen Videos zu vermeiden. Um ChronoEdit zu validieren, führen wir PBench-Edit ein, einen neuen Benchmark von Bild-Prompt-Paaren für Kontexte, die physikalische Konsistenz erfordern, und zeigen, dass ChronoEdit sowohl in Bezug auf die visuelle Qualität als auch auf die physikalische Plausibilität die aktuellsten Baselines übertrifft. Der Code und die Modelle für die 14B- und 2B-Varianten von ChronoEdit werden auf der Projektseite veröffentlicht: https://research.nvidia.com/labs/toronto-ai/chronoedit.
Große Sprachmodelle (LLMs) lösen zunehmend komplexe Denkaufgaben über lange Gedankenketten, doch ihr vorwärtsgerichteter autoregressiver Generierungsprozess ist fragil; frühe Token-Fehler können sich kaskadieren, was einen klaren Bedarf an Selbstreflexionsmechanismen schafft. Bisherige Ansätze zur Selbstreflexion führen jedoch entweder Revisionen über vollständige Entwürfe durch oder erlernen Selbstkorrektur durch aufwendiges Training, was beides grundsätzlich reaktiv und ineffizient ist. Um dies zu adressieren, schlagen wir Self-Reflective Generation at Test Time (SRGen) vor, ein leichtgewichtiges Framework zur Testzeit, das vor der Generierung an unsicheren Punkten reflektiert. Während der Token-Generierung nutzt SRGen dynamische Entropie-Schwellenwerte, um Token mit hoher Unsicherheit zu identifizieren. Für jeden identifizierten Token trainiert es einen spezifischen Korrekturvektor, der den bereits generierten Kontext vollständig ausnutzt, um eine selbstreflektierte Generierung zur Korrektur der Token-Wahrscheinlichkeitsverteilung durchzuführen. Durch die retrospektive Analyse der partiellen Ausgabe ermöglicht diese Selbstreflexion vertrauenswürdigere Entscheidungen und reduziert dadurch die Wahrscheinlichkeit von Fehlern an hoch unsicheren Punkten signifikant. Evaluierungen auf anspruchsvollen mathematischen Denkbenchmarks und einer vielfältigen Auswahl von LLMs zeigen, dass SRGen die Modelllogik konsistent stärken kann: Verbesserungen in der Einzelpass-Qualität führen auch zu einer stärkeren Selbstkonsistenz bei der Abstimmung. Insbesondere auf AIME2024 mit DeepSeek-R1-Distill-Qwen-7B erzielt SRGen absolute Verbesserungen von +12,0 % bei Pass@1 und +13,3 % bei Cons@5. Darüber hinaus positionieren unsere Ergebnisse SRGen als eine Plug-and-Play-Methode, die Reflexion in den Generierungsprozess für zuverlässige LLM-Logik integriert und konsistente Gewinne mit begrenztem Overhead sowie breiter Kompatibilität mit anderen Trainingszeit- (z. B. RLHF) und Testzeit-Techniken (z. B. SLOT) erreicht.
Computer Use Agents (CUAs) müssen Arbeitsabläufe planen, die in vielfältigen und sich ständig ändernden Anwendungen und Umgebungen verankert sind. Das Lernen wird jedoch durch den Mangel an groß angelegten, hochwertigen Trainingsdaten in der Zielanwendung erschwert. Bestehende Datensätze sind domänenspezifisch, statisch und kostspielig zu annotieren, während aktuelle Methoden zur synthetischen Datengenerierung oft vereinfachte oder fehlausgerichtete Aufgabenbeispiele liefern. Um diese Einschränkungen zu überwinden, stellen wir Watch & Learn (W&L) vor, ein Framework, das menschliche Demonstrationsvideos, die im Internet leicht verfügbar sind, in ausführbare UI-Trajektorien in großem Maßstab umwandelt. Anstatt Trajektorien direkt zu generieren oder auf ad-hoc-Heuristiken zu setzen, formulieren wir das Problem als ein inverses Dynamik-Ziel: die Vorhersage der Benutzeraktion aus aufeinanderfolgenden Bildschirmzuständen. Dieser Ansatz reduziert den manuellen Aufwand, ist leichter zu erlernen und verallgemeinert robuster über verschiedene Anwendungen hinweg. Konkret entwickeln wir eine inverse Dynamik-Beschriftungspipeline mit aufgabenbewusster Video-Retrieval, generieren über 53.000 hochwertige Trajektorien aus Rohvideos des Webs und zeigen, dass diese Trajektorien CUAs sowohl als In-Context-Demonstrationen als auch als überwachte Trainingsdaten verbessern. Auf dem anspruchsvollen OSWorld-Benchmark verbessern mit W&L extrahierte UI-Trajektorien sowohl allgemeine als auch state-of-the-art-Frameworks im In-Context-Bereich und erzielen stärkere Gewinne für Open-Source-Modelle im überwachten Training. Diese Ergebnisse unterstreichen, dass web-skalierte menschliche Demonstrationsvideos eine praktische und skalierbare Grundlage für die Weiterentwicklung von CUAs hin zum realen Einsatz darstellen.
Die Einführung von KI-gestützten Code-Vervollständigungswerkzeugen in der Softwareentwicklung hat erheblich zugenommen, doch die durch diese Systeme erzeugten Nutzerinteraktionsdaten bleiben innerhalb großer Unternehmen proprietär. Dies stellt eine Barriere für die akademische Gemeinschaft dar, da Forscher oft dedizierte Plattformen entwickeln müssen, um Studien zur Mensch-KI-Interaktion durchzuführen, was reproduzierbare Forschung und groß angelegte Datenanalysen unpraktisch macht. In dieser Arbeit stellen wir Code4MeV2 vor, ein forschungsorientiertes, quelloffenes Code-Vervollständigungs-Plugin für JetBrains IDEs, als Lösung für diese Einschränkung. Code4MeV2 ist mit einer Client-Server-Architektur entworfen und bietet Inline-Code-Vervollständigung sowie einen kontextbewussten Chat-Assistenten. Sein Kernbeitrag ist ein modulares und transparentes Datenerfassungsframework, das Forschern eine fein abgestimmte Kontrolle über Telemetrie und Kontexterfassung ermöglicht. Code4MeV2 erreicht eine mit der Industrie vergleichbare Leistung in Bezug auf die Code-Vervollständigung, mit einer durchschnittlichen Latenz von 200~ms. Wir bewerten unser Tool durch eine Kombination aus einer Expertenbewertung und einer Nutzerstudie mit acht Teilnehmern. Das Feedback sowohl von Forschern als auch von täglichen Nutzern unterstreicht seine Informativität und Nützlichkeit. Wir laden die Gemeinschaft ein, dieses Tool zu übernehmen und dazu beizutragen. Weitere Informationen über das Tool finden Sie unter https://app.code4me.me.
Stellen Sie sich vor, Mr. Bean tritt in die Welt von Tom und Jerry ein – können wir Videos generieren, in denen Charaktere auf natürliche Weise über verschiedene Welten hinweg interagieren? Wir untersuchen die Interaktion zwischen Charakteren in der Text-zu-Video-Generierung, wobei die größte Herausforderung darin besteht, die Identität und das Verhalten jedes Charakters zu bewahren, während gleichzeitig eine kohärente Interaktion über verschiedene Kontexte hinweg ermöglicht wird. Dies ist schwierig, da die Charaktere möglicherweise nie nebeneinander existiert haben und die Vermischung von Stilen oft zu einer Stilverwirrung führt, bei der realistische Charaktere cartoonhaft wirken oder umgekehrt. Wir stellen ein Framework vor, das diese Probleme mit Cross-Character Embedding (CCE) angeht, das Identität und Verhaltenslogik über multimodale Quellen hinweg lernt, und Cross-Character Augmentation (CCA), das das Training durch synthetische Koexistenz und gemischte Stildaten bereichert. Zusammen ermöglichen diese Techniken natürliche Interaktionen zwischen zuvor nicht koexistierenden Charakteren, ohne die stilistische Treue zu verlieren. Experimente auf einem kuratierten Benchmark von Cartoons und Live-Action-Serien mit 10 Charakteren zeigen deutliche Verbesserungen in der Identitätsbewahrung, der Interaktionsqualität und der Robustheit gegenüber Stilverwirrung, was neue Formen des generativen Geschichtenerzählens ermöglicht. Weitere Ergebnisse und Videos sind auf unserer Projektseite verfügbar: https://tingtingliao.github.io/mimix/.
Die gesellschaftliche Auswirkung von Natural Language Processing (NLP) gewinnt zunehmend an Bedeutung, wobei sich die Gemeinschaft verstärkt auf Initiativen im Bereich NLP für soziales Wohl (NLP4SG) konzentriert. Tatsächlich befassen sich in den letzten Jahren fast 20 % aller Artikel in der ACL Anthology mit Themen, die im Zusammenhang mit sozialem Wohl stehen, wie sie von den UN-Zielen für nachhaltige Entwicklung definiert werden (Adauto et al., 2023). In dieser Studie nehmen wir eine Autoren- und Veranstaltungsebene-Perspektive ein, um das Landschaftsbild von NLP4SG zu kartieren, und quantifizieren den Anteil der Arbeiten, die sich sowohl innerhalb als auch außerhalb der ACL-Gemeinschaft mit Anliegen des sozialen Wohls befassen, sowohl von Kern-ACL-Mitwirkenden als auch von Nicht-ACL-Autoren. Mit diesem Ansatz entdecken wir zwei überraschende Fakten über das Landschaftsbild von NLP4SG. Erstens ist es für ACL-Autoren deutlich wahrscheinlicher, Arbeiten zu veröffentlichen, die sich mit Anliegen des sozialen Wohls befassen, wenn sie dies außerhalb von ACL-Veranstaltungen tun. Zweitens wird die überwiegende Mehrheit der Publikationen, die NLP-Techniken zur Bewältigung von Anliegen des sozialen Wohls einsetzen, von Nicht-ACL-Autoren in Veranstaltungen außerhalb der ACL durchgeführt. Wir diskutieren die Implikationen dieser Erkenntnisse für die Agenda-Setzung der ACL-Gemeinschaft im Zusammenhang mit NLP4SG.
Große Sprachmodelle (LLMs) für formales Theorembeweisen haben erhebliche Fortschritte gezeigt, jedoch mangelt es ihnen oft an Generalisierbarkeit und sie sind empfindlich gegenüber selbst geringfügigen Transformationen von Problemstellungen. Um diese Einschränkung zu überwinden, führen wir eine neuartige Datenaugmentationspipeline ein, die darauf abzielt, die Robustheit des Modells aus zwei Perspektiven zu verbessern: Symmetrie und Schwierigkeitsgrad. Aus der Symmetrieperspektive schlagen wir zwei komplementäre Methoden vor: EvolAST, einen auf abstrakten Syntaxbäumen (AST) basierenden Ansatz, der syntaktische Symmetrie nutzt, um semantisch äquivalente Problemvarianten zu erzeugen, und EvolDomain, das LLMs nutzt, um semantische Symmetrie durch die Übersetzung von Theoremen über mathematische Domänen hinweg zu adressieren. Aus der Schwierigkeitsperspektive schlagen wir EvolDifficulty vor, das sorgfältig gestaltete evolutionäre Anweisungen verwendet, um LLMs bei der Erzeugung neuer Theoreme mit einem breiteren Schwierigkeitsspektrum zu leiten. Anschließend verwenden wir die entwickelten Daten, um EvolProver, einen 7B-Parameter-Theorembeweiser ohne deduktive Fähigkeiten, zu trainieren. EvolProver erreicht einen neuen State-of-the-Art (SOTA) auf FormalMATH-Lite mit einer 53,8%igen pass@32-Rate und übertrifft damit alle Modelle vergleichbarer Größe, einschließlich deduktionsbasierter Modelle. Es setzt auch neue SOTA-Rekorde für nicht-deduktive Modelle auf MiniF2F-Test (69,8% pass@32), Ineq-Comp-Seed (52,2% pass@32) und Ineq-Comp-Transformed (34,0% pass@32). Ablationsstudien bestätigen weiterhin die Effektivität unserer Datenaugmentationspipeline über mehrere Benchmarks hinweg.
4D-Gaußsche Splatting hat sich als neues Paradigma für die Darstellung dynamischer Szenen etabliert und ermöglicht die Echtzeit-Rendering von Szenen mit komplexen Bewegungen. Es steht jedoch vor einer großen Herausforderung in Bezug auf den Speicheraufwand, da Millionen von Gaußschen Funktionen für eine hochauflösende Rekonstruktion erforderlich sind. Obwohl mehrere Studien versucht haben, diese Speicherlast zu verringern, stoßen sie nach wie vor auf Einschränkungen beim Kompressionsverhältnis oder der visuellen Qualität. In dieser Arbeit präsentieren wir OMG4 (Optimized Minimal 4D Gaussian Splatting), ein Framework, das eine kompakte Menge von signifikanten Gaußschen Funktionen konstruiert, die in der Lage sind, 4D-Gaußsche Modelle treu darzustellen. Unser Verfahren reduziert Gaußsche Funktionen schrittweise in drei Stufen: (1) Gaußsches Sampling, um Primitiven zu identifizieren, die für die Rekonstruktionsgenauigkeit entscheidend sind, (2) Gaußsches Pruning, um Redundanzen zu entfernen, und (3) Gaußsches Merging, um Primitiven mit ähnlichen Eigenschaften zu fusionieren. Darüber hinaus integrieren wir implizite Erscheinungskompression und verallgemeinern die Sub-Vektor-Quantisierung (SVQ) auf 4D-Darstellungen, wodurch der Speicherbedarf weiter reduziert wird, während die Qualität erhalten bleibt. Umfangreiche Experimente mit Standard-Benchmark-Datensätzen zeigen, dass OMG4 aktuelle state-of-the-art Methoden deutlich übertrifft, indem es die Modellgrößen um über 60 % reduziert und gleichzeitig die Rekonstruktionsqualität beibehält. Diese Ergebnisse positionieren OMG4 als einen bedeutenden Fortschritt in der kompakten 4D-Szenendarstellung und eröffnen neue Möglichkeiten für eine Vielzahl von Anwendungen. Unser Quellcode ist unter https://minshirley.github.io/OMG4/ verfügbar.
Großskalige Text-zu-Bild-Diffusionsmodelle bilden das Rückgrat der modernen Bildbearbeitung, doch bieten Textanweisungen allein keine ausreichende Kontrolle über den Bearbeitungsprozess. Zwei Eigenschaften sind besonders wünschenswert: Entflechtung, bei der die Änderung eines Attributs nicht unbeabsichtigt andere Attribute verändert, und kontinuierliche Steuerung, bei der die Stärke einer Bearbeitung sanft angepasst werden kann. Wir stellen eine Methode zur entflochtenen und kontinuierlichen Bearbeitung durch Token-Level-Manipulation von Text-Einbettungen vor. Die Bearbeitungen werden durch Manipulation der Einbettungen entlang sorgfältig ausgewählter Richtungen vorgenommen, welche die Stärke des Zielattributs steuern. Um solche Richtungen zu identifizieren, verwenden wir einen Sparse Autoencoder (SAE), dessen spärlicher latenter Raum semantisch isolierte Dimensionen offenlegt. Unsere Methode arbeitet direkt auf Text-Einbettungen, ohne den Diffusionsprozess zu modifizieren, wodurch sie modellagnostisch ist und breit auf verschiedene Bildsynthese-Backbones anwendbar ist. Experimente zeigen, dass sie intuitive und effiziente Manipulationen mit kontinuierlicher Steuerung über diverse Attribute und Domänen hinweg ermöglicht.
Große Sprachmodelle (LLMs) haben kürzlich ein starkes Potenzial in der audiovisuellen Spracherkennung (AVSR) gezeigt, doch ihr hoher Rechenbedarf und ihre Empfindlichkeit gegenüber der Token-Granularität schränken ihre Praktikabilität in ressourcenbeschränkten Umgebungen ein. Token-Kompressionsmethoden können die Inferenzkosten reduzieren, erfordern jedoch die vorherige Festlegung einer Kompressionsrate und erzeugen eine einzige feste Ausgabelänge, was keine Flexibilität bietet, um Informationsdichte und Effizienz während der Inferenz auszubalancieren. Matryoshka-Repräsentationslernen (MRL) adressiert dies, indem es einem einzelnen Modell ermöglicht, über mehrere Token-Granularitäten hinweg zu operieren, wodurch Kompressionsraten dynamisch angepasst werden können. Allerdings behandeln aktuelle MRL-basierte Methoden jede Skala während des Trainings unabhängig, was die generalisierungsfähige Robustheit bei hoher Kompression und die Interpretierbarkeit einschränkt. Um diese Grenzen zu überwinden, schlagen wir MoME (Mixture of Matryoshka Experts) vor, ein neuartiges Framework, das spärliche Mixture-of-Experts (MoE) in MRL-basierte LLMs für AVSR integriert. MoME erweitert ein eingefrorenes LLM mit top-k gerouteten und gemeinsamen Experten, wodurch eine dynamische Kapazitätszuweisung über Skalen und Modalitäten hinweg ermöglicht wird. Ein gemeinsamer Router fördert eine konsistente Expertenaktivierung über Granularitäten hinweg, wodurch komprimierte Sequenzen von Repräsentationen profitieren können, die bei niedrigerer Kompression gelernt wurden. Experimente auf LRS2 und LRS3 zeigen, dass MoME state-of-the-art Leistung über AVSR-, ASR- und VSR-Aufgaben hinweg erreicht, während es signifikant weniger Parameter benötigt und Robustheit unter Rauschen beibehält. MoME vereint die Anpassungsfähigkeit von MRL mit der Effizienz von MoE und bietet eine skalierbare und interpretierbare Lösung für ressourcenbewusste Spracherkennung.
Reinforcement Learning (RL) hat eine zentrale Rolle bei der Verbesserung des logischen Denkens in großen Sprachmodellen (LLMs) eingenommen. Dennoch leiden On-Policy-Algorithmen wie Group Relative Policy Optimization (GRPO) häufig in der frühen Trainingsphase: verrauschte Gradienten aufgrund von qualitativ minderwertigen Rollouts führen zu instabilen Updates und ineffizienter Exploration. Wir stellen Slow-Fast Policy Optimization (SFPO) vor, ein einfaches, aber effizientes Framework, das diese Einschränkungen durch die Zerlegung jedes Schritts in drei Phasen adressiert: eine kurze, schnelle Trajektorie von inneren Schritten auf demselben Batch, einen Repositionierungsmechanismus zur Kontrolle des Off-Policy-Drifts und eine abschließende langsame Korrektur. Dieser Reposition-before-Update-Ansatz bewahrt das Ziel und den Rollout-Prozess unverändert, wodurch SFPO plug-kompatibel mit bestehenden Policy-Gradient-Pipelines bleibt. Umfangreiche Experimente zeigen, dass SFPO die Stabilität konsequent verbessert, die Anzahl der Rollouts reduziert und die Konvergenz des RL-Trainings für logisches Denken beschleunigt. Insbesondere übertrifft es GRPO um bis zu 2,80 Punkte im Durchschnitt bei mathematischen Denkbenchmarks. Es erreicht auch bis zu 4,93 weniger Rollouts und eine Reduzierung der Wall-Clock-Zeit um 4,19, um die beste Genauigkeit von GRPO zu erreichen.
Flüssige Sprach-zu-Sprach-Interaktion erfordert eine zuverlässige und verzögerungsarme Erkennung des Zeitpunkts, an dem ein Benutzer das Sprechen beendet hat. Traditionelle Audio-Stille-Endpunktdetektoren fügen Hunderte von Millisekunden Verzögerung hinzu und versagen bei Zögern oder sprachspezifischen Phänomenen. Wir präsentieren, unseres Wissens nach, die erste systematische Studie zur thailändischen textbasierten Erkennung von Sprechwechselenden (End-of-Turn, EOT) für Echtzeit-Agenten. Wir vergleichen Zero-Shot- und Few-Shot-Prompting von kompakten LLMs (Large Language Models) mit dem überwachten Feinabstimmen von leichten Transformermodellen. Unter Verwendung von transkribierten Untertiteln aus dem YODAS-Korpus und thailändisch-spezifischen linguistischen Hinweisen (z. B. satzfinale Partikel) formulieren wir EOT als binäre Entscheidung über Token-Grenzen hinweg. Wir berichten über einen klaren Kompromiss zwischen Genauigkeit und Latenz und stellen einen öffentlichkeitsreifen Implementierungsplan bereit. Diese Arbeit etabliert eine thailändische Baseline und zeigt, dass kleine, feinabgestimmte Modelle nahezu sofortige EOT-Entscheidungen liefern können, die sich für On-Device-Agenten eignen.
Trotz Fortschritten in der mehrsprachigen automatischen Spracherkennung (ASR) bleibt Code-Switching (CS), das Vermischen von Sprachen innerhalb einer Äußerung, das im Alltag häufig vorkommt, eine stark vernachlässigte Herausforderung. In diesem Artikel stellen wir HiKE vor: den hierarchischen Koreanisch-Englisch Code-Switching-Benchmark, den ersten global zugänglichen Bewertungsrahmen für Koreanisch-Englisch CS, der darauf abzielt, eine Methode zur präzisen Bewertung mehrsprachiger ASR-Modelle bereitzustellen und die Forschung in diesem Bereich zu fördern. Der vorgeschlagene Rahmen besteht nicht nur aus hochwertigen, natürlichen CS-Daten zu verschiedenen Themen, sondern bietet auch detaillierte Lehnwort-Labels und ein hierarchisches CS-Ebenen-Labeling-Schema (Wort, Phrase und Satz), die zusammen eine systematische Bewertung der Fähigkeit eines Modells ermöglichen, jede einzelne Ebene des Code-Switchings zu bewältigen. Durch die Bewertung verschiedener mehrsprachiger ASR-Modelle und Feinabstimmungsexperimente zeigt dieser Artikel, dass die meisten mehrsprachigen ASR-Modelle zwar zunächst mit CS-ASR zu kämpfen haben, diese Fähigkeit jedoch durch Feinabstimmung mit CS-Daten aktiviert werden kann. HiKE wird unter https://github.com/ThetaOne-AI/HiKE verfügbar sein.
Die Umwandlung von natürlichen Sprachfragen in SQL-Abfragen (Text-to-SQL) ermöglicht es nicht-experten Nutzern, mit relationalen Datenbanken zu interagieren, und stellt seit langem eine zentrale Aufgabe für natürliche Sprachschnittstellen zu Daten dar. Während der WikiSQL-Datensatz eine Schlüsselrolle in der frühen NL2SQL-Forschung spielte, ist seine Nutzung aufgrund struktureller und Annotationsprobleme zurückgegangen, darunter Inkonsistenzen bei der Groß- und Kleinschreibung, Datentypen-Konflikte, Syntaxfehler und unbeantwortete Fragen. Wir präsentieren LLMSQL, eine systematische Überarbeitung und Transformation von WikiSQL, die für das LLM-Zeitalter konzipiert ist. Wir klassifizieren diese Fehler und implementieren automatisierte Methoden zur Bereinigung und Neuannotation. Um die Auswirkungen dieser Verbesserungen zu bewerten, haben wir mehrere große Sprachmodelle (LLMs) evaluiert, darunter Gemma 3, LLaMA 3.2, Mistral 7B, gpt-oss 20B, Phi-3.5 Mini, Qwen 2.5, OpenAI o4-mini, DeepSeek R1 und andere. LLMSQL wird nicht als Aktualisierung eingeführt, sondern als ein LLM-fähiger Benchmark: Im Gegensatz zum ursprünglichen WikiSQL, das für Pointer-Netzwerk-Modelle entwickelt wurde, die Token aus der Eingabe auswählen, bietet LLMSQL saubere natürliche Sprachfragen und vollständige SQL-Abfragen als Klartext, was eine unkomplizierte Generierung und Bewertung für moderne natürliche Sprach-zu-SQL-Modelle ermöglicht.
Diffusionsbasierte große Sprachmodelle (dLLMs) werden flexibel trainiert, um extreme Abhängigkeiten in der Datenverteilung zu modellieren; jedoch bleibt die Frage, wie diese Informationen zur Inferenzzeit optimal genutzt werden können, ein offenes Problem. In dieser Arbeit entdecken wir eine interessante Eigenschaft dieser Modelle: dLLMs, die auf Textdaten trainiert wurden, lernen implizit eine Mischung von semi-autoregressiven Experten, bei denen unterschiedliche Generierungsreihenfolgen unterschiedliche spezialisierte Verhaltensweisen offenbaren. Wir zeigen, dass die Festlegung auf einen einzigen, festen Inferenzzeitplan, eine gängige Praxis, die Leistung beeinträchtigt, da dieses latente Ensemble nicht genutzt wird. Um dies zu beheben, führen wir HEX (Hidden Semiautoregressive EXperts for Test-Time Scaling) ein, eine trainingsfreie Inferenzmethode, die über heterogene Blockpläne hinweg ein Ensemble bildet. Durch eine Mehrheitsabstimmung über diverse Blockgrößen-Generierungspfade vermeidet HEX robust Fehlermodi, die mit einem einzigen festen Plan verbunden sind. Bei Reasoning-Benchmarks wie GSM8K steigert es die Genauigkeit um bis zu 3,56X (von 24,72 % auf 88,10 %), übertrifft dabei Top-K-Margin-Inferenz und spezialisierte Feinabstimmungsmethoden wie GRPO, ohne zusätzliches Training. HEX erzielt sogar signifikante Verbesserungen beim MATH-Benchmark von 16,40 % auf 40,00 %, beim wissenschaftlichen Reasoning auf ARC-C von 54,18 % auf 87,80 % und bei TruthfulQA von 28,36 % auf 57,46 %. Unsere Ergebnisse etablieren ein neues Paradigma für das Test-Time Scaling in diffusionsbasierten LLMs (dLLMs) und zeigen, dass die Reihenfolge, in der Maskierungen durchgeführt werden, eine entscheidende Rolle für die Leistung während der Inferenz spielt.
Da Large Language Model (LLM)-Agent zunehmend selbstevolutionäre Fähigkeiten erlangen, um ihre Strategien durch reale Interaktionen anzupassen und zu verfeinern, wird ihre langfristige Zuverlässigkeit zu einem kritischen Anliegen. Wir identifizieren den Alignment Tipping Process (ATP), ein einzigartiges, nach der Bereitstellung auftretendes Risiko für selbstevolutionäre LLM-Agenten. Im Gegensatz zu Fehlern während des Trainings entsteht ATP, wenn kontinuierliche Interaktionen die Agenten dazu veranlassen, die während des Trainings etablierten Alignment-Beschränkungen zugunsten verstärkter, eigennütziger Strategien aufzugeben. Wir formalisieren und analysieren ATP durch zwei komplementäre Paradigmen: Self-Interested Exploration, bei der wiederholte Abweichungen mit hoher Belohnung zu individuellen Verhaltensänderungen führen, und Imitative Strategy Diffusion, bei der abweichende Verhaltensweisen sich in Multi-Agenten-Systemen ausbreiten. Aufbauend auf diesen Paradigmen entwickeln wir kontrollierbare Testumgebungen und benchmarken Qwen3-8B und Llama-3.1-8B-Instruct. Unsere Experimente zeigen, dass die Vorteile des Alignments unter Selbstevolution schnell abnehmen, wobei ursprünglich ausgerichtete Modelle zu nicht ausgerichteten Zuständen konvergieren. In Multi-Agenten-Szenarien verbreiten sich erfolgreiche Verstöße schnell und führen zu kollektiver Fehlausrichtung. Darüber hinaus bieten aktuelle, auf Reinforcement Learning basierende Alignment-Methoden nur fragile Abwehrmechanismen gegen Alignment-Tipping. Zusammengenommen zeigen diese Ergebnisse, dass das Alignment von LLM-Agenten keine statische Eigenschaft ist, sondern eine fragile und dynamische, die während des Einsatzes durch feedbackgetriebenen Verfall gefährdet ist. Unsere Daten und Code sind verfügbar unter https://github.com/aiming-lab/ATP.
Mixture-of-Experts (MoE)-Architekturen sind der Schlüssel zur Skalierung moderner LLMs (Large Language Models), doch es ist wenig darüber bekannt, wie ihre spärlichen Routing-Dynamiken auf mehrsprachige Daten reagieren. In dieser Arbeit analysieren wir Experten-Routing-Muster mithilfe paralleler mehrsprachiger Datensätze und präsentieren hochgradig interpretierbare, schichtweise Phänomene. Wir stellen fest, dass MoE-Modelle Tokens in den frühen und späten Decoder-Schichten sprachspezifisch routen, jedoch in den mittleren Schichten eine signifikante cross-linguale Routing-Ausrichtung zeigen, was den Parameter-Sharing-Trends entspricht, die in dichten LLMs beobachtet werden. Insbesondere offenbaren wir eine klare, starke Korrelation zwischen der Leistung eines Modells in einer bestimmten Sprache und der Ähnlichkeit, mit der seine Tokens in diesen Schichten im Vergleich zu Englisch geroutet werden. Über Korrelationen hinaus untersuchen wir Interventionen zur Inferenzzeit, die eine höhere cross-linguale Routing-Ausrichtung bewirken. Wir führen eine Methode ein, die den Router steuert, indem sie Experten in den mittleren Schichten fördert, die häufig für Englisch aktiviert werden, und sie steigert erfolgreich die mehrsprachige Leistung. Diese Gewinne von 1–2 % sind bemerkenswert konsistent über zwei Evaluierungsaufgaben, drei Modelle und 15+ Sprachen hinweg, insbesondere angesichts der Tatsache, dass diese einfachen Interventionen die Router von umfangreich trainierten, state-of-the-art LLMs überschreiben. Im Vergleich dazu führen Interventionen außerhalb der mittleren Schichten oder solche, die mehrsprachig spezialisierte Experten anzielen, nur zu Leistungseinbußen. Insgesamt präsentieren wir zahlreiche Erkenntnisse, die erklären, wie MoEs nicht-englische Texte verarbeiten, und zeigen, dass die Generalisierung durch die Fähigkeit des Modells begrenzt ist, sprachuniverselle Experten in allen Sprachen zu nutzen.
Menschen sind gut darin, im Arbeitsprozess zu lernen: Wir lernen, wie wir die Aufgaben, denen wir gegenüberstehen, im Laufe der Zeit lösen können. Kann ein Modell dasselbe erreichen? Wir schlagen einen Agenten vor, der ein aufgabenbezogenes Curriculum zusammenstellt, genannt Test-Time Curriculum (TTC-RL), und Reinforcement Learning anwendet, um das Modell für seine Zielaufgabe weiter zu trainieren. Das Test-Time Curriculum vermeidet zeitaufwändige menschliche Kuratierung von Datensätzen, indem es automatisch die für die Aufgabe relevantesten Daten aus einem großen Pool verfügbarer Trainingsdaten auswählt. Unsere Experimente zeigen, dass Reinforcement Learning auf einem Test-Time Curriculum das Modell bei seinen Zielaufgaben durchgängig verbessert, und dies über eine Vielzahl von Evaluierungen und Modellen hinweg. Bemerkenswerterweise steigert TTC-RL die pass@1-Leistung von Qwen3-8B auf anspruchsvollen mathematischen und Programmier-Benchmarks um etwa das 1,8-fache auf AIME25 und das 2,1-fache auf CodeElo. Darüber hinaus stellen wir fest, dass TTC-RL die Leistungsgrenze im Vergleich zum Ausgangsmodell signifikant erhöht, indem es pass@8 auf AIME25 von 40 % auf 62 % und auf CodeElo von 28 % auf 43 % steigert. Unsere Ergebnisse zeigen das Potenzial von Test-Time Curricula, das Paradigma der Test-Time-Skalierung auf kontinuierliches Training mit tausenden aufgabenrelevanten Erfahrungen während der Testphase auszuweiten.
Da Systeme in Richtung Superintelligenz tendieren, ist eine natürliche Modellierungsannahme, dass Agenten sich in jeder Facette ihres eigenen Designs selbst verbessern können. Wir formalisieren dies mit einer fünfachsigen Zerlegung und einer Entscheidungsschicht, die Anreize vom Lernverhalten trennt und die Achsen isoliert analysiert. Unser zentrales Ergebnis identifiziert und führt eine scharfe Nutzen-Lern-Spannung ein, den strukturellen Konflikt in selbstmodifizierenden Systemen, bei dem nutzengetriebene Veränderungen, die die unmittelbare oder erwartete Leistung verbessern, auch die statistischen Voraussetzungen für zuverlässiges Lernen und Generalisierung untergraben können. Unsere Ergebnisse zeigen, dass verteilungsfreie Garantien genau dann erhalten bleiben, wenn die durch die Politik erreichbare Modellfamilie gleichmäßig kapazitätsbeschränkt ist; wenn die Kapazität ohne Grenzen wachsen kann, können nutzenrationale Selbstveränderungen lernbare Aufgaben unlernbar machen. Unter Standardannahmen, die in der Praxis üblich sind, reduzieren sich diese Achsen auf dasselbe Kapazitätskriterium, was eine einzige Grenze für sichere Selbstmodifikation ergibt. Numerische Experimente über mehrere Achsen validieren die Theorie, indem sie zerstörerische Nutzenpolitiken mit unseren vorgeschlagenen Zwei-Tor-Politiken vergleichen, die die Lernfähigkeit bewahren.
Große Sprachmodelle (LLMs) neigen dazu, lexikalisch, semantisch und stilistisch homogene Texte zu erzeugen. Dies birgt das Risiko eines Wissenskollapses, bei dem homogene LLMs im Laufe der Zeit eine Verringerung der Bandbreite zugänglicher Informationen bewirken. Bisherige Arbeiten zur Homogenisierung sind dadurch begrenzt, dass sie sich auf geschlossene Multiple-Choice-Setups oder unscharfe semantische Merkmale konzentrieren und keine Trends über Zeit und kulturelle Kontexte hinweg betrachten. Um dies zu überwinden, stellen wir eine neue Methodik zur Messung der epistemischen Vielfalt vor, d.h. der Variation realer Behauptungen in den Ausgaben von LLMs, die wir für eine umfassende empirische Studie zum Wissenskollaps bei LLMs verwenden. Wir testen 27 LLMs, 155 Themen aus 12 Ländern und 200 Prompt-Variationen, die aus realen Nutzerchats stammen. Für die Themen unserer Studie zeigen wir, dass neuere Modelle zwar tendenziell vielfältigere Behauptungen generieren, fast alle Modelle jedoch weniger epistemisch vielfältig sind als eine einfache Websuche. Wir stellen fest, dass die Modellgröße einen negativen Einfluss auf die epistemische Vielfalt hat, während retrieval-augmentierte Generierung (RAG) einen positiven Einfluss hat, obwohl die Verbesserung durch RAG je nach kulturellem Kontext variiert. Schließlich stellen wir im Vergleich zu einer traditionellen Wissensquelle (Wikipedia) fest, dass länderspezifische Behauptungen die englische Sprache stärker widerspiegeln als die lokale, was eine Lücke in der epistemischen Repräsentation aufzeigt.
Wir präsentieren Paris, das erste öffentlich verfügbare Diffusionsmodell, das vollständig durch dezentralisierte Berechnung vortrainiert wurde. Paris demonstriert, dass hochwertige Text-zu-Bild-Generierung ohne zentral koordinierte Infrastruktur erreicht werden kann. Paris steht für Forschungs- und kommerzielle Nutzung offen. Die Entwicklung von Paris erforderte die Implementierung unseres Distributed Diffusion Training Frameworks von Grund auf. Das Modell besteht aus 8 Expertendiffusionsmodellen (jeweils 129M–605M Parameter), die vollständig isoliert ohne Gradienten-, Parameter- oder Zwischenaktivierungssynchronisation trainiert wurden. Anstatt synchronisierte Gradientenupdates über Tausende von GPUs zu erfordern, partitionieren wir die Daten in semantisch kohärente Cluster, in denen jeder Experte unabhängig seine Teilmenge optimiert, während gemeinsam die vollständige Verteilung angenähert wird. Ein leichtgewichtiger Transformer-Router wählt dynamisch die passenden Experten während der Inferenz aus und erreicht dabei eine Generierungsqualität, die mit zentral koordinierten Baselines vergleichbar ist. Die Eliminierung der Synchronisation ermöglicht das Training auf heterogener Hardware ohne spezialisierte Interconnects. Empirische Validierungen bestätigen, dass das dezentralisierte Training von Paris die Generierungsqualität beibehält, während die Anforderung an dedizierte GPU-Cluster für großskalige Diffusionsmodelle entfällt. Paris erreicht dies mit 14-mal weniger Trainingsdaten und 16-mal weniger Rechenleistung als die bisherige dezentralisierte Baseline.
Die Diskussion über Datenschutzrisiken in Large Language Models (LLMs) hat sich unverhältnismäßig stark auf die wortgetreue Speicherung von Trainingsdaten konzentriert, während eine Vielzahl unmittelbarer und skalierbarer Datenschutzbedrohungen weiterhin unzureichend erforscht bleibt. Dieses Positionspapier argumentiert, dass das Datenschutzspektrum von LLM-Systemen weit über die Extraktion von Trainingsdaten hinausgeht und Risiken aus Datenerfassungspraktiken, Kontextlecks während der Inferenz, autonomen Agentenfunktionen sowie der Demokratisierung von Überwachung durch Deep-Inference-Angriffe umfasst. Wir präsentieren eine umfassende Taxonomie von Datenschutzrisiken über den gesamten Lebenszyklus von LLMs – von der Datenerfassung bis zur Bereitstellung – und zeigen anhand von Fallstudien, wie aktuelle Datenschutzrahmenwerke diese vielschichtigen Bedrohungen nicht adressieren. Durch eine longitudinale Analyse von 1.322 KI/ML-Datenschutzpublikationen, die in den letzten zehn Jahren (2016–2025) auf führenden Konferenzen veröffentlicht wurden, offenbaren wir, dass während der Speicherung von Daten in der technischen Forschung überproportionale Aufmerksamkeit geschenkt wird, die dringendsten Datenschutzprobleme jedoch an anderer Stelle liegen, wo aktuelle technische Ansätze wenig Wirkung zeigen und gangbare Lösungswege unklar bleiben. Wir fordern einen grundlegenden Wandel in der Herangehensweise der Forschungsgemeinschaft an den Datenschutz von LLMs, der über den engen Fokus aktueller technischer Lösungen hinausgeht und interdisziplinäre Ansätze umfasst, die die soziotechnische Natur dieser aufkommenden Bedrohungen adressieren.
LLM-basierte Multi-Agenten-Systeme zeichnen sich durch ihre Fähigkeiten in Planung, Werkzeugnutzung und Rollenkoordination aus, doch ihre Offenheit und Interaktionskomplexität machen sie auch anfällig für Jailbreaks, Prompt-Injections und adversarische Kollaborationen. Bestehende Verteidigungsansätze lassen sich in zwei Kategorien einteilen: (i) Selbstverifikation, bei der jeder Agent unsichere Anweisungen vor der Ausführung vorfiltert, und (ii) externe Schutzmodule, die das Verhalten überwachen. Ersteres schneidet oft schlecht ab, da ein einzelner Agent nicht über ausreichende Kapazitäten verfügt, um übergreifende unsichere Handlungsketten und durch Delegation verursachte Risiken zu erkennen; Letzteres erhöht den Systemoverhead und schafft einen Single-Point-of-Failure – sobald dieser kompromittiert ist, bricht die Systemsicherheit vollständig zusammen, und das Hinzufügen weiterer Schutzmodule verschärft Kosten und Komplexität. Um diese Herausforderungen zu lösen, schlagen wir AdvEvo-MARL vor, ein ko-evolutionäres Multi-Agenten-Verstärkungslernframework, das Sicherheit in die Aufgabenagenten internalisiert. Anstatt auf externe Schutzmodule zu setzen, optimiert AdvEvo-MARL Angreifer (die sich entwickelnde Jailbreak-Prompts synthetisieren) und Verteidiger (Aufgabenagenten, die darauf trainiert sind, sowohl ihre Aufgaben zu erfüllen als auch Angriffen zu widerstehen) gemeinsam in adversarischen Lernumgebungen. Um das Lernen zu stabilisieren und die Zusammenarbeit zu fördern, führen wir eine öffentliche Baseline für die Vorteilsschätzung ein: Agenten innerhalb derselben Funktionsgruppe teilen eine gruppenbasierte Mittelwert-Baseline, was Updates mit geringerer Varianz und eine stärkere Koordination innerhalb der Gruppe ermöglicht. In repräsentativen Angriffsszenarien hält AdvEvo-MARL die Angriffserfolgsrate (ASR) durchgängig unter 20 %, während Baselines bis zu 38,33 % erreichen, und bewahrt – oder verbessert sogar – die Aufgabengenauigkeit (bis zu +3,67 % bei logischen Aufgaben). Diese Ergebnisse zeigen, dass Sicherheit und Nutzen gemeinsam verbessert werden können, ohne auf zusätzliche Schutzagenten oder erhöhten Systemoverhead angewiesen zu sein.
Da multimodale, von LLM-gesteuerte Agenten in Bezug auf Autonomie und Generalisierung weiter voranschreiten, kann die Bewertung anhand statischer Datensätze ihre tatsächlichen Fähigkeiten in dynamischen Umgebungen und bei vielfältigen Aufgaben nicht mehr angemessen erfassen. Bestehende Methoden zur Erzeugung synthetischer Daten auf LLM-Basis sind weitgehend für das Training und die Bewertung von LLMs konzipiert und können daher nicht direkt auf Agentenaufgaben angewendet werden, die den Einsatz von Werkzeugen und interaktive Fähigkeiten erfordern. Während neuere Studien die automatische Generierung von Agentenaufgaben mit LLMs untersucht haben, beschränken sich die meisten Bemühungen auf die Analyse von Text oder Bildern, ohne mehrstufige Interaktionen in Webumgebungen systematisch zu modellieren. Um diese Herausforderungen zu bewältigen, schlagen wir Graph2Eval vor, ein auf Wissensgraphen basierendes Framework, das sowohl multimodale Aufgaben zur Dokumentenverständnis als auch Webinteraktionsaufgaben automatisch generiert und so eine umfassende Bewertung der Schlussfolgerungs-, Kollaborations- und Interaktionsfähigkeiten von Agenten ermöglicht. In unserem Ansatz dienen Wissensgraphen, die aus mehreren externen Datenquellen konstruiert werden, als Aufgabenraum, in dem wir semantische Beziehungen mithilfe von Subgraph-Sampling, Aufgabenvorlagen und Meta-Pfaden in strukturierte multimodale Aufgaben übersetzen. Eine mehrstufige Filterpipeline, die auf Knotenerreichbarkeit, LLM-Bewertung und Ähnlichkeitsanalyse basiert, wird angewendet, um die Qualität und Ausführbarkeit der generierten Aufgaben zu gewährleisten. Darüber hinaus unterstützt Graph2Eval die End-to-End-Bewertung verschiedener Agententypen (Einzelagent, Multi-Agent, Web-Agent) und misst Schlussfolgerungs-, Kollaborations- und Interaktionsfähigkeiten. Wir instanziieren das Framework mit Graph2Eval-Bench, einem kuratierten Datensatz von 1.319 Aufgaben, die Szenarien zur Dokumentenverständnis und Webinteraktion abdecken. Experimente zeigen, dass Graph2Eval effizient Aufgaben generiert, die die Leistung von Agenten und Modellen differenzieren, Lücken in der Schlussfolgerung, Kollaboration und Webinteraktion in verschiedenen Settings aufdecken und eine neue Perspektive für die Bewertung von Agenten bieten.
Potenztransformationen sind beliebte parametrische Techniken, um Daten stärker gaußähnlich zu gestalten, und werden häufig als Vorverarbeitungsschritte in der statistischen Analyse und im maschinellen Lernen eingesetzt. Wir stellen jedoch fest, dass direkte Implementierungen von Potenztransformationen unter schwerwiegenden numerischen Instabilitäten leiden, die zu fehlerhaften Ergebnissen oder sogar Abstürzen führen können. In diesem Artikel bieten wir eine umfassende Analyse der Ursachen dieser Instabilitäten und schlagen wirksame Abhilfemaßnahmen vor. Darüber hinaus erweitern wir Potenztransformationen auf das Szenario des föderierten Lernens und behandeln dabei sowohl numerische als auch verteilungsbezogene Herausforderungen, die in diesem Kontext auftreten. Experimente mit realen Datensätzen zeigen, dass unsere Methoden sowohl effektiv als auch robust sind und die Stabilität im Vergleich zu bestehenden Ansätzen erheblich verbessern.
Receiver Operating Characteristic (ROC)- und Precision-Recall (PR)-Kurven sind grundlegende Werkzeuge zur Bewertung von maschinellen Lernklassifikatoren, die detaillierte Einblicke in die Kompromisse zwischen der True-Positive-Rate und der False-Positive-Rate (ROC) bzw. zwischen Präzision und Recall (PR) bieten. In Szenarien des Federated Learning (FL), bei denen Daten über mehrere Clients verteilt sind, ist die Berechnung dieser Kurven jedoch aufgrund von Datenschutz- und Kommunikationsbeschränkungen eine Herausforderung. Insbesondere kann der Server nicht auf die Rohvorhersagewerte und Klassenlabels zugreifen, die in einer zentralisierten Umgebung zur Berechnung der ROC- und PR-Kurven verwendet werden. In diesem Artikel schlagen wir eine neuartige Methode zur Approximation von ROC- und PR-Kurven in einer föderierten Umgebung vor, indem Quantile der Verteilung der Vorhersagewerte unter verteilter Differential Privacy geschätzt werden. Wir liefern theoretische Grenzen für den Area Error (AE) zwischen den tatsächlichen und den geschätzten Kurven, die die Kompromisse zwischen Approximationsgenauigkeit, Datenschutz und Kommunikationskosten aufzeigen. Empirische Ergebnisse auf realen Datensätzen zeigen, dass unsere Methode eine hohe Approximationsgenauigkeit mit minimaler Kommunikation und starken Datenschutzgarantien erreicht, was sie für die datenschutzbewahrende Modellbewertung in föderierten Systemen praktikabel macht.
Wir veröffentlichen Code World Model (CWM), ein Open-Weights-LLM mit 32 Milliarden Parametern, um die Forschung zur Code-Generierung mit Weltmodellen voranzutreiben. Um das Code-Verständnis über das hinaus zu verbessern, was allein durch das Training auf statischem Code erlernt werden kann, trainieren wir CWM mit einer großen Menge an Beobachtungs-Aktions-Trajektorien aus Python-Interpreter- und agentenbasierten Docker-Umgebungen und führen umfangreiches Multi-Task-Reasoning-RL in verifizierbaren Programmier-, Mathematik- und mehrstufigen Softwareentwicklungsumgebungen durch. Mit CWM bieten wir eine leistungsstarke Testumgebung für Forscher, um die Möglichkeiten zu erkunden, die Weltmodelle für die Verbesserung der Code-Generierung durch Reasoning und Planung in rechnerischen Umgebungen bieten. Wir präsentieren erste Schritte, wie Weltmodelle das agentenbasierte Programmieren unterstützen können, die schrittweise Simulation der Python-Code-Ausführung ermöglichen und zeigen frühe Ergebnisse, wie Reasoning von letzterem profitieren kann. CWM ist ein dichtes, ausschließlich dekodierendes LLM, das mit einer Kontextgröße von bis zu 131k Tokens trainiert wurde. Unabhängig von seinen Weltmodellierungsfähigkeiten bietet CWM eine starke Leistung bei allgemeinen Programmier- und Mathematikaufgaben: Es erreicht Pass@1-Werte von 65,8 % bei SWE-bench Verified (mit Testzeit-Skalierung), 68,6 % bei LiveCodeBench, 96,6 % bei Math-500 und 76,0 % bei AIME 2024. Um die weitere Forschung zur Code-Weltmodellierung zu unterstützen, veröffentlichen wir Modell-Checkpoints nach dem Mid-Training, SFT und RL.