papers.description
Akademische PrĂ€sentationsvideos sind zu einem wesentlichen Medium fĂŒr die Forschungsvermittlung geworden, doch ihre Produktion bleibt Ă€uĂerst arbeitsintensiv und erfordert oft Stunden fĂŒr die Gestaltung von Folien, Aufnahme und Bearbeitung fĂŒr ein kurzes Video von 2 bis 10 Minuten. Im Gegensatz zu natĂŒrlichen Videos birgt die Generierung von PrĂ€sentationsvideos besondere Herausforderungen: Eingaben aus Forschungsarbeiten, dichte multimodale Informationen (Text, Abbildungen, Tabellen) sowie die Notwendigkeit, mehrere abgestimmte KanĂ€le wie Folien, Untertitel, Sprache und den sprechenden Menschen zu koordinieren. Um diese Herausforderungen zu bewĂ€ltigen, stellen wir PaperTalker vor, den ersten Benchmark mit 101 Forschungsarbeiten, die mit vom Autor erstellten PrĂ€sentationsvideos, Folien und Sprechermetadaten gepaart sind. DarĂŒber hinaus entwickeln wir vier maĂgeschneiderte Bewertungsmetriken â Meta Similarity, PresentArena, PresentQuiz und IP Memory â, um zu messen, wie gut die Videos die Informationen der Arbeit an das Publikum vermitteln. Auf dieser Grundlage aufbauend, prĂ€sentieren wir PaperTalker, das erste Multi-Agenten-Framework zur Generierung akademischer PrĂ€sentationsvideos. Es integriert die Foliengenerierung mit effektiver Layoutverfeinerung durch eine neuartige effiziente Baum-Suche fĂŒr visuelle Auswahl, Cursor-Verankerung, Untertitelung, Sprachsynthese und Talking-Head-Rendering, wĂ€hrend es die folienweise Generierung zur Steigerung der Effizienz parallelisiert. Experimente mit Paper2Video zeigen, dass die von unserem Ansatz erzeugten PrĂ€sentationsvideos treuer und informativer sind als bestehende Baselines, was einen praktischen Schritt in Richtung automatisierter und sofort einsatzbereiter akademischer Videogenerierung darstellt. Unser Datensatz, Agent und Code sind unter https://github.com/showlab/Paper2Video verfĂŒgbar.
GroĂe Sprachmodelle (LLMs) wie Agenten und domĂ€nenspezifische Reasoning-Systeme setzen zunehmend auf Kontextanpassung â die Modifikation von Eingaben mit Anweisungen, Strategien oder Beweisen, anstatt Gewichtsaktualisierungen. Bisherige AnsĂ€tze verbessern zwar die Benutzerfreundlichkeit, leiden jedoch oft unter KĂŒrzungsverzerrung, die domĂ€nenspezifische Erkenntnisse zugunsten prĂ€gnanter Zusammenfassungen vernachlĂ€ssigt, sowie unter Kontextkollaps, bei dem iteratives Umschreiben Details im Laufe der Zeit verschlechtert. Aufbauend auf dem adaptiven GedĂ€chtnis, das durch Dynamic Cheatsheet eingefĂŒhrt wurde, prĂ€sentieren wir ACE (Agentic Context Engineering), ein Framework, das Kontexte als sich entwickelnde Playbooks behandelt, die Strategien durch einen modularen Prozess von Generierung, Reflexion und Kuratierung sammeln, verfeinern und organisieren. ACE verhindert den Kollaps durch strukturierte, inkrementelle Aktualisierungen, die detailliertes Wissen bewahren und mit Langzeitkontextmodellen skalieren. In Benchmarks fĂŒr Agenten und domĂ€nenspezifische Anwendungen optimiert ACE Kontexte sowohl offline (z.B. Systemprompts) als auch online (z.B. AgentengedĂ€chtnis) und ĂŒbertrifft dabei konsequent starke Baselines: +10,6 % bei Agenten und +8,6 % im Finanzbereich, wĂ€hrend gleichzeitig die Anpassungslatenz und die Rollout-Kosten deutlich reduziert werden. Bemerkenswerterweise konnte ACE effektiv ohne ĂŒberwachte Beschriftungen adaptieren, indem es natĂŒrliches AusfĂŒhrungsfeedback nutzte. Auf der AppWorld-Rangliste erreicht ACE den durchschnittlichen Gesamtwert des fĂŒhrenden Produktionsagenten und ĂŒbertrifft ihn im schwierigeren Test-Challenge-Split, obwohl ein kleineres Open-Source-Modell verwendet wird. Diese Ergebnisse zeigen, dass umfassende, sich entwickelnde Kontexte skalierbare, effiziente und selbstverbessernde LLM-Systeme mit geringem Overhead ermöglichen.
Die Videoanalyse stellt die anspruchsvollste Grenze in der Computer Vision dar, da sie von Modellen verlangt, komplexe raumzeitliche Beziehungen, langfristige AbhĂ€ngigkeiten und multimodale Beweise zu verarbeiten. Das kĂŒrzliche Aufkommen von Video-Large Multimodal Models (Video-LMMs), die visuelle Encoder mit leistungsstarken, dekodierbasierten Sprachmodellen integrieren, hat bemerkenswerte FĂ€higkeiten in der Videoanalyse gezeigt. Dennoch bleibt die kritische Phase, die diese Modelle von einfachen Wahrnehmungssystemen in ausgeklĂŒgelte Denkmaschinen verwandelt â das Post-Training â in der Literatur fragmentiert. Diese Ăbersichtsarbeit bietet die erste umfassende Untersuchung von Post-Training-Methoden fĂŒr Video-LMMs, die drei grundlegende SĂ€ulen umfasst: Supervised Fine-Tuning (SFT) mit Chain-of-Thought, Reinforcement Learning (RL) aus ĂŒberprĂŒfbaren Zielen und Test-Time Scaling (TTS) durch verbesserte Inferenzberechnung. Wir prĂ€sentieren eine strukturierte Taxonomie, die die Rollen, ZusammenhĂ€nge und videospezifischen Anpassungen dieser Techniken verdeutlicht und einzigartige Herausforderungen wie zeitliche Lokalisierung, raumzeitliche Verankerung, Effizienz bei langen Videos und die Integration multimodaler Beweise adressiert. Durch systematische Analyse reprĂ€sentativer Methoden synthetisieren wir SchlĂŒsselprinzipien, Erkenntnisse und Evaluationsprotokolle und identifizieren kritische offene Herausforderungen in der Belohnungsgestaltung, Skalierbarkeit und Kosten-Leistungs-Optimierung. DarĂŒber hinaus stellen wir wesentliche Benchmarks, DatensĂ€tze und Metriken zusammen, um eine rigorose Bewertung der Post-Training-EffektivitĂ€t zu ermöglichen. Diese Ăbersichtsarbeit zielt darauf ab, Forschern und Praktikern einen einheitlichen Rahmen zur Weiterentwicklung der FĂ€higkeiten von Video-LMMs zu bieten. ZusĂ€tzliche Ressourcen und Aktualisierungen werden unter folgender Adresse gepflegt: https://github.com/yunlong10/Awesome-Video-LMM-Post-Training
Die Baumsuche hat sich als ein reprĂ€sentatives Framework fĂŒr das Testzeit-SchlieĂen mit groĂen Sprachmodellen (LLMs) etabliert, wie beispielsweise Methoden wie Tree-of-Thought und Monte-Carlo-Baumsuche, die mehrere Schlussfolgerungspfade erkunden. Es bleibt jedoch schwierig, sofortige und zuverlĂ€ssige quantitative Bewertungen der QualitĂ€t von Zwischenschritten in der Schlussfolgerung bereitzustellen, und die umfangreiche Erkundung von Pfaden ist rechenintensiv. Um dies zu adressieren, schlagen wir die Mutual Information Tree Search (MITS) vor, ein neuartiges Framework, das das SchlieĂen mit informationstheoretischen Prinzipien leitet. MITS fĂŒhrt eine effektive Bewertungsfunktion basierend auf der punktweisen gegenseitigen Information (PMI) ein, die eine schrittweise Bewertung von Schlussfolgerungspfaden und die Erweiterung des Suchbaums durch Beam Search ohne kostspielige Vorausschau-Simulationen ermöglicht. Dadurch werden ĂŒberlegene Schlussfolgerungsleistungen bei gleichzeitiger Beibehaltung der Recheneffizienz erreicht. Das Framework wird durch eine entropiebasierte dynamische Sampling-Strategie ergĂ€nzt, die Rechenressourcen adaptiv auf unsichere Schlussfolgerungsschritte verteilt, bei denen die Erkundung am vorteilhaftesten ist. FĂŒr die endgĂŒltige Vorhersage verwendet MITS ein gewichtetes Abstimmungsschema, das PMI-Bewertungen mit Vorhersagekonsens kombiniert. Durch umfassende Experimente auf diversen Schlussfolgerungs-Benchmarks ĂŒbertrifft MITS konsistent Baseline-Methoden und etabliert ein prinzipielles und effizientes Framework fĂŒr das SchlieĂen mit LLMs.
JĂŒngste Fortschritte bei groĂen Sprachmodellen zeigen, dass hybride Architekturen â die Selbstaufmerksamkeitsmechanismen mit strukturierten Zustandsraummodellen wie Mamba kombinieren â ein ĂŒberzeugendes Gleichgewicht zwischen ModellierungsqualitĂ€t und Recheneffizienz erreichen können, insbesondere bei Aufgaben mit langem Kontext. Obwohl diese hybriden Modelle vielversprechende Leistungen zeigen, wurden systematische Vergleiche von Hybridisierungsstrategien und Analysen der SchlĂŒsselfaktoren hinter ihrer EffektivitĂ€t der Gemeinschaft noch nicht klar vermittelt. In dieser Arbeit prĂ€sentieren wir eine ganzheitliche Bewertung hybrider Architekturen, die auf inter-schichtiger (sequenzieller) oder intra-schichtiger (paralleler) Fusion basieren. Wir bewerten diese EntwĂŒrfe aus verschiedenen Perspektiven: Sprachmodellierungsleistung, FĂ€higkeiten im langen Kontext, Skalierungsanalysen sowie Trainings- und Inferenzeffizienz. Durch die Untersuchung der Kernmerkmale ihrer Rechenprimitive identifizieren wir die kritischsten Elemente fĂŒr jede Hybridisierungsstrategie und schlagen optimale Designrezepte fĂŒr beide hybriden Modelle vor. Unsere umfassende Analyse bietet praktische Anleitungen und wertvolle Einblicke fĂŒr die Entwicklung hybrider Sprachmodelle und erleichtert die Optimierung architektonischer Konfigurationen.
Aktuelle Modelle zur Videogenerierung können flĂŒssige und visuell ansprechende Clips erzeugen, haben jedoch oft Schwierigkeiten, komplexe Dynamiken mit einer kohĂ€renten Kette von Konsequenzen zu synthetisieren. Die prĂ€zise Modellierung visueller Ergebnisse und ZustandsĂŒbergĂ€nge ĂŒber die Zeit bleibt eine zentrale Herausforderung. Im Gegensatz dazu zeigen groĂe Sprach- und Multimodale Modelle (z. B. GPT-4o) starke FĂ€higkeiten in der visuellen Zustandslogik und Zukunftsprognose. Um diese StĂ€rken zu vereinen, fĂŒhren wir VChain ein, ein neuartiges Inferenzzeit-Framework der âChain-of-Visual-Thoughtâ, das visuelle Logiksignale aus multimodalen Modellen in die Videogenerierung einbringt. Konkret umfasst VChain eine spezialisierte Pipeline, die groĂe multimodale Modelle nutzt, um eine spĂ€rliche Menge kritischer Keyframes als Momentaufnahmen zu generieren. Diese werden dann verwendet, um die spĂ€rliche Inferenzzeit-Anpassung eines vortrainierten Videogenerators nur an diesen SchlĂŒsselmomenten zu steuern. Unser Ansatz ist anpassungseffizient, fĂŒhrt zu minimalem Overhead und vermeidet eine dichte Ăberwachung. Umfangreiche Experimente in komplexen, mehrstufigen Szenarien zeigen, dass VChain die QualitĂ€t der generierten Videos signifikant verbessert.
Jailbreaking-Angriffe auf die visuelle ModalitĂ€t basieren typischerweise auf nicht wahrnehmbaren adversarischen Störungen, wĂ€hrend Angriffe auf die textuelle ModalitĂ€t allgemein als sichtbare Modifikationen (z. B. nicht-semantische Suffixe) angenommen werden. In diesem Artikel fĂŒhren wir nicht wahrnehmbare Jailbreaks ein, die eine Klasse von Unicode-Zeichen namens Variationsselektoren ausnutzen. Durch das AnhĂ€ngen unsichtbarer Variationsselektoren an bösartige Fragen erscheinen die Jailbreak-Prompts auf dem Bildschirm visuell identisch zu den ursprĂŒnglichen bösartigen Fragen, wĂ€hrend ihre Tokenisierung âheimlichâ verĂ€ndert wird. Wir schlagen eine Chain-of-Search-Pipeline vor, um solche adversarischen Suffixe zu generieren, die schĂ€dliche Antworten hervorrufen. Unsere Experimente zeigen, dass unsere nicht wahrnehmbaren Jailbreaks hohe Angriffserfolgsraten gegen vier ausgerichtete LLMs erreichen und sich auf Prompt-Injection-Angriffe verallgemeinern lassen, alles ohne sichtbare Modifikationen im geschriebenen Prompt zu erzeugen. Unser Code ist verfĂŒgbar unter https://github.com/sail-sg/imperceptible-jailbreaks.
Trotz jĂŒngster Fortschritte beim optimalen Transfer von Hyperparametern unter Skalierung von Modellen und DatensĂ€tzen wurde kein einheitliches ErklĂ€rungsprinzip etabliert. Mithilfe des Scion-Optimierers entdecken wir, dass die gemeinsame optimale Skalierung ĂŒber Modell- und DatensatzgröĂen durch eine einzige Invariante bestimmt wird: die Operatornorm der Ausgabeschicht. Bei Modellen mit bis zu 1,3 Milliarden Parametern, die mit bis zu 138 Milliarden Tokens trainiert wurden, weist das optimale Lernraten/Batch-GröĂen-Paar (η^â, B^â) durchweg denselben Operatornorm-Wert auf â ein PhĂ€nomen, das wir als Normtransfer bezeichnen. Diese konstante Norm-Bedingung ist notwendig, aber nicht hinreichend: WĂ€hrend fĂŒr jede DatensatzgröĂe mehrere (η, B) die optimale Norm erreichen, erzielt nur ein einziges (η^â, B^â) den besten Verlust. Als hinreichende Bedingung liefern wir die erste Messung der Skalierung von (η^â, B^â) mit der DatensatzgröĂe fĂŒr Scion und stellen fest, dass die Skalierungsregeln mit denen des Adam-Optimierers ĂŒbereinstimmen. Die Feinabstimmung der Lernraten pro Schichtgruppe verbessert ebenfalls die Modellleistung, wobei die Ausgabeschicht am empfindlichsten ist und versteckte Schichten von niedrigeren Lernraten profitieren. Wir bieten praktische Einblicke in die normgeleitete optimale Skalierung und veröffentlichen unsere Implementierung von Distributed Scion (Disco) mit Protokollen aus ĂŒber zweitausend DurchlĂ€ufen, um die Forschung zu den Trainingsdynamiken von LLMs im groĂen MaĂstab zu unterstĂŒtzen.
Die Transformer-Architektur hat sich als De-facto-Standard fĂŒr Large Language Models (LLMs) etabliert und zeigt bemerkenswerte FĂ€higkeiten im Bereich des SprachverstĂ€ndnisses und der Sprachgenerierung. Ihre Anwendung in der konversationellen KI wird jedoch grundlegend durch ihren zustandslosen Charakter und die quadratische RechenkomplexitĂ€t (O(L^2)) in Bezug auf die SequenzlĂ€nge L eingeschrĂ€nkt. Aktuelle Modelle imitieren GedĂ€chtnis, indem sie eine stĂ€ndig wachsende Konversationshistorie bei jedem Dialogschritt erneut verarbeiten, was zu unvertretbaren Kosten und Latenzzeiten in langen Dialogen fĂŒhrt. Dieses Papier stellt den Reactive Transformer (RxT) vor, eine neuartige Architektur, die entwickelt wurde, um diese EinschrĂ€nkungen zu ĂŒberwinden, indem sie von einem datengetriebenen zu einem ereignisgetriebenen Paradigma wechselt. RxT verarbeitet jeden Konversationsschritt als diskretes Ereignis in Echtzeit und bewahrt den Kontext in einem integrierten, festen KurzzeitgedĂ€chtnis (Short-Term Memory, STM). Die Architektur zeichnet sich durch einen spezifischen Betriebszyklus aus, bei dem ein Generator-Decoder eine Antwort basierend auf der aktuellen Anfrage und dem vorherigen GedĂ€chtniszustand erzeugt, woraufhin ein Memory-Encoder und ein dediziertes Memory-Attention-Netzwerk das STM asynchron mit einer ReprĂ€sentation der gesamten Interaktion aktualisieren. Dieser Entwurf verĂ€ndert die Skalierungsdynamik grundlegend und reduziert die Gesamtkosten einer Konversation fĂŒr den Benutzer von quadratisch (O(N^2 cdot T)) auf linear (O(N cdot T)) in Bezug auf die Anzahl der Interaktionen N. Durch die Entkopplung der Antwortgenerierung von GedĂ€chtnisaktualisierungen erreicht RxT niedrige Latenzzeiten und ermöglicht damit echtzeitfĂ€hige, zustandsbehaftete und wirtschaftlich tragfĂ€hige Langzeitkonversationen. Wir haben unsere Architektur mit einer Reihe von Proof-of-Concept-Experimenten auf synthetischen Daten validiert und dabei eine ĂŒberlegene Leistung sowie eine konstante Inferenzlatenz im Vergleich zu einem zustandslosen Basismodell vergleichbarer GröĂe nachgewiesen.
Das vorherrschende Paradigma zur Verbesserung der FĂ€higkeiten von Large Language Models (LLMs) im Bereich des logischen Denkens dreht sich um das NachtrĂ€gliche Training mit hochwertigen, denkintensiven Daten. WĂ€hrend neuere Literatur darauf hindeutet, dass Denkdaten zunehmend auch wĂ€hrend des mittleren Trainingsstadiums einbezogen werden â eine Praxis, die eher proprietĂ€r und weniger offen charakterisiert ist â bleibt die Rolle solcher Daten im Pretraining unklar. Insbesondere aufgrund der Undurchsichtigkeit der Pretraining-Korpora in den meisten fortschrittlichen Modellen wird die Wirkung von Denkdaten, die in verschiedenen Phasen des Pre- und/oder Posttrainings eingefĂŒhrt werden, in der wissenschaftlichen Literatur relativ wenig berichtet. Dies wirft mehrere wichtige Fragen auf: Ist die frĂŒhere EinfĂŒhrung von Denkdaten wĂ€hrend des Pretrainings besser als die EinfĂŒhrung wĂ€hrend des Posttrainings? Könnte eine frĂŒhere Einbindung das Risiko von Ăberanpassung erhöhen und die Generalisierung beeintrĂ€chtigen, oder stattdessen dauerhafte Grundlagen schaffen, die spĂ€teres Feintuning nicht wiederherstellen kann? Wir fĂŒhren die erste systematische Studie durch, wie Denkdaten â variierend in Umfang, Vielfalt und QualitĂ€t â die Leistung von LLMs beeinflussen, wenn sie in verschiedenen Trainingsphasen eingefĂŒhrt werden. Wir stellen fest, dass die frĂŒhzeitige Einbindung von Denkdaten in das Pretraining entscheidend ist (durchschnittlich 19 % Gewinn), da sie grundlegende FĂ€higkeiten etabliert, die durch spĂ€teres Supervised Fine-Tuning (SFT) nicht vollstĂ€ndig repliziert werden können, selbst mit mehr Daten. Wir entdecken ein asymmetrisches Prinzip fĂŒr die optimale Datenverteilung: Das Pretraining profitiert am meisten von einer breiten Vielfalt an Denkmustern (durchschnittlich 11 % Gewinn), wĂ€hrend SFT empfindlicher auf die DatenqualitĂ€t reagiert (durchschnittlich 15 % Gewinn). Wir zeigen, dass hochwertige Pretraining-Daten latente Effekte haben, die erst nach dem SFT aktiviert werden, und dass eine naive Skalierung der SFT-Daten nachteilig sein kann, da sie die Vorteile der frĂŒhen Einbindung von Denkdaten zunichtemacht. Unsere Ergebnisse stellen die konventionelle Trennung von Sprachmodellierung und logischem Denken in Frage und bieten einen prinzipiellen Leitfaden fĂŒr die strategische Verteilung von Daten ĂŒber die gesamte Trainingspipeline hinweg, um leistungsfĂ€higere Modelle zu entwickeln.
Gesprochene Dialogsysteme basieren oft auf kaskadierten Pipelines, die Sprache transkribieren, verarbeiten und resynthetisieren. Obwohl effektiv, verwirft dieser Entwurf paralinguistische Hinweise und begrenzt die AusdrucksfĂ€higkeit. Neuere End-to-End-Methoden reduzieren die Latenz und bewahren diese Hinweise besser, doch sie verlassen sich weiterhin auf Text-Zwischenstufen, was einen grundlegenden Engpass darstellt. Wir prĂ€sentieren MOSS-Speech, ein echtes Sprach-zu-Sprach-GroĂsprachmodell, das Sprache direkt versteht und erzeugt, ohne auf Textanleitung angewiesen zu sein. Unser Ansatz kombiniert eine modalitĂ€tsbasierte Schichtteilungsarchitektur mit einer eingefrorenen Vorabtrainingsstrategie, wodurch die SchlussfolgerungsfĂ€higkeit und das Wissen vortrainierter Text-LLMs erhalten bleiben, wĂ€hrend native SprachfĂ€higkeiten hinzugefĂŒgt werden. Experimente zeigen, dass unser Modell Spitzenergebnisse in der gesprochenen Frage-Antwort-Aufgabe erzielt und eine vergleichbare Sprach-zu-Sprach-Leistung im VerhĂ€ltnis zu bestehenden textgesteuerten Systemen liefert, wĂ€hrend es gleichzeitig wettbewerbsfĂ€hige Textleistungen beibehĂ€lt. Indem wir die LĂŒcke zwischen textgesteuerter und direkter Sprachgenerierung verringern, etablieren wir ein neues Paradigma fĂŒr ausdrucksstarke und effiziente End-to-End-Sprachinteraktion.
WĂ€hrend moderne Modelle zur visuellen Erzeugung hervorragend darin sind, Ă€sthetisch ansprechende natĂŒrliche Bilder zu erstellen, haben sie Schwierigkeiten damit, strukturierte visuelle Inhalte wie Diagramme, Grafiken und mathematische Figuren zu erzeugen oder zu bearbeiten, die Planung der Komposition, Textdarstellung und multimodales Denken fĂŒr faktische Genauigkeit erfordern. Um dies zu adressieren, prĂ€sentieren wir die erste umfassende, systematische Untersuchung dieses Bereichs, die die Datenerstellung, Modelltraining und einen Evaluierungsbenchmark umfasst. ZunĂ€chst erstellen wir einen groĂ angelegten Datensatz mit 1,3 Millionen hochwertigen strukturierten Bildpaaren, die aus ausfĂŒhrbaren Zeichenprogrammen abgeleitet und mit Chain-of-Thought-Reasoning-Annotationen angereichert wurden. Darauf aufbauend trainieren wir ein einheitliches Modell, das ein VLM mit FLUX.1 Kontext ĂŒber einen leichten Connector fĂŒr ein verbessertes multimodales VerstĂ€ndnis integriert. Ein dreistufiges Trainingscurriculum ermöglicht eine progressive Merkmalsausrichtung, Wissensinfusion und reasoning-augmentierte Erzeugung, die durch einen externen Reasoner zur Inferenzzeit weiter gesteigert wird. SchlieĂlich fĂŒhren wir StructBench ein, einen neuartigen Benchmark fĂŒr die Erzeugung und Bearbeitung mit ĂŒber 1.700 anspruchsvollen Instanzen, sowie eine begleitende Evaluierungsmetrik, StructScore, die ein mehrstufiges Q&A-Protokoll verwendet, um die feinkörnige faktische Genauigkeit zu bewerten. Bewertungen von 15 Modellen zeigen, dass selbst fĂŒhrende Closed-Source-Systeme weit von zufriedenstellenden Ergebnissen entfernt sind. Unser Modell erreicht eine starke Bearbeitungsleistung, und Inferenzzeit-Reasoning fĂŒhrt zu konsistenten Verbesserungen ĂŒber verschiedene Architekturen hinweg. Durch die Veröffentlichung des Datensatzes, des Modells und des Benchmarks streben wir an, einheitliche multimodale Grundlagen fĂŒr strukturierte visuelle Inhalte voranzutreiben.
Instruction-Tuning spielt eine entscheidende Rolle bei der Verbesserung der AufgabenlösungsfĂ€higkeiten groĂer Sprachmodelle (LLMs) und erhöht deren Nutzbarkeit bei der Generierung hilfreicher Antworten auf verschiedene Aufgaben. FrĂŒhere Arbeiten haben jedoch gezeigt, dass diese Modelle empfindlich auf geringfĂŒgige Variationen in der Formulierung von Anweisungen reagieren. In dieser Arbeit untersuchen wir, ob die EinfĂŒhrung von Störungen in den Instruction-Tuning-Daten die WiderstandsfĂ€higkeit von LLMs gegenĂŒber verrauschten Anweisungen verbessern kann. Wir konzentrieren uns darauf, wie Instruction-Tuning mit Störungen, wie dem Entfernen von Stoppwörtern oder dem Vertauschen von Wörtern, die Leistung von LLMs auf den ursprĂŒnglichen und gestörten Versionen weit verbreiteter Benchmarks (MMLU, BBH, GSM8K) beeinflusst. DarĂŒber hinaus bewerten wir die Lern dynamiken und potenzielle Verschiebungen im Modellverhalten. Ăberraschenderweise deuten unsere Ergebnisse darauf hin, dass Instruction-Tuning mit gestörten Anweisungen in einigen FĂ€llen die nachgelagerte Leistung verbessern kann. Diese Erkenntnisse unterstreichen die Bedeutung der Einbeziehung gestörter Anweisungen in das Instruction-Tuning, wodurch LLMs widerstandsfĂ€higer gegenĂŒber verrauschten Benutzereingaben werden können.
Reinforcement Learning, das auf groĂe Sprachmodelle (LLMs) fĂŒr Reasoning-Aufgaben angewendet wird, wird hĂ€ufig durch instabile GradientenschĂ€tzungen behindert, die auf einer festen und gleichmĂ€Ăigen Stichprobenziehung von Antworten ĂŒber verschiedene Prompts hinweg beruhen. Vorherige Arbeiten wie GVM-RAFT adressieren dies, indem sie das Inferenzbudget pro Prompt dynamisch zuweisen, um die Varianz der stochastischen Gradienten unter einer BudgetbeschrĂ€nkung zu minimieren. Inspiriert von dieser Erkenntnis schlagen wir Reinforce-Ada vor, ein adaptives Sampling-Framework fĂŒr das Online-RL-Post-Training von LLMs, das kontinuierlich den Sampling-Aufwand auf die Prompts mit der gröĂten Unsicherheit oder dem gröĂten Lernpotenzial umverteilt. Im Gegensatz zu konventionellen zweistufigen Zuweisungsmethoden verknĂŒpft Reinforce-Ada SchĂ€tzung und Sampling in einem Online-Successive-Elimination-Prozess und beendet das Sampling fĂŒr einen Prompt automatisch, sobald ausreichend Signal gesammelt wurde. Um die Aktualisierungen zu stabilisieren, bilden wir feste GröĂen-Gruppen mit erzwungener Belohnungsvielfalt und berechnen Vorteilsbaselines unter Verwendung globaler Statistiken, die ĂŒber die adaptive Sampling-Phase aggregiert werden. Empirische Ergebnisse ĂŒber mehrere Modellarchitekturen und Reasoning-Benchmarks hinweg zeigen, dass Reinforce-Ada die Konvergenz beschleunigt und die Endleistung im Vergleich zu GRPO verbessert, insbesondere bei Verwendung der ausgewogenen Sampling-Variante. Unsere Arbeit unterstreicht die zentrale Rolle der varianzbewussten, adaptiven Datenkuratierung bei der Ermöglichung eines effizienten und zuverlĂ€ssigen Reinforcement Learning fĂŒr reasoning-fĂ€hige LLMs. Der Code ist verfĂŒgbar unter https://github.com/RLHFlow/Reinforce-Ada.
Die Ausrichtung groĂer Sprachmodelle (LLMs) an menschlichen Werten beruht zunehmend auf der Verwendung anderer LLMs als automatisierte Bewerter oder âAutoraterâ. Ihre ZuverlĂ€ssigkeit wird jedoch durch ein grundlegendes Problem eingeschrĂ€nkt: Sie werden auf diskreten PrĂ€ferenzlabels trainiert, wodurch eine einzige âGround Truthâ fĂŒr Aufgaben erzwungen wird, die oft subjektiv, mehrdeutig oder nuancenreich sind. Wir argumentieren, dass ein zuverlĂ€ssiger Autorater die gesamte Verteilung der PrĂ€ferenzen, die durch eine Zielpopulation definiert wird, modellieren muss. In diesem Artikel schlagen wir einen allgemeinen Rahmen zur Kalibrierung probabilistischer Autorater an eine gegebene PrĂ€ferenzverteilung vor. Wir formalisieren das Problem und prĂ€sentieren zwei Lernmethoden, die auf unterschiedliche Datenbedingungen zugeschnitten sind: 1) ein direktes supervidiertes Fine-Tuning fĂŒr dichte, probabilistische Labels und 2) einen Reinforcement-Learning-Ansatz fĂŒr spĂ€rliche, binĂ€re Labels. Unsere empirischen Ergebnisse zeigen, dass das Fine-Tuning von Autoratern mit einem Verteilungsanpassungsziel zu verbalisierten Wahrscheinlichkeitsvorhersagen fĂŒhrt, die besser mit der ZielprĂ€ferenzverteilung ĂŒbereinstimmen, eine verbesserte Kalibrierung und deutlich geringere Positionsverzerrungen aufweisen, wĂ€hrend gleichzeitig die Leistung bei objektiven Aufgaben erhalten bleibt.
Reinforcement Learning hat eine zentrale Rolle bei den jĂŒngsten Fortschritten im Bereich des Reasoning groĂer Sprachmodelle gespielt, doch die meisten Algorithmen basieren auf On-Policy-Training, das frische Rollouts bei jedem Update erfordert, was die Effizienz und Skalierbarkeit einschrĂ€nkt. Asynchrone RL-Systeme mildern dies, indem sie die Generierung von Rollouts vom Training entkoppeln, doch ihre Wirksamkeit hĂ€ngt davon ab, groĂe Verzögerungen in den Rollout-Daten zu tolerieren â ein Szenario, in dem bestehende Methoden entweder an Leistung einbĂŒĂen oder versagen. Wir nehmen diese Herausforderung erneut in den Blick und entdecken ein Prosperity-before-Collapse-PhĂ€nomen: Veraltete Daten können ebenso informativ sein wie On-Policy-Daten, wenn sie richtig genutzt werden. Aufbauend auf dieser Erkenntnis fĂŒhren wir M2PO (Second-Moment Trust Policy Optimization) ein, das das zweite Moment der Importance-Weights beschrĂ€nkt, um nur extreme AusreiĂer zu unterdrĂŒcken, wĂ€hrend informative Updates erhalten bleiben. Bemerkenswerterweise reduziert M2PO den Anteil der abgeschnittenen Tokens bei hoher Verzögerung deutlich (von 1,22 % auf 0,06 % wĂ€hrend des Trainings), indem es prĂ€zise hochvarianz Tokens maskiert und gleichzeitig eine stabile Optimierung aufrechterhĂ€lt. Eine umfangreiche Evaluierung ĂŒber sechs Modelle (von 1,7B bis 32B) und acht Benchmarks zeigt, dass M2PO ein stabiles Off-Policy-Training selbst bei Daten ermöglicht, die mindestens 256 Modellupdates alt sind, und dabei die On-Policy-Leistung erreicht.
Aktuelle Arbeiten zeigen, dass groĂe Sprachmodelle (LLMs) ĂŒber die diskrete Argumentation durch explizite Schritte der Gedankenkette hinaus, die durch die Grenzen natĂŒrlicher Sprachen begrenzt sind, auch kontinuierlich im latenten Raum argumentieren können. Dies ermöglicht eine reichhaltigere Information pro Schritt und verbessert dadurch die Token-Effizienz. Trotz dieses Potenzials steht die latente Argumentation weiterhin vor zwei Herausforderungen, insbesondere in trainingsfreien Umgebungen: 1) Rein latente Argumentation erweitert die Suchverteilung, indem sie mehrere implizite Pfade beibehĂ€lt, was die Wahrscheinlichkeitsmasse verteilt, Rauschen einfĂŒhrt und die Konvergenz zu einer einzigen hochvertrauenswĂŒrdigen Lösung behindert, was die Genauigkeit beeintrĂ€chtigt; und 2) Ăberdenken bleibt auch ohne expliziten Text bestehen, verschwendet Tokens und verschlechtert die Effizienz. Um diese Probleme zu lösen, fĂŒhren wir SwiReasoning ein, ein trainingsfreies Framework fĂŒr die Argumentation von LLMs, das zwei SchlĂŒsselinnovationen aufweist: 1) SwiReasoning wechselt dynamisch zwischen expliziter und latenter Argumentation, geleitet durch blockweise Konfidenz, die aus Entropietrends in den nĂ€chsten Token-Verteilungen geschĂ€tzt wird, um Exploration und Exploitation auszugleichen und eine rechtzeitige Konvergenz zu fördern. 2) Durch die Begrenzung der maximalen Anzahl von Denkblock-Wechseln reduziert SwiReasoning Ăberdenken und verbessert die Token-Effizienz ĂŒber verschiedene Problem-Schwierigkeitsgrade hinweg. Auf weit verbreiteten Mathematik- und STEM-Benchmarks verbessert SwiReasoning die durchschnittliche Genauigkeit konsistent um 1,5%-2,8% ĂŒber Argumentations-LLMs verschiedener Modellfamilien und -gröĂen hinweg. DarĂŒber hinaus verbessert SwiReasoning unter begrenzten Budgets die durchschnittliche Token-Effizienz um 56%-79%, mit gröĂeren Gewinnen, wenn die Budgets knapper werden.
JĂŒngste Fortschritte bei groĂen generativen Modellen haben die Bildbearbeitung und die kontextbezogene Bildgenerierung erheblich vorangetrieben, doch besteht nach wie vor eine kritische LĂŒcke bei der GewĂ€hrleistung physikalischer Konsistenz, bei der bearbeitete Objekte kohĂ€rent bleiben mĂŒssen. Diese FĂ€higkeit ist besonders wichtig fĂŒr Aufgaben im Zusammenhang mit der Weltsimulation. In diesem Artikel stellen wir ChronoEdit vor, ein Framework, das die Bildbearbeitung als ein Problem der Videogenerierung neu definiert. ZunĂ€chst behandelt ChronoEdit die Eingabe- und bearbeiteten Bilder als das erste und letzte Frame eines Videos, wodurch es möglich wird, groĂe vortrainierte videogenerative Modelle zu nutzen, die nicht nur das Erscheinungsbild von Objekten, sondern auch die implizite Physik von Bewegung und Interaktion durch erlernte zeitliche Konsistenz erfassen. Zweitens fĂŒhrt ChronoEdit eine zeitliche Argumentationsstufe ein, die die Bearbeitung explizit zur Inferenzzeit durchfĂŒhrt. In diesem Rahmen wird das Zielbild gemeinsam mit Argumentationstokens entrauscht, um eine plausible Bearbeitungstrajektorie zu imaginieren, die den Lösungsraum auf physikalisch realisierbare Transformationen beschrĂ€nkt. Die Argumentationstokens werden dann nach einigen Schritten verworfen, um die hohen Rechenkosten der Rendering eines vollstĂ€ndigen Videos zu vermeiden. Um ChronoEdit zu validieren, fĂŒhren wir PBench-Edit ein, einen neuen Benchmark von Bild-Prompt-Paaren fĂŒr Kontexte, die physikalische Konsistenz erfordern, und zeigen, dass ChronoEdit sowohl in Bezug auf die visuelle QualitĂ€t als auch auf die physikalische PlausibilitĂ€t die aktuellsten Baselines ĂŒbertrifft. Der Code und die Modelle fĂŒr die 14B- und 2B-Varianten von ChronoEdit werden auf der Projektseite veröffentlicht: https://research.nvidia.com/labs/toronto-ai/chronoedit.
Computer Use Agents (CUAs) mĂŒssen ArbeitsablĂ€ufe planen, die in vielfĂ€ltigen und sich stĂ€ndig Ă€ndernden Anwendungen und Umgebungen verankert sind. Das Lernen wird jedoch durch den Mangel an groĂ angelegten, hochwertigen Trainingsdaten in der Zielanwendung erschwert. Bestehende DatensĂ€tze sind domĂ€nenspezifisch, statisch und kostspielig zu annotieren, wĂ€hrend aktuelle Methoden zur synthetischen Datengenerierung oft vereinfachte oder fehlausgerichtete Aufgabenbeispiele liefern. Um diese EinschrĂ€nkungen zu ĂŒberwinden, stellen wir Watch & Learn (W&L) vor, ein Framework, das menschliche Demonstrationsvideos, die im Internet leicht verfĂŒgbar sind, in ausfĂŒhrbare UI-Trajektorien in groĂem MaĂstab umwandelt. Anstatt Trajektorien direkt zu generieren oder auf ad-hoc-Heuristiken zu setzen, formulieren wir das Problem als ein inverses Dynamik-Ziel: die Vorhersage der Benutzeraktion aus aufeinanderfolgenden BildschirmzustĂ€nden. Dieser Ansatz reduziert den manuellen Aufwand, ist leichter zu erlernen und verallgemeinert robuster ĂŒber verschiedene Anwendungen hinweg. Konkret entwickeln wir eine inverse Dynamik-Beschriftungspipeline mit aufgabenbewusster Video-Retrieval, generieren ĂŒber 53.000 hochwertige Trajektorien aus Rohvideos des Webs und zeigen, dass diese Trajektorien CUAs sowohl als In-Context-Demonstrationen als auch als ĂŒberwachte Trainingsdaten verbessern. Auf dem anspruchsvollen OSWorld-Benchmark verbessern mit W&L extrahierte UI-Trajektorien sowohl allgemeine als auch state-of-the-art-Frameworks im In-Context-Bereich und erzielen stĂ€rkere Gewinne fĂŒr Open-Source-Modelle im ĂŒberwachten Training. Diese Ergebnisse unterstreichen, dass web-skalierte menschliche Demonstrationsvideos eine praktische und skalierbare Grundlage fĂŒr die Weiterentwicklung von CUAs hin zum realen Einsatz darstellen.
GroĂe Sprachmodelle (LLMs) lösen zunehmend komplexe Denkaufgaben ĂŒber lange Gedankenketten, doch ihr vorwĂ€rtsgerichteter autoregressiver Generierungsprozess ist fragil; frĂŒhe Token-Fehler können sich kaskadieren, was einen klaren Bedarf an Selbstreflexionsmechanismen schafft. Bisherige AnsĂ€tze zur Selbstreflexion fĂŒhren jedoch entweder Revisionen ĂŒber vollstĂ€ndige EntwĂŒrfe durch oder erlernen Selbstkorrektur durch aufwendiges Training, was beides grundsĂ€tzlich reaktiv und ineffizient ist. Um dies zu adressieren, schlagen wir Self-Reflective Generation at Test Time (SRGen) vor, ein leichtgewichtiges Framework zur Testzeit, das vor der Generierung an unsicheren Punkten reflektiert. WĂ€hrend der Token-Generierung nutzt SRGen dynamische Entropie-Schwellenwerte, um Token mit hoher Unsicherheit zu identifizieren. FĂŒr jeden identifizierten Token trainiert es einen spezifischen Korrekturvektor, der den bereits generierten Kontext vollstĂ€ndig ausnutzt, um eine selbstreflektierte Generierung zur Korrektur der Token-Wahrscheinlichkeitsverteilung durchzufĂŒhren. Durch die retrospektive Analyse der partiellen Ausgabe ermöglicht diese Selbstreflexion vertrauenswĂŒrdigere Entscheidungen und reduziert dadurch die Wahrscheinlichkeit von Fehlern an hoch unsicheren Punkten signifikant. Evaluierungen auf anspruchsvollen mathematischen Denkbenchmarks und einer vielfĂ€ltigen Auswahl von LLMs zeigen, dass SRGen die Modelllogik konsistent stĂ€rken kann: Verbesserungen in der Einzelpass-QualitĂ€t fĂŒhren auch zu einer stĂ€rkeren Selbstkonsistenz bei der Abstimmung. Insbesondere auf AIME2024 mit DeepSeek-R1-Distill-Qwen-7B erzielt SRGen absolute Verbesserungen von +12,0 % bei Pass@1 und +13,3 % bei Cons@5. DarĂŒber hinaus positionieren unsere Ergebnisse SRGen als eine Plug-and-Play-Methode, die Reflexion in den Generierungsprozess fĂŒr zuverlĂ€ssige LLM-Logik integriert und konsistente Gewinne mit begrenztem Overhead sowie breiter KompatibilitĂ€t mit anderen Trainingszeit- (z. B. RLHF) und Testzeit-Techniken (z. B. SLOT) erreicht.
Die EinfĂŒhrung von KI-gestĂŒtzten Code-VervollstĂ€ndigungswerkzeugen in der Softwareentwicklung hat erheblich zugenommen, doch die durch diese Systeme erzeugten Nutzerinteraktionsdaten bleiben innerhalb groĂer Unternehmen proprietĂ€r. Dies stellt eine Barriere fĂŒr die akademische Gemeinschaft dar, da Forscher oft dedizierte Plattformen entwickeln mĂŒssen, um Studien zur Mensch-KI-Interaktion durchzufĂŒhren, was reproduzierbare Forschung und groĂ angelegte Datenanalysen unpraktisch macht. In dieser Arbeit stellen wir Code4MeV2 vor, ein forschungsorientiertes, quelloffenes Code-VervollstĂ€ndigungs-Plugin fĂŒr JetBrains IDEs, als Lösung fĂŒr diese EinschrĂ€nkung. Code4MeV2 ist mit einer Client-Server-Architektur entworfen und bietet Inline-Code-VervollstĂ€ndigung sowie einen kontextbewussten Chat-Assistenten. Sein Kernbeitrag ist ein modulares und transparentes Datenerfassungsframework, das Forschern eine fein abgestimmte Kontrolle ĂŒber Telemetrie und Kontexterfassung ermöglicht. Code4MeV2 erreicht eine mit der Industrie vergleichbare Leistung in Bezug auf die Code-VervollstĂ€ndigung, mit einer durchschnittlichen Latenz von 200~ms. Wir bewerten unser Tool durch eine Kombination aus einer Expertenbewertung und einer Nutzerstudie mit acht Teilnehmern. Das Feedback sowohl von Forschern als auch von tĂ€glichen Nutzern unterstreicht seine InformativitĂ€t und NĂŒtzlichkeit. Wir laden die Gemeinschaft ein, dieses Tool zu ĂŒbernehmen und dazu beizutragen. Weitere Informationen ĂŒber das Tool finden Sie unter https://app.code4me.me.
GroĂe Sprachmodelle (LLMs) fĂŒr formales Theorembeweisen haben erhebliche Fortschritte gezeigt, jedoch mangelt es ihnen oft an Generalisierbarkeit und sie sind empfindlich gegenĂŒber selbst geringfĂŒgigen Transformationen von Problemstellungen. Um diese EinschrĂ€nkung zu ĂŒberwinden, fĂŒhren wir eine neuartige Datenaugmentationspipeline ein, die darauf abzielt, die Robustheit des Modells aus zwei Perspektiven zu verbessern: Symmetrie und Schwierigkeitsgrad. Aus der Symmetrieperspektive schlagen wir zwei komplementĂ€re Methoden vor: EvolAST, einen auf abstrakten SyntaxbĂ€umen (AST) basierenden Ansatz, der syntaktische Symmetrie nutzt, um semantisch Ă€quivalente Problemvarianten zu erzeugen, und EvolDomain, das LLMs nutzt, um semantische Symmetrie durch die Ăbersetzung von Theoremen ĂŒber mathematische DomĂ€nen hinweg zu adressieren. Aus der Schwierigkeitsperspektive schlagen wir EvolDifficulty vor, das sorgfĂ€ltig gestaltete evolutionĂ€re Anweisungen verwendet, um LLMs bei der Erzeugung neuer Theoreme mit einem breiteren Schwierigkeitsspektrum zu leiten. AnschlieĂend verwenden wir die entwickelten Daten, um EvolProver, einen 7B-Parameter-Theorembeweiser ohne deduktive FĂ€higkeiten, zu trainieren. EvolProver erreicht einen neuen State-of-the-Art (SOTA) auf FormalMATH-Lite mit einer 53,8%igen pass@32-Rate und ĂŒbertrifft damit alle Modelle vergleichbarer GröĂe, einschlieĂlich deduktionsbasierter Modelle. Es setzt auch neue SOTA-Rekorde fĂŒr nicht-deduktive Modelle auf MiniF2F-Test (69,8% pass@32), Ineq-Comp-Seed (52,2% pass@32) und Ineq-Comp-Transformed (34,0% pass@32). Ablationsstudien bestĂ€tigen weiterhin die EffektivitĂ€t unserer Datenaugmentationspipeline ĂŒber mehrere Benchmarks hinweg.
Die gesellschaftliche Auswirkung von Natural Language Processing (NLP) gewinnt zunehmend an Bedeutung, wobei sich die Gemeinschaft verstĂ€rkt auf Initiativen im Bereich NLP fĂŒr soziales Wohl (NLP4SG) konzentriert. TatsĂ€chlich befassen sich in den letzten Jahren fast 20 % aller Artikel in der ACL Anthology mit Themen, die im Zusammenhang mit sozialem Wohl stehen, wie sie von den UN-Zielen fĂŒr nachhaltige Entwicklung definiert werden (Adauto et al., 2023). In dieser Studie nehmen wir eine Autoren- und Veranstaltungsebene-Perspektive ein, um das Landschaftsbild von NLP4SG zu kartieren, und quantifizieren den Anteil der Arbeiten, die sich sowohl innerhalb als auch auĂerhalb der ACL-Gemeinschaft mit Anliegen des sozialen Wohls befassen, sowohl von Kern-ACL-Mitwirkenden als auch von Nicht-ACL-Autoren. Mit diesem Ansatz entdecken wir zwei ĂŒberraschende Fakten ĂŒber das Landschaftsbild von NLP4SG. Erstens ist es fĂŒr ACL-Autoren deutlich wahrscheinlicher, Arbeiten zu veröffentlichen, die sich mit Anliegen des sozialen Wohls befassen, wenn sie dies auĂerhalb von ACL-Veranstaltungen tun. Zweitens wird die ĂŒberwiegende Mehrheit der Publikationen, die NLP-Techniken zur BewĂ€ltigung von Anliegen des sozialen Wohls einsetzen, von Nicht-ACL-Autoren in Veranstaltungen auĂerhalb der ACL durchgefĂŒhrt. Wir diskutieren die Implikationen dieser Erkenntnisse fĂŒr die Agenda-Setzung der ACL-Gemeinschaft im Zusammenhang mit NLP4SG.
Stellen Sie sich vor, Mr. Bean tritt in die Welt von Tom und Jerry ein â können wir Videos generieren, in denen Charaktere auf natĂŒrliche Weise ĂŒber verschiedene Welten hinweg interagieren? Wir untersuchen die Interaktion zwischen Charakteren in der Text-zu-Video-Generierung, wobei die gröĂte Herausforderung darin besteht, die IdentitĂ€t und das Verhalten jedes Charakters zu bewahren, wĂ€hrend gleichzeitig eine kohĂ€rente Interaktion ĂŒber verschiedene Kontexte hinweg ermöglicht wird. Dies ist schwierig, da die Charaktere möglicherweise nie nebeneinander existiert haben und die Vermischung von Stilen oft zu einer Stilverwirrung fĂŒhrt, bei der realistische Charaktere cartoonhaft wirken oder umgekehrt. Wir stellen ein Framework vor, das diese Probleme mit Cross-Character Embedding (CCE) angeht, das IdentitĂ€t und Verhaltenslogik ĂŒber multimodale Quellen hinweg lernt, und Cross-Character Augmentation (CCA), das das Training durch synthetische Koexistenz und gemischte Stildaten bereichert. Zusammen ermöglichen diese Techniken natĂŒrliche Interaktionen zwischen zuvor nicht koexistierenden Charakteren, ohne die stilistische Treue zu verlieren. Experimente auf einem kuratierten Benchmark von Cartoons und Live-Action-Serien mit 10 Charakteren zeigen deutliche Verbesserungen in der IdentitĂ€tsbewahrung, der InteraktionsqualitĂ€t und der Robustheit gegenĂŒber Stilverwirrung, was neue Formen des generativen GeschichtenerzĂ€hlens ermöglicht. Weitere Ergebnisse und Videos sind auf unserer Projektseite verfĂŒgbar: https://tingtingliao.github.io/mimix/.
Wir veröffentlichen Code World Model (CWM), ein Open-Weights-LLM mit 32 Milliarden Parametern, um die Forschung zur Code-Generierung mit Weltmodellen voranzutreiben. Um das Code-VerstĂ€ndnis ĂŒber das hinaus zu verbessern, was allein durch das Training auf statischem Code erlernt werden kann, trainieren wir CWM mit einer groĂen Menge an Beobachtungs-Aktions-Trajektorien aus Python-Interpreter- und agentenbasierten Docker-Umgebungen und fĂŒhren umfangreiches Multi-Task-Reasoning-RL in verifizierbaren Programmier-, Mathematik- und mehrstufigen Softwareentwicklungsumgebungen durch. Mit CWM bieten wir eine leistungsstarke Testumgebung fĂŒr Forscher, um die Möglichkeiten zu erkunden, die Weltmodelle fĂŒr die Verbesserung der Code-Generierung durch Reasoning und Planung in rechnerischen Umgebungen bieten. Wir prĂ€sentieren erste Schritte, wie Weltmodelle das agentenbasierte Programmieren unterstĂŒtzen können, die schrittweise Simulation der Python-Code-AusfĂŒhrung ermöglichen und zeigen frĂŒhe Ergebnisse, wie Reasoning von letzterem profitieren kann. CWM ist ein dichtes, ausschlieĂlich dekodierendes LLM, das mit einer KontextgröĂe von bis zu 131k Tokens trainiert wurde. UnabhĂ€ngig von seinen WeltmodellierungsfĂ€higkeiten bietet CWM eine starke Leistung bei allgemeinen Programmier- und Mathematikaufgaben: Es erreicht Pass@1-Werte von 65,8 % bei SWE-bench Verified (mit Testzeit-Skalierung), 68,6 % bei LiveCodeBench, 96,6 % bei Math-500 und 76,0 % bei AIME 2024. Um die weitere Forschung zur Code-Weltmodellierung zu unterstĂŒtzen, veröffentlichen wir Modell-Checkpoints nach dem Mid-Training, SFT und RL.
4D-GauĂsche Splatting hat sich als neues Paradigma fĂŒr die Darstellung dynamischer Szenen etabliert und ermöglicht die Echtzeit-Rendering von Szenen mit komplexen Bewegungen. Es steht jedoch vor einer groĂen Herausforderung in Bezug auf den Speicheraufwand, da Millionen von GauĂschen Funktionen fĂŒr eine hochauflösende Rekonstruktion erforderlich sind. Obwohl mehrere Studien versucht haben, diese Speicherlast zu verringern, stoĂen sie nach wie vor auf EinschrĂ€nkungen beim KompressionsverhĂ€ltnis oder der visuellen QualitĂ€t. In dieser Arbeit prĂ€sentieren wir OMG4 (Optimized Minimal 4D Gaussian Splatting), ein Framework, das eine kompakte Menge von signifikanten GauĂschen Funktionen konstruiert, die in der Lage sind, 4D-GauĂsche Modelle treu darzustellen. Unser Verfahren reduziert GauĂsche Funktionen schrittweise in drei Stufen: (1) GauĂsches Sampling, um Primitiven zu identifizieren, die fĂŒr die Rekonstruktionsgenauigkeit entscheidend sind, (2) GauĂsches Pruning, um Redundanzen zu entfernen, und (3) GauĂsches Merging, um Primitiven mit Ă€hnlichen Eigenschaften zu fusionieren. DarĂŒber hinaus integrieren wir implizite Erscheinungskompression und verallgemeinern die Sub-Vektor-Quantisierung (SVQ) auf 4D-Darstellungen, wodurch der Speicherbedarf weiter reduziert wird, wĂ€hrend die QualitĂ€t erhalten bleibt. Umfangreiche Experimente mit Standard-Benchmark-DatensĂ€tzen zeigen, dass OMG4 aktuelle state-of-the-art Methoden deutlich ĂŒbertrifft, indem es die ModellgröĂen um ĂŒber 60 % reduziert und gleichzeitig die RekonstruktionsqualitĂ€t beibehĂ€lt. Diese Ergebnisse positionieren OMG4 als einen bedeutenden Fortschritt in der kompakten 4D-Szenendarstellung und eröffnen neue Möglichkeiten fĂŒr eine Vielzahl von Anwendungen. Unser Quellcode ist unter https://minshirley.github.io/OMG4/ verfĂŒgbar.
GroĂskalige Text-zu-Bild-Diffusionsmodelle bilden das RĂŒckgrat der modernen Bildbearbeitung, doch bieten Textanweisungen allein keine ausreichende Kontrolle ĂŒber den Bearbeitungsprozess. Zwei Eigenschaften sind besonders wĂŒnschenswert: Entflechtung, bei der die Ănderung eines Attributs nicht unbeabsichtigt andere Attribute verĂ€ndert, und kontinuierliche Steuerung, bei der die StĂ€rke einer Bearbeitung sanft angepasst werden kann. Wir stellen eine Methode zur entflochtenen und kontinuierlichen Bearbeitung durch Token-Level-Manipulation von Text-Einbettungen vor. Die Bearbeitungen werden durch Manipulation der Einbettungen entlang sorgfĂ€ltig ausgewĂ€hlter Richtungen vorgenommen, welche die StĂ€rke des Zielattributs steuern. Um solche Richtungen zu identifizieren, verwenden wir einen Sparse Autoencoder (SAE), dessen spĂ€rlicher latenter Raum semantisch isolierte Dimensionen offenlegt. Unsere Methode arbeitet direkt auf Text-Einbettungen, ohne den Diffusionsprozess zu modifizieren, wodurch sie modellagnostisch ist und breit auf verschiedene Bildsynthese-Backbones anwendbar ist. Experimente zeigen, dass sie intuitive und effiziente Manipulationen mit kontinuierlicher Steuerung ĂŒber diverse Attribute und DomĂ€nen hinweg ermöglicht.
Diffusionsbasierte groĂe Sprachmodelle (dLLMs) werden flexibel trainiert, um extreme AbhĂ€ngigkeiten in der Datenverteilung zu modellieren; jedoch bleibt die Frage, wie diese Informationen zur Inferenzzeit optimal genutzt werden können, ein offenes Problem. In dieser Arbeit entdecken wir eine interessante Eigenschaft dieser Modelle: dLLMs, die auf Textdaten trainiert wurden, lernen implizit eine Mischung von semi-autoregressiven Experten, bei denen unterschiedliche Generierungsreihenfolgen unterschiedliche spezialisierte Verhaltensweisen offenbaren. Wir zeigen, dass die Festlegung auf einen einzigen, festen Inferenzzeitplan, eine gĂ€ngige Praxis, die Leistung beeintrĂ€chtigt, da dieses latente Ensemble nicht genutzt wird. Um dies zu beheben, fĂŒhren wir HEX (Hidden Semiautoregressive EXperts for Test-Time Scaling) ein, eine trainingsfreie Inferenzmethode, die ĂŒber heterogene BlockplĂ€ne hinweg ein Ensemble bildet. Durch eine Mehrheitsabstimmung ĂŒber diverse BlockgröĂen-Generierungspfade vermeidet HEX robust Fehlermodi, die mit einem einzigen festen Plan verbunden sind. Bei Reasoning-Benchmarks wie GSM8K steigert es die Genauigkeit um bis zu 3,56X (von 24,72 % auf 88,10 %), ĂŒbertrifft dabei Top-K-Margin-Inferenz und spezialisierte Feinabstimmungsmethoden wie GRPO, ohne zusĂ€tzliches Training. HEX erzielt sogar signifikante Verbesserungen beim MATH-Benchmark von 16,40 % auf 40,00 %, beim wissenschaftlichen Reasoning auf ARC-C von 54,18 % auf 87,80 % und bei TruthfulQA von 28,36 % auf 57,46 %. Unsere Ergebnisse etablieren ein neues Paradigma fĂŒr das Test-Time Scaling in diffusionsbasierten LLMs (dLLMs) und zeigen, dass die Reihenfolge, in der Maskierungen durchgefĂŒhrt werden, eine entscheidende Rolle fĂŒr die Leistung wĂ€hrend der Inferenz spielt.
FlĂŒssige Sprach-zu-Sprach-Interaktion erfordert eine zuverlĂ€ssige und verzögerungsarme Erkennung des Zeitpunkts, an dem ein Benutzer das Sprechen beendet hat. Traditionelle Audio-Stille-Endpunktdetektoren fĂŒgen Hunderte von Millisekunden Verzögerung hinzu und versagen bei Zögern oder sprachspezifischen PhĂ€nomenen. Wir prĂ€sentieren, unseres Wissens nach, die erste systematische Studie zur thailĂ€ndischen textbasierten Erkennung von Sprechwechselenden (End-of-Turn, EOT) fĂŒr Echtzeit-Agenten. Wir vergleichen Zero-Shot- und Few-Shot-Prompting von kompakten LLMs (Large Language Models) mit dem ĂŒberwachten Feinabstimmen von leichten Transformermodellen. Unter Verwendung von transkribierten Untertiteln aus dem YODAS-Korpus und thailĂ€ndisch-spezifischen linguistischen Hinweisen (z. B. satzfinale Partikel) formulieren wir EOT als binĂ€re Entscheidung ĂŒber Token-Grenzen hinweg. Wir berichten ĂŒber einen klaren Kompromiss zwischen Genauigkeit und Latenz und stellen einen öffentlichkeitsreifen Implementierungsplan bereit. Diese Arbeit etabliert eine thailĂ€ndische Baseline und zeigt, dass kleine, feinabgestimmte Modelle nahezu sofortige EOT-Entscheidungen liefern können, die sich fĂŒr On-Device-Agenten eignen.
GroĂe Sprachmodelle (LLMs) haben kĂŒrzlich ein starkes Potenzial in der audiovisuellen Spracherkennung (AVSR) gezeigt, doch ihr hoher Rechenbedarf und ihre Empfindlichkeit gegenĂŒber der Token-GranularitĂ€t schrĂ€nken ihre PraktikabilitĂ€t in ressourcenbeschrĂ€nkten Umgebungen ein. Token-Kompressionsmethoden können die Inferenzkosten reduzieren, erfordern jedoch die vorherige Festlegung einer Kompressionsrate und erzeugen eine einzige feste AusgabelĂ€nge, was keine FlexibilitĂ€t bietet, um Informationsdichte und Effizienz wĂ€hrend der Inferenz auszubalancieren. Matryoshka-ReprĂ€sentationslernen (MRL) adressiert dies, indem es einem einzelnen Modell ermöglicht, ĂŒber mehrere Token-GranularitĂ€ten hinweg zu operieren, wodurch Kompressionsraten dynamisch angepasst werden können. Allerdings behandeln aktuelle MRL-basierte Methoden jede Skala wĂ€hrend des Trainings unabhĂ€ngig, was die generalisierungsfĂ€hige Robustheit bei hoher Kompression und die Interpretierbarkeit einschrĂ€nkt. Um diese Grenzen zu ĂŒberwinden, schlagen wir MoME (Mixture of Matryoshka Experts) vor, ein neuartiges Framework, das spĂ€rliche Mixture-of-Experts (MoE) in MRL-basierte LLMs fĂŒr AVSR integriert. MoME erweitert ein eingefrorenes LLM mit top-k gerouteten und gemeinsamen Experten, wodurch eine dynamische KapazitĂ€tszuweisung ĂŒber Skalen und ModalitĂ€ten hinweg ermöglicht wird. Ein gemeinsamer Router fördert eine konsistente Expertenaktivierung ĂŒber GranularitĂ€ten hinweg, wodurch komprimierte Sequenzen von ReprĂ€sentationen profitieren können, die bei niedrigerer Kompression gelernt wurden. Experimente auf LRS2 und LRS3 zeigen, dass MoME state-of-the-art Leistung ĂŒber AVSR-, ASR- und VSR-Aufgaben hinweg erreicht, wĂ€hrend es signifikant weniger Parameter benötigt und Robustheit unter Rauschen beibehĂ€lt. MoME vereint die AnpassungsfĂ€higkeit von MRL mit der Effizienz von MoE und bietet eine skalierbare und interpretierbare Lösung fĂŒr ressourcenbewusste Spracherkennung.
Die Umwandlung von natĂŒrlichen Sprachfragen in SQL-Abfragen (Text-to-SQL) ermöglicht es nicht-experten Nutzern, mit relationalen Datenbanken zu interagieren, und stellt seit langem eine zentrale Aufgabe fĂŒr natĂŒrliche Sprachschnittstellen zu Daten dar. WĂ€hrend der WikiSQL-Datensatz eine SchlĂŒsselrolle in der frĂŒhen NL2SQL-Forschung spielte, ist seine Nutzung aufgrund struktureller und Annotationsprobleme zurĂŒckgegangen, darunter Inkonsistenzen bei der GroĂ- und Kleinschreibung, Datentypen-Konflikte, Syntaxfehler und unbeantwortete Fragen. Wir prĂ€sentieren LLMSQL, eine systematische Ăberarbeitung und Transformation von WikiSQL, die fĂŒr das LLM-Zeitalter konzipiert ist. Wir klassifizieren diese Fehler und implementieren automatisierte Methoden zur Bereinigung und Neuannotation. Um die Auswirkungen dieser Verbesserungen zu bewerten, haben wir mehrere groĂe Sprachmodelle (LLMs) evaluiert, darunter Gemma 3, LLaMA 3.2, Mistral 7B, gpt-oss 20B, Phi-3.5 Mini, Qwen 2.5, OpenAI o4-mini, DeepSeek R1 und andere. LLMSQL wird nicht als Aktualisierung eingefĂŒhrt, sondern als ein LLM-fĂ€higer Benchmark: Im Gegensatz zum ursprĂŒnglichen WikiSQL, das fĂŒr Pointer-Netzwerk-Modelle entwickelt wurde, die Token aus der Eingabe auswĂ€hlen, bietet LLMSQL saubere natĂŒrliche Sprachfragen und vollstĂ€ndige SQL-Abfragen als Klartext, was eine unkomplizierte Generierung und Bewertung fĂŒr moderne natĂŒrliche Sprach-zu-SQL-Modelle ermöglicht.
Reinforcement Learning (RL) hat eine zentrale Rolle bei der Verbesserung des logischen Denkens in groĂen Sprachmodellen (LLMs) eingenommen. Dennoch leiden On-Policy-Algorithmen wie Group Relative Policy Optimization (GRPO) hĂ€ufig in der frĂŒhen Trainingsphase: verrauschte Gradienten aufgrund von qualitativ minderwertigen Rollouts fĂŒhren zu instabilen Updates und ineffizienter Exploration. Wir stellen Slow-Fast Policy Optimization (SFPO) vor, ein einfaches, aber effizientes Framework, das diese EinschrĂ€nkungen durch die Zerlegung jedes Schritts in drei Phasen adressiert: eine kurze, schnelle Trajektorie von inneren Schritten auf demselben Batch, einen Repositionierungsmechanismus zur Kontrolle des Off-Policy-Drifts und eine abschlieĂende langsame Korrektur. Dieser Reposition-before-Update-Ansatz bewahrt das Ziel und den Rollout-Prozess unverĂ€ndert, wodurch SFPO plug-kompatibel mit bestehenden Policy-Gradient-Pipelines bleibt. Umfangreiche Experimente zeigen, dass SFPO die StabilitĂ€t konsequent verbessert, die Anzahl der Rollouts reduziert und die Konvergenz des RL-Trainings fĂŒr logisches Denken beschleunigt. Insbesondere ĂŒbertrifft es GRPO um bis zu 2,80 Punkte im Durchschnitt bei mathematischen Denkbenchmarks. Es erreicht auch bis zu 4,93 weniger Rollouts und eine Reduzierung der Wall-Clock-Zeit um 4,19, um die beste Genauigkeit von GRPO zu erreichen.
Trotz Fortschritten in der mehrsprachigen automatischen Spracherkennung (ASR) bleibt Code-Switching (CS), das Vermischen von Sprachen innerhalb einer ĂuĂerung, das im Alltag hĂ€ufig vorkommt, eine stark vernachlĂ€ssigte Herausforderung. In diesem Artikel stellen wir HiKE vor: den hierarchischen Koreanisch-Englisch Code-Switching-Benchmark, den ersten global zugĂ€nglichen Bewertungsrahmen fĂŒr Koreanisch-Englisch CS, der darauf abzielt, eine Methode zur prĂ€zisen Bewertung mehrsprachiger ASR-Modelle bereitzustellen und die Forschung in diesem Bereich zu fördern. Der vorgeschlagene Rahmen besteht nicht nur aus hochwertigen, natĂŒrlichen CS-Daten zu verschiedenen Themen, sondern bietet auch detaillierte Lehnwort-Labels und ein hierarchisches CS-Ebenen-Labeling-Schema (Wort, Phrase und Satz), die zusammen eine systematische Bewertung der FĂ€higkeit eines Modells ermöglichen, jede einzelne Ebene des Code-Switchings zu bewĂ€ltigen. Durch die Bewertung verschiedener mehrsprachiger ASR-Modelle und Feinabstimmungsexperimente zeigt dieser Artikel, dass die meisten mehrsprachigen ASR-Modelle zwar zunĂ€chst mit CS-ASR zu kĂ€mpfen haben, diese FĂ€higkeit jedoch durch Feinabstimmung mit CS-Daten aktiviert werden kann. HiKE wird unter https://github.com/ThetaOne-AI/HiKE verfĂŒgbar sein.
Da Large Language Model (LLM)-Agent zunehmend selbstevolutionĂ€re FĂ€higkeiten erlangen, um ihre Strategien durch reale Interaktionen anzupassen und zu verfeinern, wird ihre langfristige ZuverlĂ€ssigkeit zu einem kritischen Anliegen. Wir identifizieren den Alignment Tipping Process (ATP), ein einzigartiges, nach der Bereitstellung auftretendes Risiko fĂŒr selbstevolutionĂ€re LLM-Agenten. Im Gegensatz zu Fehlern wĂ€hrend des Trainings entsteht ATP, wenn kontinuierliche Interaktionen die Agenten dazu veranlassen, die wĂ€hrend des Trainings etablierten Alignment-BeschrĂ€nkungen zugunsten verstĂ€rkter, eigennĂŒtziger Strategien aufzugeben. Wir formalisieren und analysieren ATP durch zwei komplementĂ€re Paradigmen: Self-Interested Exploration, bei der wiederholte Abweichungen mit hoher Belohnung zu individuellen VerhaltensĂ€nderungen fĂŒhren, und Imitative Strategy Diffusion, bei der abweichende Verhaltensweisen sich in Multi-Agenten-Systemen ausbreiten. Aufbauend auf diesen Paradigmen entwickeln wir kontrollierbare Testumgebungen und benchmarken Qwen3-8B und Llama-3.1-8B-Instruct. Unsere Experimente zeigen, dass die Vorteile des Alignments unter Selbstevolution schnell abnehmen, wobei ursprĂŒnglich ausgerichtete Modelle zu nicht ausgerichteten ZustĂ€nden konvergieren. In Multi-Agenten-Szenarien verbreiten sich erfolgreiche VerstöĂe schnell und fĂŒhren zu kollektiver Fehlausrichtung. DarĂŒber hinaus bieten aktuelle, auf Reinforcement Learning basierende Alignment-Methoden nur fragile Abwehrmechanismen gegen Alignment-Tipping. Zusammengenommen zeigen diese Ergebnisse, dass das Alignment von LLM-Agenten keine statische Eigenschaft ist, sondern eine fragile und dynamische, die wĂ€hrend des Einsatzes durch feedbackgetriebenen Verfall gefĂ€hrdet ist. Unsere Daten und Code sind verfĂŒgbar unter https://github.com/aiming-lab/ATP.
Mixture-of-Experts (MoE)-Architekturen sind der SchlĂŒssel zur Skalierung moderner LLMs (Large Language Models), doch es ist wenig darĂŒber bekannt, wie ihre spĂ€rlichen Routing-Dynamiken auf mehrsprachige Daten reagieren. In dieser Arbeit analysieren wir Experten-Routing-Muster mithilfe paralleler mehrsprachiger DatensĂ€tze und prĂ€sentieren hochgradig interpretierbare, schichtweise PhĂ€nomene. Wir stellen fest, dass MoE-Modelle Tokens in den frĂŒhen und spĂ€ten Decoder-Schichten sprachspezifisch routen, jedoch in den mittleren Schichten eine signifikante cross-linguale Routing-Ausrichtung zeigen, was den Parameter-Sharing-Trends entspricht, die in dichten LLMs beobachtet werden. Insbesondere offenbaren wir eine klare, starke Korrelation zwischen der Leistung eines Modells in einer bestimmten Sprache und der Ăhnlichkeit, mit der seine Tokens in diesen Schichten im Vergleich zu Englisch geroutet werden. Ăber Korrelationen hinaus untersuchen wir Interventionen zur Inferenzzeit, die eine höhere cross-linguale Routing-Ausrichtung bewirken. Wir fĂŒhren eine Methode ein, die den Router steuert, indem sie Experten in den mittleren Schichten fördert, die hĂ€ufig fĂŒr Englisch aktiviert werden, und sie steigert erfolgreich die mehrsprachige Leistung. Diese Gewinne von 1â2 % sind bemerkenswert konsistent ĂŒber zwei Evaluierungsaufgaben, drei Modelle und 15+ Sprachen hinweg, insbesondere angesichts der Tatsache, dass diese einfachen Interventionen die Router von umfangreich trainierten, state-of-the-art LLMs ĂŒberschreiben. Im Vergleich dazu fĂŒhren Interventionen auĂerhalb der mittleren Schichten oder solche, die mehrsprachig spezialisierte Experten anzielen, nur zu LeistungseinbuĂen. Insgesamt prĂ€sentieren wir zahlreiche Erkenntnisse, die erklĂ€ren, wie MoEs nicht-englische Texte verarbeiten, und zeigen, dass die Generalisierung durch die FĂ€higkeit des Modells begrenzt ist, sprachuniverselle Experten in allen Sprachen zu nutzen.
Wir prĂ€sentieren Paris, das erste öffentlich verfĂŒgbare Diffusionsmodell, das vollstĂ€ndig durch dezentralisierte Berechnung vortrainiert wurde. Paris demonstriert, dass hochwertige Text-zu-Bild-Generierung ohne zentral koordinierte Infrastruktur erreicht werden kann. Paris steht fĂŒr Forschungs- und kommerzielle Nutzung offen. Die Entwicklung von Paris erforderte die Implementierung unseres Distributed Diffusion Training Frameworks von Grund auf. Das Modell besteht aus 8 Expertendiffusionsmodellen (jeweils 129Mâ605M Parameter), die vollstĂ€ndig isoliert ohne Gradienten-, Parameter- oder Zwischenaktivierungssynchronisation trainiert wurden. Anstatt synchronisierte Gradientenupdates ĂŒber Tausende von GPUs zu erfordern, partitionieren wir die Daten in semantisch kohĂ€rente Cluster, in denen jeder Experte unabhĂ€ngig seine Teilmenge optimiert, wĂ€hrend gemeinsam die vollstĂ€ndige Verteilung angenĂ€hert wird. Ein leichtgewichtiger Transformer-Router wĂ€hlt dynamisch die passenden Experten wĂ€hrend der Inferenz aus und erreicht dabei eine GenerierungsqualitĂ€t, die mit zentral koordinierten Baselines vergleichbar ist. Die Eliminierung der Synchronisation ermöglicht das Training auf heterogener Hardware ohne spezialisierte Interconnects. Empirische Validierungen bestĂ€tigen, dass das dezentralisierte Training von Paris die GenerierungsqualitĂ€t beibehĂ€lt, wĂ€hrend die Anforderung an dedizierte GPU-Cluster fĂŒr groĂskalige Diffusionsmodelle entfĂ€llt. Paris erreicht dies mit 14-mal weniger Trainingsdaten und 16-mal weniger Rechenleistung als die bisherige dezentralisierte Baseline.
Da Systeme in Richtung Superintelligenz tendieren, ist eine natĂŒrliche Modellierungsannahme, dass Agenten sich in jeder Facette ihres eigenen Designs selbst verbessern können. Wir formalisieren dies mit einer fĂŒnfachsigen Zerlegung und einer Entscheidungsschicht, die Anreize vom Lernverhalten trennt und die Achsen isoliert analysiert. Unser zentrales Ergebnis identifiziert und fĂŒhrt eine scharfe Nutzen-Lern-Spannung ein, den strukturellen Konflikt in selbstmodifizierenden Systemen, bei dem nutzengetriebene VerĂ€nderungen, die die unmittelbare oder erwartete Leistung verbessern, auch die statistischen Voraussetzungen fĂŒr zuverlĂ€ssiges Lernen und Generalisierung untergraben können. Unsere Ergebnisse zeigen, dass verteilungsfreie Garantien genau dann erhalten bleiben, wenn die durch die Politik erreichbare Modellfamilie gleichmĂ€Ăig kapazitĂ€tsbeschrĂ€nkt ist; wenn die KapazitĂ€t ohne Grenzen wachsen kann, können nutzenrationale SelbstverĂ€nderungen lernbare Aufgaben unlernbar machen. Unter Standardannahmen, die in der Praxis ĂŒblich sind, reduzieren sich diese Achsen auf dasselbe KapazitĂ€tskriterium, was eine einzige Grenze fĂŒr sichere Selbstmodifikation ergibt. Numerische Experimente ĂŒber mehrere Achsen validieren die Theorie, indem sie zerstörerische Nutzenpolitiken mit unseren vorgeschlagenen Zwei-Tor-Politiken vergleichen, die die LernfĂ€higkeit bewahren.
Menschen sind gut darin, im Arbeitsprozess zu lernen: Wir lernen, wie wir die Aufgaben, denen wir gegenĂŒberstehen, im Laufe der Zeit lösen können. Kann ein Modell dasselbe erreichen? Wir schlagen einen Agenten vor, der ein aufgabenbezogenes Curriculum zusammenstellt, genannt Test-Time Curriculum (TTC-RL), und Reinforcement Learning anwendet, um das Modell fĂŒr seine Zielaufgabe weiter zu trainieren. Das Test-Time Curriculum vermeidet zeitaufwĂ€ndige menschliche Kuratierung von DatensĂ€tzen, indem es automatisch die fĂŒr die Aufgabe relevantesten Daten aus einem groĂen Pool verfĂŒgbarer Trainingsdaten auswĂ€hlt. Unsere Experimente zeigen, dass Reinforcement Learning auf einem Test-Time Curriculum das Modell bei seinen Zielaufgaben durchgĂ€ngig verbessert, und dies ĂŒber eine Vielzahl von Evaluierungen und Modellen hinweg. Bemerkenswerterweise steigert TTC-RL die pass@1-Leistung von Qwen3-8B auf anspruchsvollen mathematischen und Programmier-Benchmarks um etwa das 1,8-fache auf AIME25 und das 2,1-fache auf CodeElo. DarĂŒber hinaus stellen wir fest, dass TTC-RL die Leistungsgrenze im Vergleich zum Ausgangsmodell signifikant erhöht, indem es pass@8 auf AIME25 von 40 % auf 62 % und auf CodeElo von 28 % auf 43 % steigert. Unsere Ergebnisse zeigen das Potenzial von Test-Time Curricula, das Paradigma der Test-Time-Skalierung auf kontinuierliches Training mit tausenden aufgabenrelevanten Erfahrungen wĂ€hrend der Testphase auszuweiten.
LLM-basierte Multi-Agenten-Systeme zeichnen sich durch ihre FĂ€higkeiten in Planung, Werkzeugnutzung und Rollenkoordination aus, doch ihre Offenheit und InteraktionskomplexitĂ€t machen sie auch anfĂ€llig fĂŒr Jailbreaks, Prompt-Injections und adversarische Kollaborationen. Bestehende VerteidigungsansĂ€tze lassen sich in zwei Kategorien einteilen: (i) Selbstverifikation, bei der jeder Agent unsichere Anweisungen vor der AusfĂŒhrung vorfiltert, und (ii) externe Schutzmodule, die das Verhalten ĂŒberwachen. Ersteres schneidet oft schlecht ab, da ein einzelner Agent nicht ĂŒber ausreichende KapazitĂ€ten verfĂŒgt, um ĂŒbergreifende unsichere Handlungsketten und durch Delegation verursachte Risiken zu erkennen; Letzteres erhöht den Systemoverhead und schafft einen Single-Point-of-Failure â sobald dieser kompromittiert ist, bricht die Systemsicherheit vollstĂ€ndig zusammen, und das HinzufĂŒgen weiterer Schutzmodule verschĂ€rft Kosten und KomplexitĂ€t. Um diese Herausforderungen zu lösen, schlagen wir AdvEvo-MARL vor, ein ko-evolutionĂ€res Multi-Agenten-VerstĂ€rkungslernframework, das Sicherheit in die Aufgabenagenten internalisiert. Anstatt auf externe Schutzmodule zu setzen, optimiert AdvEvo-MARL Angreifer (die sich entwickelnde Jailbreak-Prompts synthetisieren) und Verteidiger (Aufgabenagenten, die darauf trainiert sind, sowohl ihre Aufgaben zu erfĂŒllen als auch Angriffen zu widerstehen) gemeinsam in adversarischen Lernumgebungen. Um das Lernen zu stabilisieren und die Zusammenarbeit zu fördern, fĂŒhren wir eine öffentliche Baseline fĂŒr die VorteilsschĂ€tzung ein: Agenten innerhalb derselben Funktionsgruppe teilen eine gruppenbasierte Mittelwert-Baseline, was Updates mit geringerer Varianz und eine stĂ€rkere Koordination innerhalb der Gruppe ermöglicht. In reprĂ€sentativen Angriffsszenarien hĂ€lt AdvEvo-MARL die Angriffserfolgsrate (ASR) durchgĂ€ngig unter 20 %, wĂ€hrend Baselines bis zu 38,33 % erreichen, und bewahrt â oder verbessert sogar â die Aufgabengenauigkeit (bis zu +3,67 % bei logischen Aufgaben). Diese Ergebnisse zeigen, dass Sicherheit und Nutzen gemeinsam verbessert werden können, ohne auf zusĂ€tzliche Schutzagenten oder erhöhten Systemoverhead angewiesen zu sein.
GroĂe Sprachmodelle (LLMs) neigen dazu, lexikalisch, semantisch und stilistisch homogene Texte zu erzeugen. Dies birgt das Risiko eines Wissenskollapses, bei dem homogene LLMs im Laufe der Zeit eine Verringerung der Bandbreite zugĂ€nglicher Informationen bewirken. Bisherige Arbeiten zur Homogenisierung sind dadurch begrenzt, dass sie sich auf geschlossene Multiple-Choice-Setups oder unscharfe semantische Merkmale konzentrieren und keine Trends ĂŒber Zeit und kulturelle Kontexte hinweg betrachten. Um dies zu ĂŒberwinden, stellen wir eine neue Methodik zur Messung der epistemischen Vielfalt vor, d.h. der Variation realer Behauptungen in den Ausgaben von LLMs, die wir fĂŒr eine umfassende empirische Studie zum Wissenskollaps bei LLMs verwenden. Wir testen 27 LLMs, 155 Themen aus 12 LĂ€ndern und 200 Prompt-Variationen, die aus realen Nutzerchats stammen. FĂŒr die Themen unserer Studie zeigen wir, dass neuere Modelle zwar tendenziell vielfĂ€ltigere Behauptungen generieren, fast alle Modelle jedoch weniger epistemisch vielfĂ€ltig sind als eine einfache Websuche. Wir stellen fest, dass die ModellgröĂe einen negativen Einfluss auf die epistemische Vielfalt hat, wĂ€hrend retrieval-augmentierte Generierung (RAG) einen positiven Einfluss hat, obwohl die Verbesserung durch RAG je nach kulturellem Kontext variiert. SchlieĂlich stellen wir im Vergleich zu einer traditionellen Wissensquelle (Wikipedia) fest, dass lĂ€nderspezifische Behauptungen die englische Sprache stĂ€rker widerspiegeln als die lokale, was eine LĂŒcke in der epistemischen ReprĂ€sentation aufzeigt.
Die Diskussion ĂŒber Datenschutzrisiken in Large Language Models (LLMs) hat sich unverhĂ€ltnismĂ€Ăig stark auf die wortgetreue Speicherung von Trainingsdaten konzentriert, wĂ€hrend eine Vielzahl unmittelbarer und skalierbarer Datenschutzbedrohungen weiterhin unzureichend erforscht bleibt. Dieses Positionspapier argumentiert, dass das Datenschutzspektrum von LLM-Systemen weit ĂŒber die Extraktion von Trainingsdaten hinausgeht und Risiken aus Datenerfassungspraktiken, Kontextlecks wĂ€hrend der Inferenz, autonomen Agentenfunktionen sowie der Demokratisierung von Ăberwachung durch Deep-Inference-Angriffe umfasst. Wir prĂ€sentieren eine umfassende Taxonomie von Datenschutzrisiken ĂŒber den gesamten Lebenszyklus von LLMs â von der Datenerfassung bis zur Bereitstellung â und zeigen anhand von Fallstudien, wie aktuelle Datenschutzrahmenwerke diese vielschichtigen Bedrohungen nicht adressieren. Durch eine longitudinale Analyse von 1.322 KI/ML-Datenschutzpublikationen, die in den letzten zehn Jahren (2016â2025) auf fĂŒhrenden Konferenzen veröffentlicht wurden, offenbaren wir, dass wĂ€hrend der Speicherung von Daten in der technischen Forschung ĂŒberproportionale Aufmerksamkeit geschenkt wird, die dringendsten Datenschutzprobleme jedoch an anderer Stelle liegen, wo aktuelle technische AnsĂ€tze wenig Wirkung zeigen und gangbare Lösungswege unklar bleiben. Wir fordern einen grundlegenden Wandel in der Herangehensweise der Forschungsgemeinschaft an den Datenschutz von LLMs, der ĂŒber den engen Fokus aktueller technischer Lösungen hinausgeht und interdisziplinĂ€re AnsĂ€tze umfasst, die die soziotechnische Natur dieser aufkommenden Bedrohungen adressieren.
Da multimodale, von LLM-gesteuerte Agenten in Bezug auf Autonomie und Generalisierung weiter voranschreiten, kann die Bewertung anhand statischer DatensĂ€tze ihre tatsĂ€chlichen FĂ€higkeiten in dynamischen Umgebungen und bei vielfĂ€ltigen Aufgaben nicht mehr angemessen erfassen. Bestehende Methoden zur Erzeugung synthetischer Daten auf LLM-Basis sind weitgehend fĂŒr das Training und die Bewertung von LLMs konzipiert und können daher nicht direkt auf Agentenaufgaben angewendet werden, die den Einsatz von Werkzeugen und interaktive FĂ€higkeiten erfordern. WĂ€hrend neuere Studien die automatische Generierung von Agentenaufgaben mit LLMs untersucht haben, beschrĂ€nken sich die meisten BemĂŒhungen auf die Analyse von Text oder Bildern, ohne mehrstufige Interaktionen in Webumgebungen systematisch zu modellieren. Um diese Herausforderungen zu bewĂ€ltigen, schlagen wir Graph2Eval vor, ein auf Wissensgraphen basierendes Framework, das sowohl multimodale Aufgaben zur DokumentenverstĂ€ndnis als auch Webinteraktionsaufgaben automatisch generiert und so eine umfassende Bewertung der Schlussfolgerungs-, Kollaborations- und InteraktionsfĂ€higkeiten von Agenten ermöglicht. In unserem Ansatz dienen Wissensgraphen, die aus mehreren externen Datenquellen konstruiert werden, als Aufgabenraum, in dem wir semantische Beziehungen mithilfe von Subgraph-Sampling, Aufgabenvorlagen und Meta-Pfaden in strukturierte multimodale Aufgaben ĂŒbersetzen. Eine mehrstufige Filterpipeline, die auf Knotenerreichbarkeit, LLM-Bewertung und Ăhnlichkeitsanalyse basiert, wird angewendet, um die QualitĂ€t und AusfĂŒhrbarkeit der generierten Aufgaben zu gewĂ€hrleisten. DarĂŒber hinaus unterstĂŒtzt Graph2Eval die End-to-End-Bewertung verschiedener Agententypen (Einzelagent, Multi-Agent, Web-Agent) und misst Schlussfolgerungs-, Kollaborations- und InteraktionsfĂ€higkeiten. Wir instanziieren das Framework mit Graph2Eval-Bench, einem kuratierten Datensatz von 1.319 Aufgaben, die Szenarien zur DokumentenverstĂ€ndnis und Webinteraktion abdecken. Experimente zeigen, dass Graph2Eval effizient Aufgaben generiert, die die Leistung von Agenten und Modellen differenzieren, LĂŒcken in der Schlussfolgerung, Kollaboration und Webinteraktion in verschiedenen Settings aufdecken und eine neue Perspektive fĂŒr die Bewertung von Agenten bieten.
Receiver Operating Characteristic (ROC)- und Precision-Recall (PR)-Kurven sind grundlegende Werkzeuge zur Bewertung von maschinellen Lernklassifikatoren, die detaillierte Einblicke in die Kompromisse zwischen der True-Positive-Rate und der False-Positive-Rate (ROC) bzw. zwischen PrĂ€zision und Recall (PR) bieten. In Szenarien des Federated Learning (FL), bei denen Daten ĂŒber mehrere Clients verteilt sind, ist die Berechnung dieser Kurven jedoch aufgrund von Datenschutz- und KommunikationsbeschrĂ€nkungen eine Herausforderung. Insbesondere kann der Server nicht auf die Rohvorhersagewerte und Klassenlabels zugreifen, die in einer zentralisierten Umgebung zur Berechnung der ROC- und PR-Kurven verwendet werden. In diesem Artikel schlagen wir eine neuartige Methode zur Approximation von ROC- und PR-Kurven in einer föderierten Umgebung vor, indem Quantile der Verteilung der Vorhersagewerte unter verteilter Differential Privacy geschĂ€tzt werden. Wir liefern theoretische Grenzen fĂŒr den Area Error (AE) zwischen den tatsĂ€chlichen und den geschĂ€tzten Kurven, die die Kompromisse zwischen Approximationsgenauigkeit, Datenschutz und Kommunikationskosten aufzeigen. Empirische Ergebnisse auf realen DatensĂ€tzen zeigen, dass unsere Methode eine hohe Approximationsgenauigkeit mit minimaler Kommunikation und starken Datenschutzgarantien erreicht, was sie fĂŒr die datenschutzbewahrende Modellbewertung in föderierten Systemen praktikabel macht.
Potenztransformationen sind beliebte parametrische Techniken, um Daten stĂ€rker gauĂĂ€hnlich zu gestalten, und werden hĂ€ufig als Vorverarbeitungsschritte in der statistischen Analyse und im maschinellen Lernen eingesetzt. Wir stellen jedoch fest, dass direkte Implementierungen von Potenztransformationen unter schwerwiegenden numerischen InstabilitĂ€ten leiden, die zu fehlerhaften Ergebnissen oder sogar AbstĂŒrzen fĂŒhren können. In diesem Artikel bieten wir eine umfassende Analyse der Ursachen dieser InstabilitĂ€ten und schlagen wirksame AbhilfemaĂnahmen vor. DarĂŒber hinaus erweitern wir Potenztransformationen auf das Szenario des föderierten Lernens und behandeln dabei sowohl numerische als auch verteilungsbezogene Herausforderungen, die in diesem Kontext auftreten. Experimente mit realen DatensĂ€tzen zeigen, dass unsere Methoden sowohl effektiv als auch robust sind und die StabilitĂ€t im Vergleich zu bestehenden AnsĂ€tzen erheblich verbessern.