papers.description
Selbstevolutionsmethoden verbessern die Codegenerierung durch iterative "Generieren-Verifizieren-Verfeinern"-Zyklen. Bestehende Ansätze leiden jedoch unter geringer Explorationseffizienz und scheitern daran, Lösungen mit höherer Komplexität innerhalb begrenzter Budgets zu finden. Diese Ineffizienz resultiert aus Initialisierungsverzerrungen, die die Evolution in schlechten Lösungsregionen gefangen halten, unkontrollierten stochastischen Operationen ohne Feedbacksteuerung und unzureichender Nutzung von Erfahrungswissen über Aufgaben hinweg. Um diese Engpässe zu adressieren, schlagen wir Kontrollierte Selbstevolution (CSE) vor, die aus drei Schlüsselkomponenten besteht. Diversifizierte Planungsinitialisierung erzeugt strukturell unterschiedliche algorithmische Strategien für breite Lösungsraumabdeckung. Genetische Evolution ersetzt stochastische Operationen durch feedbackgesteuerte Mechanismen, die gezielte Mutation und kompositionelle Kreuzung ermöglichen. Hierarchischer Evolutionsspeicher erfasst sowohl erfolgreiche als auch fehlgeschlagene Erfahrungen auf inter-task- und intra-task-Ebenen. Experimente auf EffiBench-X zeigen, dass CSE durchgängig alle Baseline-Methoden über verschiedene LLM-Backbones hinweg übertrifft. Darüber hinaus erreicht CSE höhere Effizienz ab frühen Generationen und bewahrt kontinuierliche Verbesserung während der gesamten Evolution. Unser Code ist öffentlich verfügbar unter https://github.com/QuantaAlpha/EvoControl.
Tiefe Forschungssysteme werden häufig für mehrstufige Webrecherchen, Analysen und quellenübergreifende Synthesen eingesetzt, doch ihre Bewertung bleibt eine Herausforderung. Bestehende Benchmarks erfordern oft einen aufwändig annotierten Aufgabenaufbau, stützen sich auf statische Bewertungsdimensionen oder können Fakten nicht zuverlässig überprüfen, wenn Quellenangaben fehlen. Um diese Lücken zu schließen, stellen wir DeepResearchEval vor, ein automatisiertes Framework zur Konstruktion von Forschungsaufgaben und zur agentenbasierten Evaluation. Für die Aufgabenerstellung schlagen wir einen persona-gesteuerten Prozess vor, der realistische, komplexe Forschungsfragen generiert, die in verschiedenen Nutzerprofilen verankert sind. Dabei wird ein zweistufiger Filter – Aufgabenqualifikation und Suchnotwendigkeit – angewendet, um nur solche Aufgaben beizubehalten, die die Integration von Multi-Quellen-Evidenz und externe Recherche erfordern. Für die Evaluation schlagen wir einen agentenbasierten Prozess mit zwei Komponenten vor: eine adaptive punktuelle Qualitätsbewertung, die aufbauend auf jeder generierten Aufgabe dynamisch aufgabenspezifische Bewertungsdimensionen, Kriterien und Gewichtungen ableitet, sowie eine aktive Faktenprüfung, die Aussagen aus Berichten autonom via Websuche extrahiert und verifiziert – selbst wenn Quellenangaben fehlen.
Große Sprachmodell (LLM)-Agenten zeigen inhärente Fähigkeiten zum logischen Schlussfolgern durch die Zusammenarbeit mehrerer Werkzeuge. Während der Agenten-Inferenz leiden bestehende Methoden jedoch häufig unter (i) lokal kurzsichtigem Generieren aufgrund fehlender Vorausschau und (ii) Trajektorien-Instabilität, bei der geringe frühe Fehler zu divergenten Schlussfolgerungspfaden eskalieren können. Diese Probleme erschweren die Balance zwischen globaler Effektivität und rechnerischer Effizienz. Um diese beiden Probleme zu adressieren, schlagen wir meta-adaptive Exploration mit LLM-Agenten (https://github.com/exoskeletonzj/MAXS) vor, einen meta-adaptiven Reasoning-Rahmen auf Basis von LLM-Agenten, der Werkzeugausführung und Reasoning-Planung flexibel integriert. MAXS verwendet eine Vorausschau-Strategie, um Schlussfolgerungspfade einige Schritte voraus zu erweitern, schätzt den Vorteilswert der Werkzeugnutzung und kombiniert Schrittkonsistenzvarianz und Trendsteigungen zwischen Schritten, um stabile, konsistente und hochwertige Reasoning-Schritte gemeinsam auszuwählen. Zusätzlich führen wir einen Trajektorien-Konvergenzmechanismus ein, der die Rechenkosten kontrolliert, indem weitere Rollouts gestoppt werden, sobald Pfadkonsistenz erreicht ist, und so eine Balance zwischen Ressourceneffizienz und globaler Effektivität beim Multi-Tool-Reasoning ermöglicht. Wir führen umfangreiche empirische Studien mit drei Basismodellen (MiMo-VL-7B, Qwen2.5-VL-7B, Qwen2.5-VL-32B) und fünf Datensätzen durch, die zeigen, dass MAXS bestehende Methoden konsistent sowohl in der Leistung als auch in der Inferenzeffizienz übertrifft. Weitere Analysen bestätigen die Wirksamkeit unserer Vorausschau-Strategie und Werkzeugnutzung.
Wissenschaftliches Denken stützt sich nicht nur auf logische Schlussfolgerungen, sondern auch auf die Aktivierung von Vorwissen und Erfahrungsstrukturen. Das Gedächtnis kann Wissen effizient wiederverwenden und dadurch die Konsistenz und Stabilität des Denkprozesses verbessern. Bisherige Benchmarks bewerten jedoch hauptsächlich Endantworten oder schrittweise Kohärenz, ohne die gedächtnisgesteuerten Mechanismen zu berücksichtigen, die dem menschlichen Denken zugrunde liegen – insbesondere die Aktivierung von Ankern und Attraktoren sowie deren Integration in mehrstufige Schlussfolgerungen. Um diese Lücke zu schließen, stellen wir A^3-Bench vor (https://a3-bench.github.io), einen Benchmark zur Bewertung wissenschaftlichen Denkens durch dual-skaliere, gedächtnisgesteuerte Aktivierung basierend auf Anker- und Attraktor-Aktivierung. Zunächst annotieren wir 2.198 wissenschaftliche Denkprobleme verschiedener Domänen mittels des SAPM-Prozesses (Subject, Anchor & Attractor, Problem und Memory Developing). Zweitens führen wir einen dual-skalierten Bewertungsrahmen für das Gedächtnis unter Verwendung von Ankern und Attraktoren ein, ergänzt durch die AAUI-Metrik (Anchor–Attractor Utilization Index) zur Messung der Gedächtnisaktivierungsrate. Abschließend validieren wir A^3-Bench durch Experimente mit verschiedenen Basismodellen und Paradigmen und analysieren, wie sich Gedächtnisaktivierung auf die Denkleistung auswirkt, um Einblicke in gedächtnisgesteuertes wissenschaftliches Denken zu liefern.
In diesem Bericht stellen wir DASD-4B-Thinking vor, ein leichtgewichtiges, aber leistungsstarkes, vollständig quelloffenes Reasoning-Modell. Es erzielt SOTA-Leistungen unter quelloffenen Modellen vergleichbarer Größe in anspruchsvollen Benchmarks für Mathematik, wissenschaftliches Reasoning und Code-Generierung – und übertrifft dabei sogar mehrere größere Modelle. Wir beginnen mit einer kritischen Neubewertung eines in der Community weit verbreiteten Distillationsparadigmas: Supervised Fine-Tuning (SFT) auf von einem Lehrermodell generierten Antworten, auch bekannt als Sequenz-level-Distillation. Obwohl eine Reihe aktueller Arbeiten, die diesem Schema folgen, bemerkenswerte Effizienz und starke empirische Leistung demonstriert haben, sind sie primär in der SFT-Perspektive verankert. Folglich konzentrieren sich diese Ansätze überwiegend auf das Design heuristischer Regeln für die SFT-Datenfilterung, während sie das Kernprinzip der Distillation selbst weitgehend vernachlässigen – dem Schüler-Modell zu ermöglichen, die vollständige Ausgabeverteilung des Lehrers zu erlernen, um dessen Generalisierungsfähigkeit zu übernehmen. Konkret identifizieren wir drei kritische Einschränkungen in der aktuellen Praxis: i) Eine unzureichende Abbildung der Sequenz-level-Verteilung des Lehrers; ii) Eine Fehlausrichtung zwischen der Ausgabeverteilung des Lehrers und der Lernkapazität des Schülers; und iii) Exposure Bias, der sich aus dem teacher-forced Training im Gegensatz zum autoregressiven Inferenzmodus ergibt. Zusammenfassend lässt sich sagen, dass diese Mängel eine systemische Abwesenheit expliziter Lehrer-Schüler-Interaktion während des gesamten Distillationsprozesses widerspiegeln, wodurch das Wesen der Distillation unzureichend genutzt wird. Um diese Probleme zu adressieren, schlagen wir mehrere methodische Innovationen vor, die gemeinsam eine verbesserte Trainings-Pipeline für Sequenz-level-Distillation bilden. Bemerkenswerterweise erzielt DASD-4B-Thinking konkurrenzfähige Ergebnisse mit nur 448K Trainingsbeispielen – eine Größenordnung weniger, als von den meisten bestehenden quelloffenen Bemühungen verwendet wird. Um die Forschung in der Community zu unterstützen, veröffentlichen wir unsere Modelle und den Trainingsdatensatz öffentlich.
Vision-Language-Action (VLA)-Aufgaben erfordern das Schließen über komplexe visuelle Szenen und die Ausführung adaptiver Aktionen in dynamischen Umgebungen. Während neuere Studien zu reasoning-basierten VLA-Systemen zeigen, dass explizite Chain-of-Thought (CoT)-Ansätze die Generalisierung verbessern können, leiden diese unter hoher Inferenzlatenz aufgrund langer Reasoning-Pfade. Wir schlagen Fast-ThinkAct vor, ein effizientes Reasoning-Framework, das durch verbalisierbare latente Schlussfolgerungen eine kompakte und leistungsfähige Planung erreicht. Fast-ThinkAct lernt effizientes Reasoning mit latenten CoTs durch Distillation von einem Teacher-Modell, angetrieben durch ein präferenzgeführtes Ziel, das Manipulationspfade so ausrichtet, dass sowohl linguistische als auch visuelle Planungsfähigkeiten für embodied Control übertragen werden. Dies ermöglicht reasoningsgestütztes Policy-Lernen, das kompaktes Schlussfolgern effektiv mit Aktionsausführung verbindet. Umfangreiche Experimente über diverse embodied Manipulations- und Reasoning-Benchmarks zeigen, dass Fast-ThinkAct bei stark reduzierter Inferenzlatenz (bis zu 89,3 % gegenüber state-of-the-art reasoning VLA-Systemen) eine hohe Leistung erzielt und dabei effektive Langzeitplanung, Few-Shot-Adaption und Fehlerbeibehung beibehält.
Allgemeine großskalige multimodale Modelle (LVLMs) scheitern in der Dermatologie trotz ihrer enormen Größe häufig an „diffuser Aufmerksamkeit“ – der Unfähigkeit, subtile pathologische Läsionen vom Hintergrundrauschen zu unterscheiden. In diesem Papier stellen wir die Annahme in Frage, dass die Skalierung von Parametern der einzige Weg zu medizinischer Präzision ist. Wir stellen SkinFlow vor, ein Framework, das Diagnose als Optimierung der Effizienz visueller Informationsübertragung behandelt. Unser Ansatz nutzt einen dynamischen Vision-Encoder (DVE) mit virtueller Breite, um komplexe pathologische Mannigfaltigkeiten ohne physikalische Parametererweiterung zu „entfalten“, gekoppelt mit einer zweistufigen Reinforcement-Learning-Strategie. Diese Strategie richtet explizite medizinische Beschreibungen (Stufe I) aus und rekonstruiert implizite diagnostische Texturen (Stufe II) sequenziell innerhalb eines begrenzten semantischen Raums. Darüber hinaus schlagen wir ein klinisch fundiertes Evaluierungsprotokoll vor, das diagnostische Sicherheit und hierarchische Relevanz über starre Label-Übereinstimmung stellt. Die empirischen Ergebnisse sind überzeugend: Unser 7B-Modell setzt einen neuen Maßstab auf dem Fitzpatrick17k-Benchmark und erzielt einen Zuwachs von +12,06 % in der Top-1-Genauigkeit und einen Anstieg von +28,57 % in der Top-6-Genauigkeit gegenüber massiven allgemeinen Modellen (z. B. Qwen3VL-235B und GPT-5.2). Diese Ergebnisse zeigen, dass die Optimierung geometrischer Kapazität und des Informationsflusses einer reinen Parameterskalierung in der diagnostischen Reasoning-Leistung überlegen ist.
Wir stellen OpenVoxel vor, einen trainierungsfreien Algorithmus zur Gruppierung und Beschriftung spärlicher Voxel für Open-Vocabulary-Aufgaben im Bereich des 3D-Szenenverständnisses. Ausgehend vom Sparse Voxel Rasterization (SVR)-Modell, das aus Multi-View-Bildern einer 3D-Szene gewonnen wurde, ist unser OpenVoxel in der Lage, bedeutungsvolle Gruppen zu erzeugen, die verschiedene Objekte in der Szene beschreiben. Durch die Nutzung leistungsstarker Vision-Language-Modelle (VLMs) und multimodaler Large Language Models (MLLMs) erstellt unser OpenVoxel erfolgreich eine informative Szenenkarte, indem jede Gruppe beschriftet wird. Dies ermöglicht weitere Aufgaben zum 3D-Szenenverständnis, wie Open-Vocabulary-Segmentierung (OVS) oder Referring Expression Segmentation (RES). Im Gegensatz zu früheren Methoden ist unser Ansatz trainierungsfrei und führt keine Embeddings aus einem CLIP-/BERT-Textencoder ein. Stattdessen führen wir direkt eine Text-zu-Text-Suche mit MLLMs durch. In umfangreichen Experimenten zeigt unsere Methode eine überlegene Leistung im Vergleich zu aktuellen Studien, insbesondere bei komplexen Referring Expression Segmentation (RES)-Aufgaben. Der Code wird open source verfügbar sein.
Die Entwicklung großer Sprachmodelle (LLM) hat überlegene Leistungen in einer Reihe von nachgelagerten Aufgaben erzielt, einschließlich der auf LLM basierenden retrieval-augmentierten Generierung (RAG). Die Qualität der generierten Inhalte hängt stark vom Nutzen der abgerufenen Informationen und von der Fähigkeit des internen Informationsverarbeitungsmechanismus der LLMs ab, diese in die Antwortgenerierung einzubeziehen. Allgemein wird angenommen, dass die abgerufenen Informationen für die Frage relevant sind. Die abgerufenen Informationen können jedoch je nach Frage und Dokumentensammlung einen unterschiedlichen Grad an Relevanz und Nützlichkeit aufweisen. Es ist wichtig, die Relevanz der abgerufenen Informationen bei der Antwortgenerierung zu berücksichtigen. In diesem Artikel schlagen wir OpenDecoder vor, einen neuen Ansatz, der die explizite Bewertung der abgerufenen Informationen als Qualitätsindikator-Merkmale für die Generierung nutzt. Unser Ziel ist es, ein RAG-Modell zu entwickeln, das robuster gegenüber unterschiedlichen Graden von Rauschen im Kontext ist. Drei Arten von expliziten Bewertungsinformationen werden berücksichtigt: Relevanz-Score, Ranking-Score und QPP-Score (Query Performance Prediction). Die experimentellen Ergebnisse auf fünf Benchmark-Datensätzen demonstrieren die Wirksamkeit und bessere Robustheit von OpenDecoder, indem verschiedene Baseline-Methoden übertroffen werden. Wichtig ist, dass dieses Paradigma flexibel in das Nachtraining von LLMs für beliebige Zwecke integriert und mit jeder Art von externen Indikatoren kombiniert werden kann.
Die Erfahrungsintervention bei Web-Agenten erweist sich als vielversprechendes technisches Paradigma, das die Interaktionsfähigkeiten von Agenten durch die Bereitstellung wertvoller Erkenntnisse aus gesammelten Erfahrungen verbessert. Bestehende Methoden injizieren Erfahrungen jedoch überwiegend passiv als globalen Kontext vor der Aufgabenausführung und haben Schwierigkeiten, sich an dynamisch verändernde Kontextbeobachtungen während der Agent-Umgebungs-Interaktion anzupassen. Wir schlagen ExpSeek vor, das Erfahrungen hin zu einer schrittweisen proaktiven Suche verschiebt: (1) Schätzung schrittweiser Entropiegrenzwerte zur Bestimmung des Interventionszeitpunkts unter Verwendung intrinsischer Signale des Modells; (2) Gestaltung maßgeschneiderter Erfahrungsinhalte auf Schrittebene. Experimente mit Qwen3-8B- und 32B-Modellen über vier anspruchsvolle Web-Agenten-Benchmarks zeigen, dass ExpSeek absolute Verbesserungen von 9,3 % bzw. 7,5 % erzielt. Unsere Experimente validieren die Machbarkeit und Vorteile von Entropie als selbstauslösendes Signal und zeigen, dass selbst ein kleines Erfahrungsmodell mit 4B die Leistung größerer Agentenmodelle signifikant steigern kann.
Vision-Language Models (VLMs) haben bemerkenswerte Leistung bei User Interface (UI) Grounding-Aufgaben gezeigt, angetrieben durch ihre Fähigkeit, zunehmend hochauflösende Screenshots zu verarbeiten. Allerdings werden Screenshots in Tausende von visuellen Tokens tokenisiert (z.B. etwa 4700 für 2K-Auflösung), was erheblichen Rechenaufwand verursacht und die Aufmerksamkeit verwässert. Im Gegensatz dazu konzentrieren sich Menschen typischerweise auf relevante Bereiche bei der Interaktion mit einer UI. In dieser Arbeit pionieren wir die Aufgabe des effizienten UI Groundings. Angeleitet durch eine praktische Analyse der Aufgabencharakteristika und Herausforderungen schlagen wir FocusUI vor, einen effizienten UI-Grounding-Rahmen, der die für die Anweisung relevantesten Bildbereiche (Patches) auswählt, dabei aber die positionsbezogene Kontinuität für präzises Grounding bewahrt. FocusUI adressiert zwei zentrale Herausforderungen: (1) Beseitigung redundanter Tokens in der visuellen Encodierung. Wir konstruieren eine Patch-basierte Supervision, indem wir einen anweisungsbedingten Score mit einem regelbasierten UI-Graph-Score fusionieren, der große homogene Regionen abwertet, um distinkte und anweisungsrelevante visuelle Tokens auszuwählen. (2) Bewahrung der positionsbezogenen Kontinuität während der visuellen Token-Auswahl. Wir stellen fest, dass allgemeine Methoden zur Ausdünnung visueller Tokens unter schwerer Genauigkeitseinbuße bei UI-Grounding-Aufgaben leiden, weil sie positionsbezogene Informationen zerstören. Wir führen eine neuartige PosPad-Strategie ein, die jede zusammenhängende Folge fallengelassener visueller Tokens zu einem einzelnen speziellen Marker komprimiert, der am letzten Index der Folge platziert wird, um die positionsbezogene Kontinuität zu bewahren. Umfassende Experimente auf vier Grounding-Benchmarks demonstrieren, dass FocusUI GUI-spezifische Baseline-Methoden übertrifft. Auf dem ScreenSpot-Pro-Benchmark erzielt FocusUI-7B eine Leistungssteigerung von 3,7 % gegenüber GUI-Actor-7B. Selbst bei nur 30 % Beibehaltung visueller Tokens fällt FocusUI-7B nur um 3,2 % ab, erreicht dabei aber bis zu 1,44x schnellere Inferenz und 17 % geringeren Spitzen-GPU-Speicherverbrauch.
Das Training großer Sprachmodelle (LLM) optimiert häufig auf Präferenzabgleich und belohnt Ausgaben, die als hilfreich und interaktionsfreundlich wahrgenommen werden. Dieses präferenzorientierte Ziel kann jedoch ausgenutzt werden: Manipulative Prompts können Antworten in Richtung einer gefälligenden Zustimmung und weg von wahrheitsorientierter Korrektur lenken. In dieser Arbeit untersuchen wir, ob alignierte Modelle anfällig für Präferenzunterwandernde Angriffe (PUA) sind – eine Klasse manipulativer Prompting-Strategien, die das Bestreben des Modells ausnutzen, Nutzerpräferenzen auf Kosten der Wahrhaftigkeit zu erfüllen. Wir schlagen eine Diagnosemethodik vor, die eine feiner granulierte und direktivere Analyse liefert als aggregierte Benchmark-Werte. Dazu verwenden wir einen faktoriellen Evaluierungsrahmen, um promptinduzierte Verschiebungen in einem kontrollierten 2x2⁴-Design in interpretierbare Effekte von Systemzielen (wahrheits- vs. präferenzorientiert) und PUA-Dialogfaktoren (direktive Steuerung, persönliche Herabsetzung, konditionale Zustimmung, Realitätsleugnung) zu zerlegen. Überraschenderweise sind fortgeschrittenere Modelle manchmal anfälliger für manipulative Prompts. Jenseits des dominanten Faktors der Realitätsleugnung beobachten wir modellspezifische Vorzeichenumkehrungen und Interaktionen mit PUA-Faktoren, was auf maßgeschneiderte Verteidigungsstrategien statt einheitlicher Robustheit hindeutet. Diese Ergebnisse bieten eine neuartige, reproduzierbare faktorielle Evaluierungsmethodik, die fein granulierte Diagnosen für Prozesse nach dem Training wie RLHF ermöglicht. Dies erlaubt bessere Abwägungen in der Produktiteration von LLMs durch ein nuancierteres Verständnis der Risiken von Präferenzabgleich und der Auswirkungen manipulativer Prompts.
Während LLM-basierte Agenten vielversprechend für tiefgehende Recherchen sind, basieren die meisten bestehenden Ansätze auf festen Workflows, die sich nur schwer an realweltliche, offene Anfragen anpassen lassen. Daher untersuchen jüngste Arbeiten die Selbstevolution, indem Agenten ihren eigenen Code oder ihre Prompts umschreiben dürfen, um ihre Problemlösungsfähigkeit zu verbessern. Unbeschränkte Optimierung löst jedoch oft Instabilität, Halluzinationen und Instruktionsdrift aus. Wir schlagen EvoFSM vor, einen strukturierten, sich selbst entwickelnden Rahmen, der sowohl Anpassungsfähigkeit als auch Kontrolle erreicht, indem er einen expliziten Endlichen Automaten (Finite State Machine, FSM) weiterentwickelt, anstatt sich auf freies Umschreiben zu verlassen. EvoFSM entkoppelt den Optimierungsraum in makroskopischen *Flow* (Zustandsübergangslogik) und mikroskopische *Skills* (zustandsspezifisches Verhalten), was gezielte Verbesserungen innerhalb klarer Verhaltensgrenzen ermöglicht. Gesteuert durch einen Kritik-Mechanismus verfeinert EvoFSM den FSM über einen kleinen Satz eingeschränkter Operationen und integriert zudem einen sich selbst entwickelnden Speicher, der erfolgreiche Trajektorien als wiederverwendbare Priors und Fehlermuster als Einschränkungen für zukünftige Anfragen verdichtet. Umfangreiche Auswertungen auf fünf Multi-Hop-QA-Benchmarks demonstrieren die Wirksamkeit von EvoFSM. Insbesondere erreicht EvoFSM eine Genauigkeit von 58,0 % auf dem DeepSearch-Benchmark. Zusätzliche Ergebnisse zu interaktiven Entscheidungsfindungsaufgaben validieren weiterhin seine Generalisierungsfähigkeit.
Wir stellen TranslateGemma vor, eine Reihe offener maschineller Übersetzungsmodelle, die auf den Gemma-3-Foundation-Modellen basieren. Um die inhärenten mehrsprachigen Fähigkeiten von Gemma 3 für die Übersetzungsaufgabe zu verbessern, setzen wir einen zweistufigen Feinabstimmungsprozess ein. Zunächst wird eine überwachte Feinabstimmung mit einer reichhaltigen Mischung aus hochwertigen, großvolumigen synthetischen Parallel-Daten, die über modernste Modelle generiert wurden, und von Menschen übersetzten parallelen Daten durchgeführt. Darauf folgt eine Phase des bestärkenden Lernens, in der wir die Übersetzungsqualität mithilfe eines Ensembles von Belohnungsmodellen, darunter MetricX-QE und AutoMQM, optimieren und dabei die Übersetzungsqualität als Zielgröße verwenden. Wir demonstrieren die Wirksamkeit von TranslateGemma durch humanevaluierung am WMT25-Testsatz über 10 Sprachpaare hinweg sowie durch automatische Evaluierung auf dem WMT24++-Benchmark über 55 Sprachpaare. Automatische Metriken zeigen durchgängige und erhebliche Verbesserungen gegenüber den Basis-Gemma-3-Modellen in allen Größen. Bemerkenswerterweise erreichen kleinere TranslateGemma-Modelle oft eine Leistung, die mit größeren Basismodellen vergleichbar ist, und bieten so eine verbesserte Effizienz. Wir zeigen auch, dass TranslateGemma-Modelle starke multimodale Fähigkeiten beibehalten, mit gesteigerter Leistung auf dem Vistra-Bildübersetzungs-Benchmark. Die Veröffentlichung der offenen TranslateGemma-Modelle zielt darauf ab, der Forschungsgemeinschaft leistungsstarke und anpassungsfähige Werkzeuge für maschinelle Übersetzung bereitzustellen.
Jüngste Fortschritte bei Weltmodellen zeigen vielversprechende Ansätze zur Modellierung zukünftiger Dynamiken von Umweltzuständen, was Agenten ermöglicht, zu schlussfolgern und zu handeln, ohne auf reale Umgebungen zugreifen zu müssen. Aktuelle Methoden führen überwiegend Einzelschritt- oder Festhorizont-Simulationen durch, wodurch ihr Potenzial für komplexe Aufgabenplanung unzureichend genutzt wird. Wir stellen Imagine-then-Plan (ITP) vor, einen einheitlichen Rahmen für Agentenlernen durch Vorausschau-Imagination, bei dem das Policy-Modell eines Agenten mit dem gelernten Weltmodell interagiert und mehrstufige „imaginierte“ Trajektorien erzeugt. Da der Imaginationhorizont je nach Aufgabe und Phase variieren kann, führen wir einen neuartigen adaptiven Vorausschau-Mechanismus ein, der Endziel und Aufgabenfortschritt abwägt. Die resultierenden imaginierten Trajektorien liefern umfassende Signale über zukünftige Konsequenzen, wie erzielte Fortschritte und potenzielle Konflikte, die mit aktuellen Beobachtungen fusioniert werden. Dies formuliert ein teilweise beobachtbares und imaginierbares Markov-Entscheidungsproblem zur Steuerung des Policy-Lernens. Wir implementieren ITP in sowohl trainingsfreien als auch verstärkungslernbasierten Varianten. Umfangreiche Experimente über repräsentative Agenten-Benchmarks zeigen, dass ITP wettbewerbsfähige Baseline-Methoden signifikant übertrifft. Weitere Analysen bestätigen, dass unsere adaptive Vorausschau das Schlussfolgerungsvermögen von Agenten wesentlich verbessert und wertvolle Einblicke zur Bewältigung breiterer, komplexer Aufgaben bietet.
Moderne videogenerative Modelle auf Basis von Diffusionsmodellen können zwar sehr realistische Clips erzeugen, sind jedoch rechenineffizient und benötigen oft Minuten an GPU-Zeit für nur wenige Sekunden Video. Diese Ineffizienz stellt eine kritische Barriere für den Einsatz generativer Videos in Anwendungen mit Echtzeitanforderungen dar, wie embodied AI und VR/AR. Dieser Beitrag untersucht eine neue Strategie für kamera-konditionierte Videogenerierung statischer Szenen: die Verwendung diffusionsbasierter generativer Modelle zur Erzeugung eines sparsamen Satzes von Keyframes, gefolgt von der Synthese des vollständigen Videos durch 3D-Rekonstruktion und Rendering. Durch die Hebung der Keyframes in eine 3D-Repräsentation und das Rendern intermediärer Ansichten amortisiert unser Ansatz die Generierungskosten über hunderte von Frames hinweg und erzwingt gleichzeitig geometrische Konsistenz. Wir führen weiterhin ein Modell ein, das die optimale Anzahl von Keyframes für eine gegebene Kameratrajektorie vorhersagt, wodurch das System die Berechnungen adaptiv zuweisen kann. Unsere finale Methode, SRENDER, verwendet sehr spärliche Keyframes für einfache Trajektorien und dichtere für komplexe Kamerabewegungen. Dies führt zu einer Videogenerierung, die mehr als 40-mal schneller ist als die diffusionsbasierte Baseline bei der Erzeugung von 20 Sekunden Video, bei gleichzeitiger Beibehaltung hoher visueller Qualität und zeitlicher Stabilität, und bietet damit einen praktischen Weg zu effizienter und steuerbarer Videosynthese.
Der Speicher spielt eine grundlegende Rolle bei der Erweiterung der Fähigkeiten moderner großer Sprachmodelle (Large Language Models, LLMs) und multimodaler LLMs (MLLMs) in Bezug auf logisches Schlussfolgern, Anpassungsfähigkeit und kontextuelle Treue. Während sich diese Modelle von statischen Vorhersagesystemen zu interaktiven Systemen entwickeln, die kontinuierliches Lernen und personalisierte Inferenz ermöglichen, ist die Integration von Speichermechanismen zu einem zentralen Thema in ihrer architektonischen und funktionalen Evolution geworden. Dieser Übersichtsartikel bietet eine umfassende und strukturierte Synthese des Speichers in LLMs und MLLMs und ordnet die Literatur in eine kohärente Taxonomie ein, die implizite, explizite und agentenbasierte Speicherparadigmen umfasst. Im Einzelnen werden drei primäre Speicherframeworks dargestellt. Der implizite Speicher bezieht sich auf das Wissen, das in den internen Parametern vortrainierter Transformer-Modelle eingebettet ist, und umfasst deren Fähigkeit zur Memorierung, assoziativen Abfrage und kontextuellen Schlussfolgerung. Jüngste Arbeiten haben Methoden erforscht, um diesen latenten Speicher zu interpretieren, zu manipulieren und neu zu konfigurieren. Der explizite Speicher umfasst externe Speicher- und Abrufkomponenten, die entwickelt wurden, um Modellausgaben mit dynamischen, abfragbaren Wissensrepräsentationen wie Textkorpora, dichten Vektoren und graphenbasierten Strukturen anzureichern, wodurch eine skalierbare und aktualisierbare Interaktion mit Informationsquellen ermöglicht wird. Der agentenbasierte Speicher führt persistente, zeitlich erweiterte Speicherstrukturen in autonomen Agenten ein, die langfristige Planung, Selbstkonsistenz und kooperatives Verhalten in Multi-Agenten-Systemen erleichtern, mit Relevanz für verkörperte und interaktive KI. Über Text hinausgehend untersucht der Übersichtsartikel die Integration von Speicher in multimodalen Settings, bei denen Kohärenz über visuelle, sprachliche, auditive und Handlungsmodalitäten hinweg essenziell ist. Wichtige architektonische Fortschritte, Benchmark-Aufgaben und offene Herausforderungen werden diskutiert, einschließlich Fragen der Speicherkapazität, Ausrichtung (Alignment), faktischen Konsistenz und systemübergreifenden Interoperabilität.
Die Analyse erworbener Repräsentationen weist einen blinden Fleck auf: Sie konzentriert sich auf Ähnlichkeit, indem sie misst, wie genau Embeddings mit externen Referenzen übereinstimmen. Doch Ähnlichkeit offenbart lediglich, *was* repräsentiert wird, nicht aber, ob diese Struktur robust ist. Wir führen die geometrische Stabilität ein, eine separate Dimension, die quantifiziert, wie zuverlässig die repräsentative Geometrie unter Störungen bestehen bleibt, und präsentieren Shesha, ein Framework zu ihrer Messung. Über 2.463 Konfigurationen in sieben Domänen hinweg zeigen wir, dass Stabilität und Ähnlichkeit empirisch unkorreliert sind (ρ≈0,01) und mechanistisch verschieden: Ähnlichkeitsmetriken brechen zusammen, nachdem die wichtigsten Hauptkomponenten entfernt wurden, während die Stabilität ihre Sensitivität für die feingranulare Struktur der Mannigfaltigkeit beibehält. Diese Unterscheidung liefert umsetzbare Erkenntnisse: Für das Sicherheitsmonitoring fungiert Stabilität als funktionaler geometrischer Kanarienvogel, der strukturelle Drift fast zweimal empfindlicher erkennt als CKA, während nicht-funktionales Rauschen herausgefiltert wird, das in starren Abstandsmetriken zu Fehlalarmen führt; für die Steuerbarkeit sagt die überwachte Stabilität lineare Lenkbarkeit vorher (ρ=0,89-0,96); für die Modellauswahl dissoziiert Stabilität von der Übertragbarkeit und offenbart eine geometrische Abgabe, die die Transferoptimierung verursacht. Über maschinelles Lernen hinaus sagt die Stabilität die Kohärenz von CRISPR-Perturbationen und die neuronale Verhaltenskopplung vorher. Indem sie quantifiziert, wie zuverlässig Systeme ihre Struktur aufrechterhalten, bietet die geometrische Stabilität eine notwendige Ergänzung zur Ähnlichkeit, um Repräsentationen in biologischen und computergestützten Systemen zu überprüfen.
Verkörperte Systeme erleben die Welt als "eine Symphonie von Strömungen": eine Kombination aus vielen kontinuierlichen Strömen sensorischer Eingaben, gekoppelt mit Eigenbewegung, verwoben mit der Dynamik externer Objekte. Diese Ströme gehorchen glatten, zeitparametrisierten Symmetrien, die sich durch eine präzise strukturierte Algebra kombinieren; dennoch ignorieren die meisten neuronalen Netzwerk-Weltmodelle diese Struktur und lernen dieselben Transformationen stattdessen wiederholt aus Daten neu. In dieser Arbeit führen wir "Fluss-Äquivariante Weltmodelle" ein, einen Rahmen, in dem sowohl Eigenbewegung als auch die Bewegung externer Objekte als einparametrige Lie-Gruppen-"Flüsse" vereinheitlicht werden. Wir nutzen diese Vereinheitlichung, um Gruppenäquivarianz in Bezug auf diese Transformationen zu implementieren und dadurch eine stabile latente Weltrepräsentation über hunderte von Zeitschritten hinweg bereitzustellen. Auf sowohl 2D- als auch 3D-Weltmodellierungs-Benchmarks mit teilweise beobachteten Videos demonstrieren wir, dass Fluss-Äquivariante Weltmodelle vergleichbare state-of-the-art, diffusionsbasierte und speichererweiterte Weltmodellierungsarchitekturen signifikant übertreffen – insbesondere wenn vorhersehbare Weltdynamiken außerhalb des aktuellen Sichtfelds des Agenten existieren. Wir zeigen, dass Fluss-Äquivarianz besonders vorteilhaft für lange Rollouts ist und weit über den Trainingshorizont hinaus generalisiert. Indem Weltmodellrepräsentationen in Bezug auf interne und externe Bewegung strukturiert werden, weist Fluss-Äquivarianz einen skalierbaren Weg zu dateneffizienter, symmetriegeführter, verkörperter Intelligenz. Projektlink: https://flowequivariantworldmodels.github.io.
Multimodale Large Language Models (MLLMs) verzeichnen bedeutende Fortschritte im multimodalen Reasoning. Frühe Ansätze konzentrieren sich auf rein textbasiertes Reasoning. Neuere Studien haben multimodale Informationen in die Reasoning-Schritte integriert; jedoch folgen sie oft einem einzigen, aufgabenspezifischen Reasoning-Muster, was ihre Generalisierbarkeit über verschiedene multimodale Aufgaben hinweg einschränkt. Tatsächlich gibt es zahlreiche multimodale Aufgaben, die unterschiedliche Reasoning-Fähigkeiten erfordern, wie das Hineinzoomen in eine bestimmte Region oder das Markieren eines Objekts innerhalb eines Bildes. Um dies zu adressieren, schlagen wir ein einheitliches generatives multimodales Reasoning vor, das verschiedene multimodale Reasoning-Fähigkeiten vereinheitlicht, indem es während des Reasoning-Prozesses Zwischenbilder generiert. Wir instanziieren dieses Paradigma mit Omni-R1, einem zweistufigen SFT+RL-Framework, das einen Perzeptions-Alignment-Loss und eine Perzeptions-Belohnung umfasst und dadurch funktionale Bildgenerierung ermöglicht. Zusätzlich führen wir Omni-R1-Zero ein, das den Bedarf an multimodalen Annotationen eliminiert, indem es schrittweise Visualisierungen aus rein textbasierten Reasoning-Daten bootstrappt. Empirische Ergebnisse zeigen, dass Omni-R1 einheitliches generatives Reasoning über eine breite Palette multimodaler Aufgaben hinweg erreicht und Omni-R1-Zero im Durchschnitt mit Omni-R1 gleichziehen oder es sogar übertreffen kann, was eine vielversprechende Richtung für generatives multimodales Reasoning aufzeigt.
Die verstärkende Optimierung (Reinforcement Learning, RL) großer Sprachmodelle (Large Language Models, LLMs) führt häufig zu einer verringerten Ausgabevielfalt, was deren Nützlichkeit für offene Aufgaben wie kreatives Schreiben beeinträchtigt. Bisherigen Methoden fehlen explizite Mechanismen zur Steuerung einer vielfältigen Exploration und priorisieren stattdessen Optimierungseffizienz und Leistung gegenüber Diversität. Dieser Beitrag schlägt ein RL-Framework vor, das um eine semi-strukturierte, lange Denkkette (Chain-of-Thought, CoT) strukturiert ist, wobei der Generierungsprozess in explizit geplante Zwischenschritte zerlegt wird. Wir führen eine Methode der diversen Planungsverzweigung (Diverse Planning Branching) ein, die strategisch Divergenz in der Planungsphase auf Basis von Diversitätsschwankungen einführt, ergänzt durch eine gruppenbewusste Diversitätsbelohnung (group-aware diversity reward), um unterschiedliche Trajektorien zu fördern. Experimentelle Ergebnisse auf Benchmarks für kreatives Schreiben zeigen, dass unser Ansatz die Ausgabevielfalt signifikant verbessert, ohne die Generierungsqualität zu beeinträchtigen, und dabei konsistent bestehende Baseline-Methoden übertrifft.
Die Aufgabe der Bild-zu-Video-Generierung (I2V) zielt darauf ab, ein Video aus einem Referenzbild und einer Textbeschreibung zu synthetisieren. Dies erfordert von Diffusionsmodellen, während des Denoising-Prozesses hochfrequente visuelle Randbedingungen und niederfrequente textuelle Steuerung in Einklang zu bringen. Während bestehende I2V-Modelle jedoch visuelle Konsistenz priorisieren, ist die effektive Kopplung dieser dualen Steuerung zur Gewährleistung einer starken Texttreue bislang unzureichend erforscht. In dieser Arbeit beobachten wir, dass in auf Diffusion Transformern (DiT) basierenden I2V-Modellen bestimmte Zwischenschichten schwache semantische Antworten zeigen (sogenannte Semantic-Weak Layers), erkennbar an einem messbaren Abfall der Text-Visual-Ähnlichkeit. Wir führen dies auf ein Phänomen zurück, das wir als Condition Isolation bezeichnen, bei dem sich die Aufmerksamkeit für visuelle Merkmale teilweise von der Textsteuerung löst und sich übermäßig auf erlernte visuelle Priori verlässt. Um dies zu adressieren, schlagen wir Focal Guidance (FG) vor, das die Steuerbarkeit durch Semantic-Weak Layers verbessert. FG umfasst zwei Mechanismen: (1) Fine-grained Semantic Guidance (FSG) nutzt CLIP, um Schlüsselregionen im Referenzbild zu identifizieren und diese als Ankerpunkte zur Führung der Semantic-Weak Layers einzusetzen. (2) Attention Cache überträgt Aufmerksamkeitskarten aus semantisch responsiven Schichten auf Semantic-Weak Layers, injiziert explizite semantische Signale und mildert deren übermäßige Abhängigkeit von den erlernten visuellen Priori des Modells, wodurch die Befolgung textueller Anweisungen verbessert wird. Um unseren Ansatz weiter zu validieren und den Mangel an Evaluation in dieser Richtung zu beheben, führen wir einen Benchmark zur Bewertung der Anweisungsbefolgung in I2V-Modellen ein. Auf diesem Benchmark erweist sich Focal Guidance als effektiv und generalisierbar, steigert die Gesamtpunktzahl auf Wan2.1-I2V auf 0,7250 (+3,97 %) und verbessert das auf MMDiT basierende HunyuanVideo-I2V auf 0,5571 (+7,44 %).
Reinforcement Learning (RL) bietet einen prinzipienbasierten Ansatz, um die Reasoning-Fähigkeiten großer Sprachmodelle zu verbessern, doch seine Wirksamkeit hängt von Trainingssignalen ab, die auch bei fortschreitender Modellentwicklung informativ bleiben. In der Praxis verlangsamt sich der RL-Fortschritt oft, wenn die Aufgabenschwierigkeit nicht mehr mit den Modellfähigkeiten abgestimmt ist oder wenn das Training von einem begrenzten Satz wiederkehrender Problemdomänen dominiert wird. Um diese Probleme gemeinsam zu adressieren, schlagen wir SCALER (Synthetic sCalable Adaptive Learning Environment for Reasoning) vor, ein Framework, das effektive Lernsignale durch adaptive Umgebungsgestaltung aufrechterhält. SCALER führt eine skalierbare Synthese-Pipeline ein, die reale Programmierprobleme in verifizierbare Reasoning-Umgebungen mit kontrollierbarer Schwierigkeit und unbegrenzter Instanzgenerierung umwandelt. Dies ermöglicht RL-Training über endliche Datensätze hinaus bei gleichzeitiger Bewahrung starker Korrektheitsgarantien. Darauf aufbauend setzt SCALER eine adaptive Multi-Umgebungs-RL-Strategie ein, die Instanzschwierigkeiten dynamisch anpasst und den aktiven Satz von Umgebungen kuratiert, um die Modellfähigkeitsgrenze zu verfolgen und die Verteilungsvielfalt aufrechtzuerhalten. Diese Ko-Adaptation verhindert Belohnungssparsität, mildert eine Überanpassung an enge Aufgabenmuster und unterstützt eine anhaltende Verbesserung während des gesamten Trainings. Umfangreiche Experimente zeigen, dass SCALER durchgängig datensatzbasierte RL-Baselines auf verschiedenen Reasoning-Benchmarks übertrifft und stabilere, langfristigere Trainingsdynamiken aufweist.
Kritikgestütztes Reinforcement Learning (RL) hat sich als leistungsfähiges Paradigma für das Training von LLM-Agenten etabliert, indem es spärliche Ergebnisbelohnungen mit Feedback in natürlicher Sprache anreichert. Allerdings stützen sich aktuelle Methoden oft auf statische oder Offline-Kritiker-Modelle, die sich nicht anpassen, wenn sich die Policy weiterentwickelt. Im On-Policy-RL verändern sich die Fehlermuster des Agenten im Laufe der Zeit, was dazu führt, dass stationäre Kritiker veralten und Feedback mit abnehmendem Nutzen liefern. Um dieses Problem zu adressieren, stellen wir ECHO (Evolving Critic for Hindsight-Guided Optimization) vor, einen Rahmen, der die Policy und den Kritiker gemeinsam durch eine synchronisierte ko-evolutionäre Schleife optimiert. ECHO nutzt einen kaskadierten Rollout-Mechanismus, bei dem der Kritiker mehrere Diagnosen für eine initiale Trajektorie generiert, gefolgt von einer Policy-Verfeinerung zur Ermöglichung einer gruppenstrukturierten Vorteilsschätzung. Wir adressieren die Herausforderung von Lernplateaus durch ein sättigungsbewusstes Gain-Shaping-Ziel, das den Kritiker dafür belohnt, dass er inkrementelle Verbesserungen in hochperformanten Trajektorien induziert. Durch den Einsatz von Dual-Track-GRPO-Updates stellt ECHO sicher, dass das Feedback des Kritikers mit der sich entwickelnden Policy synchronisiert bleibt. Experimentelle Ergebnisse zeigen, dass ECHO stabileres Training und einen höheren Erfolg bei Aufgaben mit langem Planungshorizont in offenen Weltumgebungen erzielt.
Die Zuweisung von Cluster-Workloads erfordert oft komplexe Konfigurationen, was eine Usability-Lücke schafft. Dieses Papier stellt ein semantisches, absichtsgesteuertes Scheduling-Paradigma für Clustersysteme unter Verwendung von Natural Language Processing vor. Das System setzt ein Large Language Model (LLM) ein, das über einen Kubernetes-Scheduler-Extender integriert ist, um natürlichsprachliche Allokationshinweis-Annotationen für Soft-Affinity-Präferenzen zu interpretieren. Ein Prototyp mit einem Cluster-Zustands-Cache und einem Intent-Analyzer (unter Verwendung von AWS Bedrock) wurde entwickelt. Die empirische Auswertung zeigte eine hohe LLM-Parsing-Genauigkeit (>95% Subset Accuracy auf einem Evaluierungs-Ground-Truth-Datensatz) für Top-Modelle wie Amazon Nova Pro/Premier und Mistral Pixtral Large, die eine Baseline-Engine deutlich übertraf. Tests der Scheduling-Qualität in sechs Szenarien zeigten, dass der Prototyp eine überlegene oder gleichwertige Platzierung im Vergleich zu standardmäßigen Kubernetes-Konfigurationen erreichte, wobei er sich besonders in komplexen und quantitativen Szenarien sowie bei der Handhabung konfligierender Soft-Präferenzen auszeichnete. Die Ergebnisse validieren den Einsatz von LLMs für zugängliches Scheduling, zeigen aber auch Grenzen wie synchrone LLM-Latenz auf und legen asynchrone Verarbeitung für Produktionsreife nahe. Diese Arbeit bestätigt die Machbarkeit von semantischer Soft Affinity zur Vereinfachung der Workload-Orchestrierung.
Große Sprachmodelle generieren häufig plausible, aber ungenaue Zusammenfassungen, die Nutzer nicht am Ausgangstext überprüfen können – eine kritische Einschränkung in compliance-sensitiven Bereichen wie Regierungsarbeit und Rechtsanalyse. Wir stellen sui-1 vor, ein Modell mit 24B Parametern, das abstrahierende Zusammenfassungen mit Inline-Zitaten erzeugt und es Nutzern ermöglicht, jede Behauptung zu ihrem Ursprungssatz zurückzuverfolgen. Unsere synthetische Datenpipeline kombiniert Chain-of-Thought-Prompting mit mehrstufiger Verifikation und erzeugt über 22.000 hochwertige Trainingsbeispiele in fünf Sprachen aus diversen Quellen, einschließlich parlamentarischer Dokumente, Webtexten und Wikipedia. Die Evaluation zeigt, dass sui-1 alle getesteten Open-Weight-Baselines signifikant übertrifft, einschließlich Modelle mit dreifach mehr Parametern. Diese Ergebnisse demonstrieren, dass aufgabenspezifisches Training für zitiergestützte Zusammenfassung deutlich besser abschneidet als reine Skalierung. Modellgewichte und eine interaktive Demo sind öffentlich verfügbar.
Die Qualität der Subword-Tokenisierung ist entscheidend für große Sprachmodelle, doch die Bewertung von Tokenizern für morphologisch reiche uralische Sprachen wird durch das Fehlen sauberer Morphemlexika erschwert. Wir stellen SampoNLP vor, ein korpusfreies Toolkit zur Erstellung morphologischer Lexika mittels MDL-inspiriertem Self-Referential Atomicity Scoring, das zusammengesetzte Formen anhand interner struktureller Hinweise filtert – geeignet für ressourcenarme Umgebungen. Mithilfe der von SampoNLP für Finnisch, Ungarisch und Estnisch generierten hochreinen Lexika führen wir eine systematische Evaluation von BPE-Tokenizern über einen Bereich von Vokabulargrößen (8k–256k) durch. Wir schlagen eine einheitliche Metrik vor, den Integrated Performance Score (IPS), um den Zielkonflikt zwischen Morphemabdeckung und Überteilung zu bewältigen. Durch die Analyse der IPS-Kurven identifizieren wir die „Elbow-Points“ abnehmender Grenzerträge und geben erstmals empirisch fundierte Empfehlungen für optimale Vokabulargrößen (k) in diesen Sprachen. Unsere Studie bietet nicht nur praktische Anleitung, sondern weist auch quantitativ die Grenzen von Standard-BPE für hochagglutinierende Sprachen nach. Die SampoNLP-Bibliothek und alle generierten Ressourcen sind öffentlich verfügbar: https://github.com/AragonerUA/SampoNLP