papers.description
Groß angelegtes Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat seine Wirksamkeit bei der Nutzung des Potenzials großer Sprachmodelle (LLMs) für Einzel-Schlussfolgerungsaufgaben unter Beweis gestellt. In realistischen Szenarien der Schlussfolgerung können LLMs oft externe Werkzeuge nutzen, um bei der Aufgabenlösung zu unterstützen. Allerdings balancieren aktuelle RL-Algorithmen die intrinsischen Fähigkeiten der Modelle zur langfristigen Schlussfolgerung und ihre Kompetenz in mehrschrittigen Werkzeuginteraktionen unzureichend aus. Um diese Lücke zu schließen, schlagen wir Agentic Reinforced Policy Optimization (ARPO) vor, einen neuartigen agentenbasierten RL-Algorithmus, der speziell für das Training von mehrschrittigen LLM-basierten Agenten entwickelt wurde. Durch vorläufige Experimente beobachten wir, dass LLMs dazu neigen, unmittelbar nach Interaktionen mit externen Werkzeugen ein stark unsicheres Verhalten zu zeigen, das durch eine Zunahme der Entropieverteilung der generierten Tokens gekennzeichnet ist. Motiviert durch diese Beobachtung integriert ARPO einen entropiebasierten adaptiven Rollout-Mechanismus, der globales Trajektorien-Sampling und schrittweises Sampling dynamisch ausbalanciert und dadurch die Exploration in Schritten mit hoher Unsicherheit nach der Werkzeugnutzung fördert. Durch die Integration einer Vorteilsattributionsschätzung ermöglicht ARPO LLMs, Vorteilsunterschiede in schrittweisen Werkzeuginteraktionen zu internalisieren. Unsere Experimente über 13 anspruchsvolle Benchmarks in den Bereichen rechnerische Schlussfolgerung, Wissensschlussfolgerung und Tiefensuche demonstrieren die Überlegenheit von ARPO gegenüber Trajektorien-basierten RL-Algorithmen. Bemerkenswerterweise erreicht ARPO eine verbesserte Leistung mit nur der Hälfte des Werkzeugnutzungsbudgets, das von bestehenden Methoden benötigt wird, und bietet somit eine skalierbare Lösung für die Anpassung von LLM-basierten Agenten an Echtzeit-Dynamiken. Unser Code und unsere Datensätze sind unter https://github.com/dongguanting/ARPO veröffentlicht.
Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten demonstriert, bleiben jedoch grundsätzlich statisch und unfähig, ihre internen Parameter an neue Aufgaben, sich entwickelnde Wissensdomänen oder dynamische Interaktionskontexte anzupassen. Da LLMs zunehmend in offenen, interaktiven Umgebungen eingesetzt werden, ist diese statische Natur zu einem kritischen Engpass geworden, der Agenten erfordert, die in Echtzeit adaptiv denken, handeln und sich weiterentwickeln können. Dieser Paradigmenwechsel – von der Skalierung statischer Modelle hin zur Entwicklung selbst-evolvierender Agenten – hat ein wachsendes Interesse an Architekturen und Methoden geweckt, die kontinuierliches Lernen und Anpassung aus Daten, Interaktionen und Erfahrungen ermöglichen. Diese Übersichtsarbeit bietet die erste systematische und umfassende Betrachtung selbst-evolvierender Agenten, organisiert um drei grundlegende Dimensionen – was zu evolvieren ist, wann zu evolvieren ist und wie zu evolvieren ist. Wir untersuchen evolutionäre Mechanismen über Agentenkomponenten hinweg (z.B. Modelle, Speicher, Werkzeuge, Architektur), kategorisieren Anpassungsmethoden nach Phasen (z.B. intra-Testzeit, inter-Testzeit) und analysieren die algorithmischen und architektonischen Designs, die evolutionäre Anpassung leiten (z.B. skalare Belohnungen, textuelles Feedback, Einzel- und Multi-Agenten-Systeme). Zusätzlich analysieren wir Evaluationsmetriken und Benchmarks, die speziell für selbst-evolvierende Agenten entwickelt wurden, heben Anwendungen in Bereichen wie Programmierung, Bildung und Gesundheitswesen hervor und identifizieren kritische Herausforderungen und Forschungsrichtungen in den Bereichen Sicherheit, Skalierbarkeit und ko-evolutionäre Dynamiken. Indem diese Arbeit einen strukturierten Rahmen zum Verständnis und zur Gestaltung selbst-evolvierender Agenten bietet, legt sie eine Roadmap für die Weiterentwicklung adaptiver agentenbasierter Systeme in Forschung und realen Anwendungen fest und beleuchtet schließlich den Weg zur Realisierung Künstlicher Superintelligenz (ASI), bei der Agenten autonom evolvieren und auf oder über menschlichem Intelligenzniveau in einer Vielzahl von Aufgaben agieren.
Echtweltliche, von Nutzern generierte Kurzvideos, insbesondere solche, die auf Plattformen wie WeChat Channel und TikTok verbreitet werden, dominieren das mobile Internet. Allerdings fehlen aktuellen großen multimodalen Modellen wesentliche zeitlich strukturierte, detaillierte und tiefgehende Video-Verständnisfähigkeiten, die die Grundlage für effektive Video-Suche und -Empfehlungen sowie für neuartige Videoanwendungen bilden. Das Verständnis von realweltlichen Kurzvideos ist tatsächlich herausfordernd, da sie komplexe visuelle Elemente, eine hohe Informationsdichte sowohl in den visuellen als auch in den auditiven Komponenten und eine schnelle Abfolge aufweisen, die sich auf emotionale Ausdrücke und die Vermittlung von Standpunkten konzentriert. Dies erfordert fortgeschrittene Schlussfolgerungen, um multimodale Informationen, einschließlich visueller, auditiver und textueller Daten, effektiv zu integrieren. In dieser Arbeit stellen wir ARC-Hunyuan-Video vor, ein multimodales Modell, das visuelle, auditive und textuelle Signale aus Rohvideo-Eingaben end-to-end für strukturiertes Verständnis verarbeitet. Das Modell ist in der Lage, mehrgranulare, zeitgestempelte Video-Beschreibungen und Zusammenfassungen zu erstellen, offene Video-Fragen zu beantworten, zeitliche Video-Verankerungen vorzunehmen und Video-Schlussfolgerungen zu ziehen. Durch die Nutzung hochwertiger Daten aus einer automatisierten Annotationspipeline wird unser kompaktes 7B-Parameter-Modell durch ein umfassendes Trainingsregime trainiert: Vorabtraining, Instruktions-Feintuning, Kaltstart, Verstärkungslernen (RL) nach dem Training und abschließendes Instruktions-Feintuning. Quantitative Bewertungen auf unserem eingeführten Benchmark ShortVid-Bench und qualitative Vergleiche demonstrieren seine starke Leistung im Verständnis realweltlicher Videos, und es unterstützt Zero-Shot oder Feintuning mit wenigen Beispielen für diverse Downstream-Anwendungen. Die produktive Bereitstellung unseres Modells in der realen Welt hat greifbare und messbare Verbesserungen in der Nutzerbindung und -zufriedenheit erzielt, ein Erfolg, der durch seine bemerkenswerte Effizienz unterstützt wird, wobei Stresstests eine Inferenzzeit von nur 10 Sekunden für ein einminütiges Video auf einer H20 GPU anzeigen.
Während fortschrittliche große Sprachmodelle (LLMs) weiterhin die Grenzen der Fähigkeiten verschieben, bleibt ihre Bereitstellung auf GPU-betriebene Cloud-Infrastrukturen beschränkt. Wir stellen dieses Paradigma mit SmallThinker in Frage, einer Familie von LLMs, die von Grund auf – nicht angepasst – für die einzigartigen Einschränkungen lokaler Geräte entwickelt wurden: schwache Rechenleistung, begrenzter Speicher und langsame Speichermedien. Im Gegensatz zu traditionellen Ansätzen, die hauptsächlich bestehende Modelle für die Cloud komprimieren, entwerfen wir SmallThinker von Grund auf, um innerhalb dieser Grenzen zu gedeihen. Unsere Innovation liegt in einer bereitstellungsbewussten Architektur, die Einschränkungen in Designprinzipien verwandelt. Erstens führen wir eine zweistufige spärliche Struktur ein, die feinkörnige Mixture-of-Experts (MoE) mit spärlichen Feed-Forward-Netzwerken kombiniert und so den Rechenbedarf drastisch reduziert, ohne die Modellkapazität zu opfern. Zweitens überwinden wir den I/O-Engpass langsamer Speichermedien durch einen Pre-Attention-Router, der unser gemeinsam entwickeltes Inferenzsystem dazu befähigt, Expertenparameter aus dem Speicher vorab abzurufen, während die Aufmerksamkeit berechnet wird, und so die Speicherlatenz effektiv zu verbergen, die ansonsten die On-Device-Inferenz behindern würde. Drittens nutzen wir für die Speichereffizienz einen NoPE-RoPE-Hybrid-Mechanismus für spärliche Aufmerksamkeit, um die Anforderungen an den KV-Cache zu reduzieren. Wir veröffentlichen SmallThinker-4B-A0.6B und SmallThinker-21B-A3B, die state-of-the-art Leistungswerte erreichen und sogar größere LLMs übertreffen. Bemerkenswerterweise eliminiert unser gemeinsam entwickeltes System weitgehend die Notwendigkeit teurer GPU-Hardware: Mit Q4_0-Quantisierung übertreffen beide Modelle 20 Tokens/s auf gewöhnlichen Consumer-CPUs, während sie nur 1 GB bzw. 8 GB Speicher verbrauchen. SmallThinker ist öffentlich verfügbar unter hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct und hf.co/PowerInfer/SmallThinker-21BA3B-Instruct.
Trotz des Potenzials von Multi-Task Learning, komplementäres Wissen über Aufgaben hinweg zu nutzen, konzentrieren sich bestehende Multi-Task-Optimierungstechniken (MTO) weiterhin darauf, Konflikte durch optimierungszentrierte Verlustskalierung und Gradientenmanipulationsstrategien zu lösen, erzielen jedoch keine konsistenten Verbesserungen. In diesem Artikel argumentieren wir, dass der gemeinsame Repräsentationsraum, in dem Aufgabeninteraktionen natürlich stattfinden, reichhaltige Informationen und Potenzial für Operationen bietet, die bestehende Optimierer ergänzen, insbesondere um die intertask-Komplementarität zu fördern, die in MTO selten erforscht wird. Diese Intuition führt zu Rep-MTL, das die Aufgabenrelevanz auf Repräsentationsebene nutzt, um Interaktionen zwischen aufgabenspezifischer Optimierung und gemeinsamem Repräsentationslernen zu quantifizieren. Durch die Steuerung dieser Relevanzen mittels entropiebasierter Bestrafung und stichprobenweiser übergreifender Aufgabenausrichtung zielt Rep-MTL darauf ab, negativen Transfer zu minimieren, indem es die effektive Ausbildung einzelner Aufgaben anstelle reiner Konfliktlösung aufrechterhält und gleichzeitig den Austausch komplementärer Informationen explizit fördert. Experimente werden auf vier anspruchsvollen MTL-Benchmarks durchgeführt, die sowohl Aufgabenverschiebungen als auch Domänenverschiebungen abdecken. Die Ergebnisse zeigen, dass Rep-MTL, selbst in Kombination mit der grundlegenden Gleichgewichtungsstrategie, wettbewerbsfähige Leistungssteigerungen bei günstiger Effizienz erzielt. Über die Standardleistungsmetriken hinaus zeigt eine Power-Law-Exponentenanalyse die Wirksamkeit von Rep-MTL beim Ausgleich von aufgabenspezifischem Lernen und übergreifendem Aufgaben-Austausch. Die Projektseite ist HIER verfügbar.
Die Rekonstruktion von 4D-räumlicher Intelligenz aus visuellen Beobachtungen ist seit langem eine zentrale, aber herausfordernde Aufgabe in der Computer Vision mit breiten Anwendungen in der realen Welt. Diese reichen von Unterhaltungsbereichen wie Filmen, bei denen der Fokus oft auf der Rekonstruktion grundlegender visueller Elemente liegt, bis hin zu verkörperter KI, die Interaktionsmodellierung und physikalische Realismus betont. Angetrieben durch rasche Fortschritte in 3D-Darstellungen und Deep-Learning-Architekturen hat sich das Feld schnell weiterentwickelt und den Rahmen früherer Übersichtsarbeiten überschritten. Zudem bieten bestehende Übersichtsarbeiten selten eine umfassende Analyse der hierarchischen Struktur der 4D-Szenenrekonstruktion. Um diese Lücke zu schließen, präsentieren wir eine neue Perspektive, die bestehende Methoden in fünf progressive Ebenen der 4D-räumlichen Intelligenz einteilt: (1) Ebene 1 – Rekonstruktion von Low-Level-3D-Attributen (z. B. Tiefe, Pose und Punktkarten); (2) Ebene 2 – Rekonstruktion von 3D-Szenenkomponenten (z. B. Objekte, Menschen, Strukturen); (3) Ebene 3 – Rekonstruktion von 4D-dynamischen Szenen; (4) Ebene 4 – Modellierung von Interaktionen zwischen Szenenkomponenten; und (5) Ebene 5 – Einbeziehung physikalischer Gesetze und Einschränkungen. Wir schließen die Übersicht mit einer Diskussion der zentralen Herausforderungen auf jeder Ebene und heben vielversprechende Richtungen hervor, um noch reichere Ebenen der 4D-räumlichen Intelligenz zu erreichen. Um laufende Entwicklungen zu verfolgen, pflegen wir eine aktuelle Projektseite: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.
Jüngste Fortschritte, wie die Group Relative Policy Optimization (GRPO), haben die Fähigkeiten großer Sprachmodelle zur logischen Schlussfolgerung verbessert, indem sie das arithmetische Mittel der Token-Level-Belohnungen optimieren. Allerdings leidet GRPO unter instabilen Policy-Updates bei der Verarbeitung von Tokens mit Ausreißern in den gewichteten Belohnungen, was sich in extremen Importance-Sampling-Verhältnissen während des Trainings manifestiert, d. h. dem Verhältnis zwischen den Sampling-Wahrscheinlichkeiten, die einem Token von der aktuellen und der alten Policy zugewiesen werden. In dieser Arbeit schlagen wir die Geometric-Mean Policy Optimization (GMPO) vor, eine stabilisierte Variante von GRPO. Anstatt das arithmetische Mittel zu optimieren, maximiert GMPO das geometrische Mittel der Token-Level-Belohnungen, das von Natur aus weniger empfindlich gegenüber Ausreißern ist und einen stabileren Bereich des Importance-Sampling-Verhältnisses beibehält. Darüber hinaus liefern wir eine umfassende theoretische und experimentelle Analyse, um das Design und die Stabilitätsvorteile von GMPO zu untermauern. Neben der verbesserten Stabilität übertrifft GMPO-7B GRPO im Durchschnitt um 4,1 % bei mehreren mathematischen Benchmarks und um 1,4 % bei einem multimodalen Reasoning-Benchmark, einschließlich AIME24, AMC, MATH500, OlympiadBench, Minerva und Geometry3K. Der Code ist verfügbar unter https://github.com/callsys/GMPO.
Große Reasoning-Modelle (LRM) mit langen Chain-of-Thought (CoT)-Fähigkeiten haben bei objektiven Aufgaben wie mathematischem Reasoning und Programmierung starke Leistungen gezeigt. Ihre Wirksamkeit bei subjektiven Fragen, die aus verschiedenen Perspektiven unterschiedliche Antworten haben können, ist jedoch durch eine Tendenz zu homogenem Reasoning eingeschränkt, die durch die Abhängigkeit von einer einzigen Grundwahrheit beim überwachten Feinabstimmen und überprüfbaren Belohnungen beim Reinforcement Learning eingeführt wird. Motiviert durch die Erkenntnis, dass die Erhöhung der Rollenperspektiven die Leistung konsequent verbessert, schlagen wir MultiRole-R1 vor, ein diversitätsgestärktes Framework mit mehreren Rollenperspektiven, um die Genauigkeit und Vielfalt bei subjektiven Reasoning-Aufgaben zu verbessern. MultiRole-R1 verfügt über eine unüberwachte Datenkonstruktionspipeline, die Reasoning-Ketten generiert, die verschiedene Rollenperspektiven einbeziehen. Wir setzen weiterhin Reinforcement Learning über Group Relative Policy Optimization (GRPO) mit Belohnungsformung ein, indem wir Vielfalt als zusätzliches Belohnungssignal neben der überprüfbaren Belohnung verwenden. Mit speziell entwickelten Belohnungsfunktionen fördern wir erfolgreich Perspektivenvielfalt und lexikalische Vielfalt und decken eine positive Beziehung zwischen Reasoning-Vielfalt und Genauigkeit auf. Unser Experiment auf sechs Benchmarks demonstriert die Wirksamkeit und Generalisierbarkeit von MultiRole-R1 bei der Verbesserung sowohl subjektiven als auch objektiven Reasonings und zeigt das Potenzial von diversitätsgestärktem Training in LRMs auf.
Jüngste Fortschritte bei großen multimodalen Modellen wie GPT-4o haben einen neuen Standard für hochwertige, anweisungsgesteuerte Bildbearbeitung gesetzt. Die proprietäre Natur dieser Modelle und ihrer Trainingsdaten stellt jedoch eine erhebliche Barriere für die Open-Source-Forschung dar. Um diese Lücke zu schließen, stellen wir GPT-IMAGE-EDIT-1.5M vor, einen öffentlich zugänglichen, groß angelegten Bildbearbeitungskorpus, der mehr als 1,5 Millionen hochwertige Tripel (Anweisung, Quellbild, bearbeitetes Bild) enthält. Wir konstruieren diesen Datensatz systematisch, indem wir die vielseitigen Fähigkeiten von GPT-4o nutzen, um drei beliebte Bildbearbeitungsdatensätze zu vereinheitlichen und zu verfeinern: OmniEdit, HQ-Edit und UltraEdit. Konkret umfasst unsere Methodik 1) die Neugenerierung von Ausgabebildern, um die visuelle Qualität und die Anweisungsausrichtung zu verbessern, und 2) die selektive Neufassung von Prompts, um die semantische Klarheit zu erhöhen. Um die Wirksamkeit unseres Datensatzes zu validieren, feintunen wir fortschrittliche Open-Source-Modelle auf GPT-IMAGE-EDIT-1.5M. Die empirischen Ergebnisse sind vielversprechend: Das feinabgestimmte FluxKontext erzielt beispielsweise eine äußerst wettbewerbsfähige Leistung über eine umfassende Suite von Benchmarks hinweg, darunter 7,24 auf GEdit-EN, 3,80 auf ImgEdit-Full und 8,78 auf Complex-Edit, und zeigt eine stärkere Befolgung von Anweisungen sowie eine höhere wahrgenommene Qualität bei gleichzeitiger Wahrung der Identität. Diese Werte übertreffen deutlich alle bisher veröffentlichten Open-Source-Methoden und verringern die Lücke zu führenden proprietären Modellen erheblich. Wir hoffen, dass die vollständige Veröffentlichung von GPT-IMAGE-EDIT-1.5M die weitere offene Forschung im Bereich der anweisungsgesteuerten Bildbearbeitung vorantreiben kann.
Das Erlernen visueller Repräsentationen ist grundlegend für eine breite Palette nachgelagerter Aufgaben. Obwohl neuere kontrastive Vision-Sprache-Modelle wie CLIP und SigLIP durch groß angelegte Vision-Sprache-Ausrichtung beeindruckende Zero-Shot-Leistungen erzielt haben, schränkt ihre Abhängigkeit von globalen Repräsentationen ihre Effektivität für dichte Vorhersageaufgaben wie Grounding, OCR und Segmentierung ein. Um diese Lücke zu schließen, führen wir Region-Aware Cluster Discrimination (RICE) ein, eine neuartige Methode, die die Fähigkeiten auf Regionsebene für visuelle und OCR-Aufgaben verbessert. Zunächst erstellen wir einen Milliarden-großen Datensatz von Kandidatenregionen und schlagen eine Region Transformer-Schicht vor, um reichhaltige regionale Semantik zu extrahieren. Weiterhin entwerfen wir einen einheitlichen Region-Cluster-Diskriminierungsverlust, der Objekt- und OCR-Lernen innerhalb eines einzigen Klassifikationsrahmens gemeinsam unterstützt und effizientes und skalierbares verteiltes Training auf großen Datenmengen ermöglicht. Umfangreiche Experimente zeigen, dass RICE bisherige Methoden bei Aufgaben wie Segmentierung, dichter Detektion und visueller Wahrnehmung für Multimodale Große Sprachmodelle (MLLMs) konsequent übertrifft. Die vortrainierten Modelle wurden unter https://github.com/deepglint/MVT veröffentlicht.
Die Rektifizierung von Dokumentbildern zielt darauf ab, geometrische Verzerrungen in fotografierten Dokumenten zu beseitigen, um die Texterkennung zu erleichtern. Bisherige Methoden vernachlässigen jedoch oft die Bedeutung von Vordergrundelementen, die wesentliche geometrische Referenzen und Layoutinformationen für die Korrektur von Dokumentbildern liefern. In diesem Artikel stellen wir das Foreground-Centric Network (ForCenNet) vor, um geometrische Verzerrungen in Dokumentbildern zu beseitigen. Konkret schlagen wir zunächst eine vordergrundzentrierte Label-Generierungsmethode vor, die detaillierte Vordergrundelemente aus einem unverzerrten Bild extrahiert. Anschließend führen wir einen vordergrundzentrierten Maskenmechanismus ein, um die Unterscheidung zwischen lesbaren Regionen und dem Hintergrund zu verbessern. Darüber hinaus entwerfen wir einen Krümmungskonsistenzverlust, um die detaillierten Vordergrundlabels zu nutzen und dem Modell dabei zu helfen, die verzerrte geometrische Verteilung zu verstehen. Umfangreiche Experimente zeigen, dass ForCenNet auf vier realen Benchmarks wie DocUNet, DIR300, WarpDoc und DocReal neue Bestwerte erreicht. Quantitative Analysen belegen, dass die vorgeschlagene Methode Layoutelemente wie Textzeilen und Tabellenränder effektiv entzerrt. Die Ressourcen für weitere Vergleiche sind unter https://github.com/caipeng328/ForCenNet verfügbar.
Die Erzeugung von perpetuierten 3D-Szenen zielt darauf ab, langstreckige und kohärente 3D-Ansichtssequenzen zu erzeugen, die für die langfristige Videosynthese und die 3D-Szenenrekonstruktion geeignet sind. Bisherige Methoden folgen einem "Navigieren-und-Imaginieren"-Ansatz und stützen sich auf Outpainting für die sukzessive Erweiterung der Ansichten. Allerdings leiden die generierten Ansichtssequenzen unter dem Problem der semantischen Drift, das sich aus der akkumulierten Abweichung des Outpainting-Moduls ergibt. Um diese Herausforderung zu bewältigen, schlagen wir ScenePainter vor, ein neues Framework für die semantisch konsistente Erzeugung von 3D-Szenen, das die szenenspezifische Priorität des Outpainters mit dem Verständnis der aktuellen Szene in Einklang bringt. Konkret führen wir eine hierarchische Graphstruktur namens SceneConceptGraph ein, um Beziehungen zwischen mehrstufigen Szenenkonzepten zu konstruieren, die den Outpainter für konsistente neue Ansichten leitet und dynamisch verfeinert werden kann, um die Vielfalt zu erhöhen. Umfangreiche Experimente zeigen, dass unser Framework das Problem der semantischen Drift überwindet und konsistentere und immersivere 3D-Ansichtssequenzen erzeugt. Projektseite: https://xiac20.github.io/ScenePainter/.
Die zunehmende Häufigkeit extremer Wetterereignisse aufgrund des globalen Klimawandels erfordert eine präzise Wettervorhersage. In jüngster Zeit wurden durch end-to-end-Methoden, dank der Fortschritte in der Deep-Learning-Technologie, große Fortschritte erzielt. Diese Methoden stoßen jedoch auf Grenzen bei der Inkonsistenz der Darstellung in der multivariablen Integration und haben Schwierigkeiten, die Abhängigkeiten zwischen Variablen effektiv zu erfassen, was in komplexen Wettersystemen erforderlich ist. Die Behandlung verschiedener Variablen als unterschiedliche Modalitäten und die Anwendung eines zweistufigen Trainingsansatzes aus multimodalen Modellen kann dieses Problem teilweise lindern. Aufgrund der Unvereinbarkeit der Trainingsaufgaben zwischen den beiden Stufen sind die Ergebnisse jedoch oft suboptimal. Um diese Herausforderungen zu bewältigen, schlagen wir eine implizite zweistufige Trainingsmethode vor, die separate Encoder und Decoder für jede Variable konfiguriert. Im Detail wird in der ersten Stufe der Translator eingefroren, während die Encoder und Decoder einen gemeinsamen latenten Raum erlernen. In der zweiten Stufe werden die Encoder und Decoder eingefroren, und der Translator erfasst die Interaktionen zwischen den Variablen für die Vorhersage. Darüber hinaus wird durch die Einführung eines Selbstaufmerksamkeitsmechanismus für die multivariable Fusion im latenten Raum die Leistung weiter verbessert. Empirisch zeigen umfangreiche Experimente die state-of-the-art-Leistung unserer Methode. Insbesondere reduziert sie den mittleren quadratischen Fehler (MSE) für die Vorhersage der bodennahen Lufttemperatur und der relativen Luftfeuchtigkeit um 28,82 % bzw. 23,39 %. Der Quellcode ist unter https://github.com/ShremG/Met2Net verfügbar.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben das Potenzial von Verstärkungslernen mit verifizierbaren Belohnungen (RLVR) zur Verbesserung der Fähigkeiten zur logischen Schlussfolgerung durch erweiterte Ausgabesequenzen aufgezeigt. Traditionelle RL-Frameworks stoßen jedoch auf Ineffizienzen bei der Verarbeitung von ultra-langen Ausgaben aufgrund von langen Sequenzverteilungen und Entropiezusammenbrüchen während des Trainings. Um diese Herausforderungen zu bewältigen, schlagen wir einen Ansatz für Ultra-Lange Ausgabe-Verstärkungslernen (UloRL) vor, um die Fähigkeiten zur logischen Schlussfolgerung von großen Sprachmodellen zu verbessern. Insbesondere teilen wir die Decodierung von ultra-langen Ausgaben in kurze Segmente auf, wodurch effizientes Training ermöglicht wird, indem Verzögerungen durch lange Sequenzen gemindert werden. Zusätzlich führen wir eine dynamische Maskierung von gut beherrschten positiven Tokens (MPTs) ein, um Entropiezusammenbrüche zu verhindern. Experimentelle Ergebnisse zeigen die Wirksamkeit unseres Ansatzes. Beim Qwen3-30B-A3B-Modell erreichte RL mit Segment-Rollout eine 2,06-fache Steigerung der Trainingsgeschwindigkeit, während RL-Training mit 128k-Token-Ausgaben die Leistung des Modells bei AIME2025 von 70,9 % auf 85,1 % und bei BeyondAIME von 50,7 % auf 61,9 % verbesserte und sogar Qwen3-235B-A22B mit bemerkenswerten Gewinnen übertraf. Diese Ergebnisse unterstreichen das Potenzial unserer Methoden, die Fähigkeiten zur logischen Schlussfolgerung von LLMs mit der Generierung von ultra-langen Sequenzen voranzutreiben. Wir werden unseren Code und unser Modell für die weitere Nutzung durch die Community veröffentlichen.
Diffusions- und Flow-Matching-Modelle haben in jüngster Zeit die automatische Text-zu-Audio-Generierung revolutioniert. Diese Modelle sind zunehmend in der Lage, hochwertige und authentische Audioausgaben zu erzeugen, die Sprache und akustische Ereignisse präzise erfassen. Dennoch gibt es noch viel Verbesserungspotenzial bei der kreativen Audioerzeugung, die hauptsächlich Musik und Gesang umfasst. Aktuelle Open-Source-Lyrics-to-Song-Modelle wie DiffRhythm, ACE-Step und LeVo haben einen akzeptablen Standard in der automatischen Songgenerierung für den Freizeitgebrauch gesetzt. Allerdings fehlt diesen Modellen die fein abgestimmte Wort-Level-Kontrollierbarkeit, die Musiker oft in ihren Arbeitsabläufen wünschen. Nach unserem besten Wissen ist unser Flow-Matching-basiertes JAM der erste Ansatz, der Wort-Level-Timing und -Dauersteuerung in der Songgenerierung ermöglicht und somit eine präzise vokale Kontrolle bietet. Um die Qualität der generierten Songs zu verbessern und sie besser an menschliche Vorlieben anzupassen, implementieren wir ästhetische Ausrichtung durch Direct Preference Optimization, die das Modell iterativ mithilfe eines synthetischen Datensatzes verfeinert, ohne manuelle Datenannotationen zu benötigen. Darüber hinaus streben wir an, die Bewertung solcher Lyrics-to-Song-Modelle durch unseren öffentlichen Evaluationsdatensatz JAME zu standardisieren. Wir zeigen, dass JAM die bestehenden Modelle in Bezug auf musikbezogene Attribute übertrifft.
Wir präsentieren Music Arena, eine offene Plattform für skalierbare Bewertungen menschlicher Präferenzen bei Text-zu-Musik (TTM)-Modellen. Die Erhebung menschlicher Präferenzen durch Hörstudien gilt als Goldstandard für die Bewertung von TTM, doch diese Studien sind kostspielig durchzuführen und schwer zu vergleichen, da die Studienprotokolle zwischen Systemen variieren können. Darüber hinaus könnten menschliche Präferenzen Forschern helfen, ihre TTM-Systeme auszurichten oder automatische Bewertungsmetriken zu verbessern, doch eine offene und erneuerbare Quelle für Präferenzen existiert derzeit nicht. Wir streben an, diese Lücken durch *Live*-Bewertungen für TTM zu schließen. In Music Arena geben reale Nutzer selbstgewählte Textprompts ein und vergleichen die Ausgaben zweier TTM-Systeme, wobei ihre Präferenzen zur Erstellung einer Bestenliste verwendet werden. Während Music Arena aktuelle Bewertungstrends in anderen KI-Domänen aufgreift, haben wir es auch mit Schlüsselmerkmalen speziell für Musik gestaltet: ein auf LLM basierendes Routing-System, um die heterogenen Typsignaturen von TTM-Systemen zu navigieren, und die Erfassung *detaillierter* Präferenzen, einschließlich Hördaten und natürlicher Sprachfeedback. Wir schlagen zudem eine fortlaufende Datenfreigabepolitik mit Datenschutzgarantien vor, die eine erneuerbare Quelle für Präferenzdaten bietet und die Transparenz der Plattform erhöht. Durch sein standardisiertes Bewertungsprotokoll, transparente Datenzugriffsrichtlinien und musikbezogene Funktionen adressiert Music Arena nicht nur zentrale Herausforderungen im TTM-Ökosystem, sondern zeigt auch, wie Live-Bewertungen sorgfältig an die einzigartigen Eigenschaften spezifischer KI-Domänen angepasst werden können. Music Arena ist verfügbar unter: https://music-arena.org
Große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte bei der Verbesserung von schrittweisem Denken durch Reinforcement Learning erzielt. Allerdings stößt der Group Relative Policy Optimization (GRPO)-Algorithmus, der auf spärlichen Belohnungsregeln basiert, häufig auf das Problem identischer Belohnungen innerhalb von Gruppen, was zum Vorteilskollaps führt. Bestehende Arbeiten adressieren diese Herausforderung typischerweise aus zwei Perspektiven: die Erzwingung von Modellreflexion zur Steigerung der Antwortvielfalt und die Einführung von internem Feedback zur Verstärkung des Trainingssignals (Vorteil). In dieser Arbeit analysieren wir zunächst die Grenzen der Modellreflexion und untersuchen die Policy-Entropie von Antworten auf der feinkörnigen Probenebene. Basierend auf unseren experimentellen Ergebnissen schlagen wir den EDGE-GRPO-Algorithmus vor, der Entropy-Driven Advantage und Guided Error Correction nutzt, um das Problem des Vorteilskollapses effektiv zu mildern. Umfangreiche Experimente auf mehreren wichtigen Reasoning-Benchmarks demonstrieren die Wirksamkeit und Überlegenheit unseres Ansatzes. Er ist verfügbar unter https://github.com/ZhangXJ199/EDGE-GRPO.
Wenn Sprachmodelle (LMs) durch Reinforcement Learning (RL) trainiert werden, um natürliche Sprach-„Begründungsketten“ zu generieren, verbessert sich ihre Leistung bei einer Vielzahl schwieriger Frage-Antwort-Aufgaben. Heutzutage verwenden fast alle erfolgreichen Anwendungen von RL für das logische Schließen binäre Belohnungsfunktionen, die die Korrektheit der LM-Ausgaben bewerten. Da solche Belohnungsfunktionen das Raten oder Ausgaben mit geringem Vertrauen nicht bestrafen, haben sie oft den unbeabsichtigten Nebeneffekt, dass sie die Kalibrierung verschlechtern und die Rate erhöhen, mit der LMs in anderen Problemdomänen falsche Antworten generieren (oder „halluzinieren“). Dieses Papier beschreibt RLCR (Reinforcement Learning with Calibration Rewards), einen Ansatz zur Schulung von Schließmodellen, der sowohl die Genauigkeit als auch die kalibrierte Konfidenzschätzung verbessert. Während RLCR generieren LMs sowohl Vorhersagen als auch numerische Konfidenzschätzungen nach dem Schließen. Sie werden trainiert, um eine Belohnungsfunktion zu optimieren, die einen binären Korrektheitswert mit einem Brier-Score – einer Bewertungsregel für Konfidenzschätzungen, die kalibrierte Vorhersagen fördert – ergänzt. Wir beweisen zunächst, dass diese Belohnungsfunktion (oder jede analoge Belohnungsfunktion, die eine begrenzte, korrekte Bewertungsregel verwendet) Modelle hervorbringt, deren Vorhersagen sowohl genau als auch gut kalibriert sind. Anschließend zeigen wir, dass RLCR über diverse Datensätze hinweg die Kalibrierung erheblich verbessert, ohne die Genauigkeit zu beeinträchtigen, sowohl bei In-Domain- als auch bei Out-of-Domain-Evaluierungen – und dabei sowohl gewöhnliches RL-Training als auch Klassifikatoren, die darauf trainiert sind, nachträgliche Konfidenzscores zuzuweisen, übertrifft. Während gewöhnliches RL die Kalibrierung verschlechtert, verbessert RLCR sie. Schließlich demonstrieren wir, dass verbalisierte Konfidenz zur Testzeit genutzt werden kann, um die Genauigkeit und Kalibrierung durch konfidenzgewichtete Skalierungsmethoden zu verbessern. Unsere Ergebnisse zeigen, dass die explizite Optimierung auf Kalibrierung allgemein zuverlässigere Schließmodelle hervorbringen kann.
Die Nachfrage nach Large Language Models (LLMs), die zu anspruchsvollem mathematischem Denken in der Lage sind, wächst branchenübergreifend. Die Entwicklung leistungsstarker mathematischer LLMs wird jedoch entscheidend durch den Mangel an schwierigen, neuartigen Trainingsdaten behindert. Wir stellen SAND-Math (Synthetic Augmented Novel and Difficult Mathematics problems and solutions) vor, eine Pipeline, die dieses Problem angeht, indem sie zunächst hochwertige Aufgaben von Grund auf generiert und deren Komplexität dann systematisch durch einen neuen Schritt, den sogenannten Difficulty Hiking, erhöht. Wir demonstrieren die Wirksamkeit unseres Ansatzes durch zwei zentrale Erkenntnisse. Erstens führt die Anreicherung eines starken Basismodells mit SAND-Math-Daten zu einer signifikanten Leistungssteigerung, die das nächstbeste synthetische Dataset auf dem AIME25-Benchmark um bis zu 17,85 absolute Punkte übertrifft. Zweitens zeigen wir in einer speziellen Ablationsstudie, dass unser Difficulty-Hiking-Prozess äußerst effektiv ist: Durch die Erhöhung der durchschnittlichen Aufgabenschwierigkeit von 5,02 auf 5,98 steigert dieser Schritt die AIME25-Leistung von 46,38 % auf 49,23 %. Die vollständige Generationspipeline, der finale Datensatz und ein feinabgestimmtes Modell bilden ein praktisches und skalierbares Toolkit für den Aufbau leistungsfähigerer und effizienterer LLMs für mathematisches Denken. Der SAND-Math-Datensatz ist hier verfügbar: https://huggingface.co/datasets/amd/SAND-MATH{https://huggingface.co/datasets/amd/SAND-MATH}
Benutzersimulatoren sind entscheidend für konversationelle KI, da sie skalierbare Agentenentwicklung und -evaluierung durch simulierte Interaktionen ermöglichen. Obwohl aktuelle Large Language Models (LLMs) fortschrittliche Fähigkeiten zur Benutzersimulation aufweisen, zeigen wir, dass sie Schwierigkeiten haben, zielorientiertes Verhalten über mehrschrittige Konversationen hinweg konsistent zu demonstrieren – eine kritische Einschränkung, die ihre Zuverlässigkeit in nachgelagerten Anwendungen beeinträchtigt. Wir stellen User Goal State Tracking (UGST) vor, ein neuartiges Framework, das den Fortschritt der Benutzerziele während der Konversationen verfolgt. Unter Nutzung von UGST präsentieren wir eine dreistufige Methodik zur Entwicklung von Benutzersimulatoren, die autonom den Zielfortschritt verfolgen und zielgerichtete Antworten generieren können. Darüber hinaus etablieren wir umfassende Evaluationsmetriken zur Messung der Zielausrichtung in Benutzersimulatoren und demonstrieren, dass unser Ansatz erhebliche Verbesserungen in zwei Benchmarks (MultiWOZ 2.4 und {\tau}-Bench) erzielt. Unsere Beiträge adressieren eine kritische Lücke in der konversationellen KI und etablieren UGST als ein wesentliches Framework für die Entwicklung zielgerichteter Benutzersimulatoren.
Die Genexpressionsanalyse ist der Schlüssel zu vielen biomedizinischen Entdeckungen, doch die Gewinnung von Erkenntnissen aus rohen transkriptomischen Daten bleibt aufgrund der Komplexität mehrerer großer, teilstrukturierter Dateien und des Bedarfs an umfangreichem Fachwissen eine Herausforderung. Aktuelle Automatisierungsansätze sind oft entweder durch unflexible Workflows eingeschränkt, die in Randfällen versagen, oder durch vollständig autonome Agenten, denen die notwendige Präzision für rigorose wissenschaftliche Untersuchungen fehlt. GenoMAS geht einen anderen Weg, indem es ein Team von LLM-basierten Wissenschaftlern präsentiert, das die Zuverlässigkeit strukturierter Workflows mit der Anpassungsfähigkeit autonomer Agenten vereint. GenoMAS orchestriert sechs spezialisierte LLM-Agenten durch typisierte Nachrichtenübermittlungsprotokolle, wobei jeder Agent komplementäre Stärken zu einer gemeinsamen analytischen Leinwand beiträgt. Im Kern von GenoMAS liegt ein geführtes Planungsframework: Programmieragenten entfalten hochrangige Aufgabenrichtlinien in Aktions-Einheiten und entscheiden an jedem Punkt, ob sie voranschreiten, überarbeiten, überspringen oder zurückkehren sollen, wodurch die logische Kohärenz gewahrt bleibt, während sie sich gleichzeitig flexibel den Eigenheiten genomischer Daten anpassen. Auf dem GenoTEX-Benchmark erreicht GenoMAS eine zusammengesetzte Ähnlichkeitskorrelation von 89,13 % für die Datenvorverarbeitung und einen F1-Wert von 60,48 % für die Genidentifikation, womit es den bisherigen Stand der Technik um 10,61 % bzw. 16,85 % übertrifft. Über Metriken hinaus identifiziert GenoMAS biologisch plausible Gen-Phänotyp-Assoziationen, die durch die Literatur bestätigt werden, und berücksichtigt dabei latente Störfaktoren. Der Code ist verfügbar unter https://github.com/Liu-Hy/GenoMAS.
Da große Sprachmodelle (LLMs) zunehmend native Code-Interpreter integrieren, ermöglichen sie leistungsstarke Echtzeit-Ausführungsfunktionen, was ihre Nutzbarkeit erheblich erweitert. Solche Integrationen führen jedoch potenzielle systemweite Cybersicherheitsbedrohungen ein, die sich grundlegend von prompt-basierten Schwachstellen unterscheiden. Um diese interpreter-spezifischen Risiken systematisch zu bewerten, schlagen wir CIRCLE (Code-Interpreter Resilience Check for LLM Exploits) vor, einen einfachen Benchmark, der 1.260 Prompts umfasst, die auf CPU-, Speicher- und Festplattenressourcenerschöpfung abzielen. Jede Risikokategorie enthält explizit bösartige ("direkte") und plausibel harmlose ("indirekte") Prompt-Varianten. Unser automatisiertes Bewertungsframework prüft nicht nur, ob LLMs riskanten Code ablehnen oder generieren, sondern führt den generierten Code auch innerhalb der Interpreter-Umgebung aus, um die Codekorrektheit, Vereinfachungen durch das LLM zur Sicherstellung der Codesicherheit oder Ausführungszeitüberschreitungen zu bewerten. Bei der Bewertung von 7 kommerziell verfügbaren Modellen von OpenAI und Google decken wir erhebliche und inkonsistente Schwachstellen auf. Beispielsweise zeigen die Bewertungen erhebliche Diskrepanzen selbst innerhalb von Anbietern – OpenAIs o4-mini lehnt riskante Anfragen zu 7,1 % korrekt ab, was deutlich höher ist im Vergleich zu GPT-4.1 mit 0,5 %. Die Ergebnisse unterstreichen insbesondere, dass indirekte, sozial manipulierte Prompts die Modellabwehr erheblich schwächen. Dies verdeutlicht den dringenden Bedarf an interpreter-spezifischen Cybersicherheits-Benchmarks, spezialisierten Absicherungstools (z. B. Guardrails) und klaren Industriestandards, um die sichere und verantwortungsvolle Bereitstellung von LLM-Interpreter-Integrationen zu leiten. Der Benchmark-Datensatz und der Bewertungscode werden öffentlich zugänglich gemacht, um weitere Forschungen zu fördern.