papers.description
Agentische Suchsysteme wie Deep Research, bei denen große Sprachmodelle autonom im Web browsen, Informationen synthetisieren und umfassende, zitiergestützte Antworten liefern, markieren einen bedeutenden Wandel in der Art und Weise, wie Nutzer mit webbasierten Informationen interagieren. Obwohl sie größere Effizienz und kognitive Entlastung versprechen, haben die zunehmende Komplexität und Offenheit agentischer Suchsysteme die bestehenden Evaluierungsbenchmarks und Methoden überholt, die weitgehend von kurzen Suchhorizonten und statischen Antworten ausgehen. In diesem Artikel stellen wir Mind2Web 2 vor, einen Benchmark mit 130 realistischen, hochwertigen und langfristigen Aufgaben, die Echtzeit-Webbrowsing und umfangreiche Informationssynthese erfordern und mit über 1.000 Stunden menschlicher Arbeit erstellt wurden. Um die Herausforderung der Bewertung zeitlich variabler und komplexer Antworten zu bewältigen, schlagen wir ein neuartiges Agent-as-a-Judge-Framework vor. Unsere Methode konstruiert aufgabenbezogene Richter-Agenten basierend auf einem baumstrukturierten Bewertungsschema, um sowohl die Richtigkeit der Antworten als auch die Quellenzuordnung automatisch zu bewerten. Wir führen eine umfassende Bewertung von neun führenden agentischen Suchsystemen und der menschlichen Leistung durch, ergänzt durch eine detaillierte Fehleranalyse, um Erkenntnisse für die zukünftige Entwicklung zu gewinnen. Das leistungsstärkste System, OpenAI Deep Research, erreicht bereits 50-70 % der menschlichen Leistung bei halber Zeit, was ein großes Potenzial zeigt. Insgesamt bietet Mind2Web 2 eine solide Grundlage für die Entwicklung und Bewertung der nächsten Generation agentischer Suchsysteme.
Wir entwickeln einen kosteneffizienten neurosymbolischen Agenten, um anspruchsvolle mehrstufige Bildbearbeitungsaufgaben zu bewältigen, wie zum Beispiel: „Erkenne die Bank im Bild und färbe sie pink um. Entferne außerdem die Katze für eine klarere Sicht und färbe die Wand gelb ein.“ Dieser kombiniert die schnelle, hochrangige Unteraufgabenplanung durch große Sprachmodelle (LLMs) mit der langsamen, präzisen Werkzeugnutzung und lokalen A^*-Suche pro Unteraufgabe, um einen kosteneffizienten Werkzeugpfad zu finden – eine Abfolge von Aufrufen an KI-Werkzeuge. Um die Kosten der A^*-Suche bei ähnlichen Unteraufgaben zu sparen, führen wir induktives Schließen auf zuvor erfolgreichen Werkzeugpfaden mittels LLMs durch, um häufig verwendete Unterroutinen kontinuierlich zu extrahieren und zu verfeinern und sie als neue Werkzeuge für zukünftige Aufgaben in einer adaptiven Schnell-Langsam-Planung wiederzuverwenden, bei der zunächst die höherrangigen Unterroutinen erkundet werden und nur bei deren Scheitern die niedrigrangige A^*-Suche aktiviert wird. Die wiederverwendbaren symbolischen Unterroutinen sparen erheblich Erkundungskosten bei denselben Arten von Unteraufgaben, die auf ähnliche Bilder angewendet werden, und ergeben einen menschenähnlichen Schnell-Langsam-Werkzeugpfad-Agenten „FaSTA^*“: Schnelle Unteraufgabenplanung gefolgt von regelbasierter Unterroutinenauswahl pro Unteraufgabe wird zunächst durch LLMs versucht, was die meisten Aufgaben abdecken soll, während die langsame A^*-Suche nur für neuartige und herausfordernde Unteraufgaben ausgelöst wird. Durch den Vergleich mit aktuellen Bildbearbeitungsansätzen zeigen wir, dass FaSTA^* deutlich recheneffizienter ist und dennoch hinsichtlich der Erfolgsquote mit dem state-of-the-art Baseline konkurrieren kann.
Wir präsentieren WorldVLA, ein autoregressives Aktions-Weltmodell, das Aktions- und Bildverständnis sowie -generierung vereint. Unser WorldVLA integriert ein Vision-Language-Action (VLA)-Modell und ein Weltmodell in einem einzigen Framework. Das Weltmodell sagt zukünftige Bilder voraus, indem es sowohl Aktions- als auch Bildverständnis nutzt, mit dem Ziel, die zugrunde liegende Physik der Umgebung zu erlernen, um die Aktionsgenerierung zu verbessern. Gleichzeitig generiert das Aktionsmodell die nachfolgenden Aktionen basierend auf Bildbeobachtungen, was das visuelle Verständnis unterstützt und wiederum die visuelle Generierung des Weltmodells fördert. Wir zeigen, dass WorldVLA eigenständige Aktions- und Weltmodelle übertrifft, was die gegenseitige Verstärkung zwischen dem Weltmodell und dem Aktionsmodell verdeutlicht. Darüber hinaus stellen wir fest, dass die Leistung des Aktionsmodells abnimmt, wenn Sequenzen von Aktionen auf autoregressive Weise generiert werden. Dieses Phänomen kann auf die begrenzte Generalisierungsfähigkeit des Modells für die Aktionsvorhersage zurückgeführt werden, was zur Fehlerfortpflanzung von früheren zu nachfolgenden Aktionen führt. Um dieses Problem zu lösen, schlagen wir eine Aufmerksamkeitsmaskierungsstrategie vor, die frühere Aktionen während der Generierung der aktuellen Aktion selektiv maskiert, was eine signifikante Leistungsverbesserung bei der Aufgabe der Aktionschunk-Generierung zeigt.
Jüngste Fortschritte in der Szeneriekonstruktion haben zu einer hochrealistischen Modellierung von Umgebungen für das autonome Fahren (AD) mithilfe von 3D-Gaußschen Splatting geführt. Die resultierenden Rekonstruktionen bleiben jedoch eng an die ursprünglichen Beobachtungen gebunden und haben Schwierigkeiten, die fotorealistische Synthese stark veränderter oder neuartiger Fahrszenarien zu unterstützen. Diese Arbeit stellt MADrive vor, ein speichergestütztes Rekonstruktionsframework, das darauf abzielt, die Fähigkeiten bestehender Szeneriekonstruktionsmethoden zu erweitern, indem beobachtete Fahrzeuge durch visuell ähnliche 3D-Assets ersetzt werden, die aus einer groß angelegten externen Speicherbank abgerufen werden. Konkret veröffentlichen wir MAD-Cars, einen kuratierten Datensatz von ca. 70.000 360°-Videos von Fahrzeugen, die in der freien Natur aufgenommen wurden, und präsentieren ein Retrieval-Modul, das die ähnlichsten Fahrzeuginstanzen in der Speicherbank findet, die entsprechenden 3D-Assets aus den Videos rekonstruiert und sie durch Orientierungsausrichtung und Beleuchtungsanpassung in die Zielszene integriert. Die resultierenden Ersetzungen bieten vollständige Mehransichtsdarstellungen von Fahrzeugen in der Szene und ermöglichen die fotorealistische Synthese erheblich veränderter Konfigurationen, wie in unseren Experimenten gezeigt wird. Projektseite: https://yandex-research.github.io/madrive/
Grokking, d.h. die kontinuierliche Verbesserung der Testleistung, lange nachdem der Trainingsverlust konvergiert ist, wurde kürzlich im Training von neuronalen Netzwerken beobachtet, was den Mechanismus der Generalisierung und andere aufkommende Fähigkeiten wie das logische Denken rätselhaft erscheinen lässt. Während frühere Studien in der Regel kleine Modelle auf wenigen einfachen oder hochspezifischen Aufgaben über Tausende von Epochen trainierten, führen wir die erste Studie zu Grokking an Checkpoints während des Einmal-Vortrainings eines großen Sprachmodells (LLM) mit 7B Parametern, nämlich OLMoE, durch. Wir berechnen den Trainingsverlust und bewerten die Generalisierung auf verschiedenen Benchmark-Aufgaben, darunter mathematisches Denken, Code-Generierung und Aufgaben zur Abfrage von Allgemeinwissen bzw. domänenspezifischem Wissen. Unsere Studie bestätigt erstmals, dass Grokking auch beim Vortraining von großskaligen Basismodellen auftritt, obwohl verschiedene Daten asynchron in die Grokking-Phasen eintreten können. Wir entmystifizieren weiterhin das „Aufkommen der Generalisierung“ beim Grokking, indem wir die internen Dynamiken des LLM untersuchen. Insbesondere stellen wir fest, dass sich die Pfade der Trainingsdaten (d.h. die Expertenauswahl über die Schichten hinweg) während des Grokkings von zufälligen, instanzspezifischen zu strukturierteren und zwischen den Proben teilbaren Pfaden entwickeln. Zudem verringert sich die Komplexität eines Probenpfads trotz des konvergierten Verlusts. Dies deutet auf einen Übergang von der Auswendiglernphase zur Generalisierung hin und liefert eine mechanistische Erklärung für die verzögerte Generalisierung. In der Studie entwickeln wir zwei neuartige Metriken, um die Pfaddistanz und die Komplexität eines einzelnen Pfads zu quantifizieren. Wir zeigen deren Fähigkeit, die Verbesserung der Generalisierung auf verschiedenen Downstream-Aufgaben vorherzusagen. Sie sind effizient, einfach zu berechnen und ausschließlich von den Trainingsdaten abhängig. Daher haben sie praktischen Wert für das Vortraining, da sie es uns ermöglichen, die Generalisierungsleistung ohne Feinabstimmung und Tests zu überwachen. Theoretisch zeigen wir, dass strukturiertere Pfade die Modellkomplexität reduzieren und die Generalisierungsgrenze verbessern.
Bedingte Berechnung ist eine verbreitete Strategie, um Transformer-Modelle effizienter zu gestalten. Bestehende Methoden zielen oft auf einzelne Module (z. B. Mixture-of-Experts-Schichten) ab oder überspringen Schichten unabhängig voneinander. Interpretationsstudien haben jedoch gezeigt, dass die mittleren Schichten von Transformern eine größere Redundanz aufweisen und dass frühe Schichten Informationen in Token-Positionen aggregieren. Aufbauend auf diesen Erkenntnissen schlagen wir eine neuartige Architektur vor, die dynamisch eine variable Anzahl von Schichten von der Mitte nach außen überspringt. Insbesondere bestimmt ein gelerntes Gating-Mechanismus basierend auf der Eingabe, ob ein symmetrischer Bereich zentraler Blöcke umgangen werden soll, und ein gated Attention-Mechanismus verhindert, dass nachfolgende Token übersprungene Token-Positionen berücksichtigen. Die Residuen-Normen werden durch ein „Sandwich“- oder „Perilayernorm“-Schema kontrolliert, und die Gate-Sparsity wird durch einen adaptiven Regularisierungsverlust gesteuert. Unser Ziel war es, den Rechenaufwand für „einfachere“ Token zu reduzieren und möglicherweise eine mehrstufige Repräsentationshierarchie zu fördern. In den untersuchten Skalierungen erreicht unser Ansatz jedoch keine Verbesserungen im Trade-off zwischen Validierungs-Kreuzentropie und geschätzten FLOPs im Vergleich zu dichten Baselines mit weniger Schichten. Unser Code ist unter https://github.com/tim-lawson/skip-middle verfügbar.
Wir präsentieren SAM4D, ein multimodales und temporales Foundation-Modell, das für promptbare Segmentierung über Kamera- und LiDAR-Ströme entwickelt wurde. Die Unified Multi-modal Positional Encoding (UMPE) wird eingeführt, um Kamera- und LiDAR-Features in einem gemeinsamen 3D-Raum auszurichten, was nahtloses cross-modales Prompting und Interaktion ermöglicht. Zusätzlich schlagen wir Motion-aware Cross-modal Memory Attention (MCMA) vor, das Ego-Motion-Kompensation nutzt, um die zeitliche Konsistenz und die Feature-Rückgewinnung über lange Zeiträume zu verbessern, wodurch eine robuste Segmentierung in sich dynamisch verändernden autonomen Fahrszenen gewährleistet wird. Um Annotationsengpässe zu vermeiden, entwickeln wir eine multimodale automatisierte Data Engine, die VFM-gesteuerte Video-Masklets, raumzeitliche 4D-Rekonstruktion und cross-modale Masklet-Fusion kombiniert. Dieser Rahmen erzeugt Kamera-LiDAR-ausgerichtete Pseudo-Labels mit einer Geschwindigkeit, die um Größenordnungen schneller ist als menschliche Annotation, während die semantische Treue der VFM-abgeleiteten Punktwolkenrepräsentationen erhalten bleibt. Wir führen umfangreiche Experimente auf dem konstruierten Waymo-4DSeg durch, die die leistungsstarke cross-modale Segmentierungsfähigkeit und das große Potenzial in der Datenannotation des vorgeschlagenen SAM4D demonstrieren.
Mit der rasanten Verbreitung großer Sprachmodelle (LLMs) – die jeweils für unterschiedliche Stärken, Stile oder Latenz-/Kostenprofile optimiert sind – ist das Routing zu einer wesentlichen Technik geworden, um den Einsatz verschiedener Modelle zu operationalisieren. Bestehende Ansätze für das Routing von LLMs sind jedoch in zwei zentralen Punkten eingeschränkt: Sie bewerten die Leistung anhand von Benchmarks, die oft die menschlichen Präferenzen, die durch subjektive Bewertungskriterien getrieben werden, nicht erfassen, und sie wählen typischerweise aus einem begrenzten Pool von Modellen aus. In dieser Arbeit schlagen wir ein präferenzorientiertes Routing-Framework vor, das die Modellauswahl leitet, indem Anfragen benutzerdefinierten Domänen (z. B. Reisen) oder Aktionstypen (z. B. Bildbearbeitung) zugeordnet werden – und bietet so einen praktischen Mechanismus, um Präferenzen in Routing-Entscheidungen zu kodieren. Konkret führen wir Arch-Router ein, ein kompaktes 1,5B-Modell, das lernt, Anfragen auf Domänen-Aktions-Präferenzen für Routing-Entscheidungen abzubilden. Unser Ansatz unterstützt auch das nahtlose Hinzufügen neuer Modelle für das Routing, ohne dass eine Neuanpassung oder architektonische Änderungen erforderlich sind. Experimente mit Konversationsdatensätzen zeigen, dass unser Ansatz state-of-the-art (SOTA) Ergebnisse bei der Übereinstimmung von Anfragen mit menschlichen Präferenzen erzielt und dabei proprietäre Top-Modelle übertrifft. Unser Ansatz erfasst subjektive Bewertungskriterien und macht Routing-Entscheidungen transparenter und flexibler. Unser Modell ist verfügbar unter: https://huggingface.co/katanemo/Arch-Router-1.5B.
Wir trainieren Modelle, um egozentrische Videos aus menschlichen Handlungen vorherzusagen (Predict Ego-centric Video from human Actions, PEVA), basierend auf dem vergangenen Video und einer Handlung, die durch die relative 3D-Körperpose dargestellt wird. Indem wir auf kinematische Posentrajektorien konditionieren, die durch die Gelenkhierarchie des Körpers strukturiert sind, lernt unser Modell, wie physische menschliche Handlungen die Umwelt aus einer Ego-Perspektive formen. Wir trainieren einen autoregressiven bedingten Diffusions-Transformer auf Nymeria, einem groß angelegten Datensatz von realen egozentrischen Videos und Körperpose-Aufnahmen. Zudem entwickeln wir ein hierarchisches Evaluierungsprotokoll mit zunehmend anspruchsvollen Aufgaben, das eine umfassende Analyse der verkörperten Vorhersage- und Steuerungsfähigkeiten des Modells ermöglicht. Unsere Arbeit stellt einen ersten Versuch dar, die Herausforderungen der Modellierung komplexer realer Umgebungen und verkörperter Agentenverhaltensweisen durch Videovorhersage aus der Perspektive eines Menschen zu bewältigen.
Skinning und Rigging sind grundlegende Komponenten in der Animation, der rekonstruierten Artikulation von Objekten, der Bewegungstransfer und der 4D-Generierung. Bestehende Ansätze stützen sich überwiegend auf Linear Blend Skinning (LBS), aufgrund seiner Einfachheit und Differenzierbarkeit. Allerdings führt LBS zu Artefakten wie Volumenverlust und unnatürlichen Verformungen und versagt bei der Modellierung elastischer Materialien wie Weichgewebe, Fell und flexiblen Anhängen (z. B. Elefantenrüssel, Ohren und Fettgewebe). In dieser Arbeit schlagen wir PhysRig vor: ein differenzierbares, physikbasiertes Skinning- und Rigging-Framework, das diese Einschränkungen überwindet, indem das starre Skelett in eine volumetrische Darstellung (z. B. ein tetraedrisches Netz) eingebettet wird, die als eine verformbare Soft-Body-Struktur simuliert wird, die durch das animierte Skelett angetrieben wird. Unser Ansatz nutzt die Kontinuumsmechanik und diskretisiert das Objekt als Partikel, die in ein eulersches Hintergrundgitter eingebettet sind, um die Differenzierbarkeit in Bezug auf sowohl Materialeigenschaften als auch Skelettbewegungen sicherzustellen. Zusätzlich führen wir Materialprototypen ein, die den Lernraum erheblich reduzieren, während eine hohe Ausdruckskraft erhalten bleibt. Um unser Framework zu evaluieren, erstellen wir einen umfassenden synthetischen Datensatz mit Netzen aus Objaverse, The Amazing Animals Zoo und MixaMo, der verschiedene Objektkategorien und Bewegungsmuster abdeckt. Unsere Methode übertrifft konsistent traditionelle LBS-basierte Ansätze und erzeugt realistischere und physikalisch plausiblere Ergebnisse. Darüber hinaus demonstrieren wir die Anwendbarkeit unseres Frameworks in der Pose-Transfer-Aufgabe und unterstreichen damit seine Vielseitigkeit für die Modellierung artikulierter Objekte.
Wir präsentieren FairyGen, ein automatisches System zur Erzeugung von geschichtengetriebenen Zeichentrickvideos aus einer einzigen Kinderzeichnung, das dabei den einzigartigen künstlerischen Stil treu bewahrt. Im Gegensatz zu früheren Storytelling-Methoden, die sich hauptsächlich auf Charakterkonsistenz und grundlegende Bewegungen konzentrieren, entwirrt FairyGen explizit die Charaktermodellierung von der stilisierten Hintergrundgenerierung und integriert filmische Kameraeinstellungen, um ausdrucksstarkes und kohärentes Storytelling zu unterstützen. Ausgehend von einer einzigen Charakterskizze verwenden wir zunächst ein MLLM, um ein strukturiertes Storyboard mit Beschreibungen auf Shot-Ebene zu generieren, die Umgebungseinstellungen, Charakteraktionen und Kameraperspektiven spezifizieren. Um visuelle Konsistenz zu gewährleisten, führen wir einen Stilpropagationsadapter ein, der den visuellen Stil des Charakters erfasst und auf den Hintergrund anwendet, wodurch die vollständige visuelle Identität des Charakters bewahrt wird, während stilkonforme Szenen synthetisiert werden. Ein Shot-Design-Modul erhöht die visuelle Vielfalt und filmische Qualität weiter durch Bildausschnitte und Multi-View-Synthese basierend auf dem Storyboard. Um die Geschichte zu animieren, rekonstruieren wir ein 3D-Proxy des Charakters, um physikalisch plausible Bewegungssequenzen abzuleiten, die dann verwendet werden, um ein MMDiT-basiertes Bild-zu-Video-Diffusionsmodell zu feinabstimmen. Wir schlagen außerdem einen zweistufigen Bewegungsanpassungsadapter vor: Die erste Stufe lernt Erscheinungsmerkmale aus zeitlich ungeordneten Frames und entwirrt Identität von Bewegung; die zweite Stufe modelliert zeitliche Dynamik mithilfe einer Timestep-Shift-Strategie mit eingefrorenen Identitätsgewichten. Einmal trainiert, rendert FairyGen direkt diverse und kohärente Videoszenen, die mit dem Storyboard übereinstimmen. Umfangreiche Experimente zeigen, dass unser System Animationen erzeugt, die stilistisch treu, narrativ strukturiert und mit natürlicher Bewegung sind, was sein Potenzial für personalisierte und fesselnde Geschichtenanimation unterstreicht. Der Code wird unter https://github.com/GVCLab/FairyGen verfügbar sein.
Seltene Erkrankungen betreffen weltweit insgesamt über 300 Millionen Menschen, doch eine zeitnahe und genaue Diagnose bleibt eine weit verbreitete Herausforderung. Dies ist größtenteils auf ihre klinische Heterogenität, die geringe individuelle Prävalenz und die begrenzte Vertrautheit der meisten Kliniker mit seltenen Erkrankungen zurückzuführen. Hier stellen wir DeepRare vor, das erste Diagnosesystem für seltene Erkrankungen, das von einem großen Sprachmodell (LLM) angetrieben wird und in der Lage ist, heterogene klinische Eingaben zu verarbeiten. Das System generiert rangierte Diagnosehypothesen für seltene Erkrankungen, die jeweils von einer transparenten Begründungskette begleitet werden, die Zwischenschritte der Analyse mit überprüfbaren medizinischen Belegen verknüpft. DeepRare besteht aus drei Schlüsselkomponenten: einem zentralen Host mit einem Langzeitgedächtnismodul; spezialisierten Agenten-Servern, die für domänenspezifische analytische Aufgaben verantwortlich sind und über 40 spezialisierte Tools sowie web-basierte, aktuelle medizinische Wissensquellen integrieren, um den Zugang zu den neuesten klinischen Informationen zu gewährleisten. Dieses modulare und skalierbare Design ermöglicht komplexe diagnostische Schlussfolgerungen bei gleichzeitiger Wahrung der Nachvollziehbarkeit und Anpassungsfähigkeit. Wir evaluieren DeepRare anhand von acht Datensätzen. Das System zeigt eine außergewöhnliche diagnostische Leistung bei 2.919 Erkrankungen und erreicht eine 100%ige Genauigkeit für 1.013 Erkrankungen. In HPO-basierten Auswertungen übertrifft DeepRare deutlich 15 andere Methoden, wie traditionelle bioinformatische Diagnosetools, LLMs und andere agentenbasierte Systeme, mit einem durchschnittlichen Recall@1-Wert von 57,18 % und übertrifft die zweitbeste Methode (Reasoning LLM) mit einem deutlichen Vorsprung von 23,79 Prozentpunkten. Für multimodale Eingabeszenarien erreicht DeepRare 70,60 % bei Recall@1 im Vergleich zu Exomisers 53,20 % in 109 Fällen. Die manuelle Überprüfung der Begründungsketten durch klinische Experten ergibt eine Übereinstimmungsrate von 95,40 %. Darüber hinaus wurde das DeepRare-System als benutzerfreundliche Webanwendung unter http://raredx.cn/doctor implementiert.
Wir beschreiben Generative Blocks World, um mit der Szene eines generierten Bildes durch die Manipulation einfacher geometrischer Abstraktionen zu interagieren. Unsere Methode stellt Szenen als Zusammensetzungen konvexer 3D-Primitive dar, und dieselbe Szene kann durch unterschiedliche Anzahlen von Primitiven repräsentiert werden, was es einem Editor ermöglicht, entweder ganze Strukturen oder kleine Details zu verschieben. Sobald die Szenengeometrie bearbeitet wurde, wird das Bild durch ein flussbasiertes Verfahren generiert, das auf Tiefe und einer Texturhinweisung basiert. Unser Texturhinweis berücksichtigt die modifizierten 3D-Primitive und übertrifft die Texturkonsistenz, die durch bestehende Key-Value-Caching-Techniken bereitgestellt wird. Diese Texturhinweise (a) ermöglichen präzise Objekt- und Kamerabewegungen und (b) bewahren weitgehend die Identität der dargestellten Objekte. Quantitative und qualitative Experimente zeigen, dass unser Ansatz frühere Arbeiten in Bezug auf visuelle Treue, Bearbeitbarkeit und kompositionelle Generalisierung übertrifft.
Das verteilte Training von Foundation-Modellen, insbesondere von großen Sprachmodellen (LLMs), erfordert ein hohes Maß an Kommunikation. Folglich ist es stark von einem zentralisierten Cluster mit schnellen und zuverlässigen Verbindungen abhängig. Können wir das Training auf langsamen Netzwerken durchführen und dadurch die Leistung dezentraler Cluster nutzen, wenn es um Modelle mit über 100 Milliarden Parametern geht? In diesem Artikel stellen wir DiLoCoX vor, ein Framework für das groß angelegte, dezentrale Clustertraining mit geringer Kommunikation. Es kombiniert Pipeline-Parallelismus mit einer Dual-Optimizer-Policy, der Ein-Schritt-Verzögerungs-Überlappung von Kommunikation und lokalem Training sowie einem adaptiven Gradientenkompressionsschema. Diese Kombination verbessert signifikant die Skalierbarkeit der Parameter und die Geschwindigkeit des Modell-Pre-Trainings. Wir begründen die Vorteile der Ein-Schritt-Verzögerungs-Überlappung von Kommunikation und lokalem Training sowie des adaptiven Gradientenkompressionsschemas durch eine theoretische Konvergenzanalyse. Empirisch zeigen wir, dass DiLoCoX in der Lage ist, ein 107B-Foundation-Modell über ein 1Gbps-Netzwerk zu pre-trainieren. Im Vergleich zu herkömmlichem AllReduce kann DiLoCoX eine 357-fache Beschleunigung des verteilten Trainings erreichen, während die Modellkonvergenz nur minimal beeinträchtigt wird. Nach unserem Wissen ist dies das erste dezentrale Trainingsframework, das erfolgreich auf Modelle mit über 100 Milliarden Parametern angewendet wurde.
Wir stellen MuseControlLite vor, einen leichtgewichtigen Mechanismus, der entwickelt wurde, um Text-zu-Musik-Generierungsmodelle für präzise Konditionierung mit verschiedenen zeitvariablen musikalischen Attributen und Referenz-Audiosignalen zu feinabstimmen. Die zentrale Erkenntnis ist, dass Positions-Einbettungen, die bisher selten in Text-zu-Musik-Generierungsmodellen für Textkonditionierungen verwendet wurden, entscheidend sind, wenn die interessierende Kondition eine Funktion der Zeit ist. Am Beispiel der Melodiekontrolle zeigen unsere Experimente, dass das einfache Hinzufügen von rotatorischen Positions-Einbettungen zu den entkoppelten Cross-Attention-Schichten die Kontrollgenauigkeit von 56,6 % auf 61,1 % erhöht, während 6,75-mal weniger trainierbare Parameter als bei modernsten Feinabstimmungsmechanismen benötigt werden, unter Verwendung des gleichen vortrainierten Diffusions-Transformer-Modells von Stable Audio Open. Wir evaluieren verschiedene Formen der musikalischen Attributkontrolle, Audio-Inpainting und Audio-Outpainting und demonstrieren eine verbesserte Steuerbarkeit im Vergleich zu MusicGen-Large und Stable Audio Open ControlNet bei deutlich geringeren Feinabstimmungskosten, mit nur 85M trainierbaren Parametern. Quellcode, Modell-Checkpoints und Demo-Beispiele sind verfügbar unter: https://musecontrollite.github.io/web/.
In diesem Artikel stellen wir DuaShepherd vor, ein neuartiges Framework für die Modellierung von Belohnungssignalen, das zwei komplementäre Belohnungssignale, Korrektheit und Potenzial, integriert, um die mathematischen Fähigkeiten von Large Language Models (LLMs) zu verbessern. Während korrektheitsbasierte Signale die Identifikation von schrittweisen Fehlern betonen, konzentrieren sich potenzialbasierte Signale auf die Wahrscheinlichkeit, die korrekte Endantwort zu erreichen. Wir entwickelten eine automatisierte Pipeline zur Erstellung eines groß angelegten Datensatzes für die Belohnungsmodellierung mit beiden Signalen. Eine einheitliche, Multi-Head-Architektur wurde untersucht, um die beiden Belohnungsmodelle in einem Multi-Task-Setup zu trainieren, wodurch die Vorteile des parallelen Lernens von Korrektheit und Potenzial demonstriert wurden. Durch die Kombination dieser beiden Signale in eine zusammengesetzte Wahrscheinlichkeit erzielt unser Modell konsistente Leistungsverbesserungen über mehrere Benchmarks hinweg. Empirische Auswertungen auf MATH500 und ProcessBench bestätigen, dass diese kombinierte Belohnung Modelle, die nur auf einem der beiden Belohnungstypen trainiert wurden, deutlich übertrifft und unter vergleichbaren Ressourcenbedingungen state-of-the-art Leistungen erzielt.
Heuristische Algorithmen spielen eine entscheidende Rolle bei der Lösung kombinatorischer Optimierungsprobleme (CO), doch traditionelle Entwürfe sind stark von manueller Expertise abhängig und haben Schwierigkeiten, sich über verschiedene Instanzen hinweg zu verallgemeinern. Wir stellen HeurAgenix vor, ein zweistufiges Hyper-Heuristik-Framework, das von großen Sprachmodellen (LLMs) angetrieben wird und zunächst Heuristiken entwickelt und dann automatisch unter ihnen auswählt. In der Phase der Heuristik-Entwicklung nutzt HeurAgenix ein LLM, um Ausgangslösungen von Heuristiken mit qualitativ hochwertigeren Lösungen zu vergleichen und wiederverwendbare Entwicklungsstrategien zu extrahieren. Während der Problemlösung wählt es dynamisch die vielversprechendste Heuristik für jeden Problemzustand aus, geleitet von der Wahrnehmungsfähigkeit des LLMs. Für Flexibilität kann dieser Selektor entweder ein modernes LLM oder ein feinabgestimmtes, leichtgewichtiges Modell mit geringeren Inferenzkosten sein. Um die Knappheit zuverlässiger Aufsicht aufgrund der Komplexität von CO zu mildern, feinabstimmen wir den leichtgewichtigen Heuristik-Selektor mit einem dualen Belohnungsmechanismus, der sowohl Signale aus Auswahlpräferenzen als auch Zustandswahrnehmung nutzt, was eine robuste Auswahl unter verrauschten Annotationen ermöglicht. Umfangreiche Experimente auf kanonischen Benchmarks zeigen, dass HeurAgenix nicht nur bestehende LLM-basierte Hyper-Heuristiken übertrifft, sondern auch spezialisierte Solver erreicht oder übertrifft. Der Code ist verfügbar unter https://github.com/microsoft/HeurAgenix.