papers.description
Wir präsentieren FlashWorld, ein generatives Modell, das 3D-Szenen aus einem einzelnen Bild oder Textprompt in Sekunden erzeugt, 10–100 Mal schneller als bisherige Arbeiten, bei gleichzeitig überlegener Renderqualität. Unser Ansatz weicht vom konventionellen Multi-View-orientierten (MV-orientierten) Paradigma ab, das Multi-View-Bilder für die anschließende 3D-Rekonstruktion generiert, und geht stattdessen zu einem 3D-orientierten Ansatz über, bei dem das Modell während der Multi-View-Generierung direkt 3D-Gaußsche Repräsentationen erzeugt. Während die 3D-Konsistenz gewährleistet wird, leidet die 3D-orientierte Methode typischerweise unter einer schlechten visuellen Qualität. FlashWorld umfasst eine dualmodale Vorausbildungsphase, gefolgt von einer cross-modalen Nachausbildungsphase, wodurch die Stärken beider Paradigmen effektiv integriert werden. Insbesondere nutzen wir das Vorwissen eines Video-Diffusionsmodells, um zunächst ein dualmodales Multi-View-Diffusionsmodell vorzutrainieren, das sowohl MV-orientierte als auch 3D-orientierte Generierungsmodi unterstützt. Um die Qualitätslücke bei der 3D-orientierten Generierung zu überbrücken, schlagen wir eine cross-modale Nachausbildungsdestillation vor, bei der die Verteilung vom konsistenten 3D-orientierten Modus auf den hochwertigen MV-orientierten Modus abgebildet wird. Dies verbessert nicht nur die visuelle Qualität bei Beibehaltung der 3D-Konsistenz, sondern reduziert auch die erforderlichen Denoising-Schritte für die Inferenz. Zudem schlagen wir eine Strategie vor, um während dieses Prozesses massenhaft Einzelbilder und Textprompts zu nutzen, um die Generalisierungsfähigkeit des Modells für Out-of-Distribution-Eingaben zu verbessern. Umfangreiche Experimente demonstrieren die Überlegenheit und Effizienz unserer Methode.
Jüngste Fortschritte in einheitlichen multimodalen Modellen deuten auf einen klaren Trend zur umfassenden Inhaltsgenerierung hin. Dennoch bleibt der auditive Bereich eine erhebliche Herausforderung, da Musik und Sprache oft isoliert entwickelt werden, was den Fortschritt in Richtung universeller Audiosynthese behindert. Diese Trennung resultiert aus inhärenten Aufgabenkonflikten und schwerwiegenden Datenungleichgewichten, die die Entwicklung eines wirklich einheitlichen Audio-Generierungsmodells erschweren. Um diese Herausforderung zu bewältigen, schlagen wir UniMoE-Audio vor, ein einheitliches Modell zur Generierung von Sprache und Musik innerhalb eines neuartigen Dynamic-Capacity Mixture-of-Experts (MoE)-Rahmens. Architektonisch führt UniMoE-Audio eine Top-P-Routing-Strategie für die dynamische Zuweisung von Expertenzahlen ein sowie ein hybrides Experten-Design, das geroutete Experten für domänenspezifisches Wissen, gemeinsame Experten für domänenübergreifende Merkmale und Null-Experten für adaptives Überspringen von Berechnungen umfasst. Um das Datenungleichgewicht zu bewältigen, führen wir ein dreistufiges Trainingscurriculum ein: 1) Unabhängiges Spezialistentraining nutzt die ursprünglichen Datensätze, um domänenspezifisches Wissen in jeden „Proto-Experten“ zu vermitteln, ohne dass es zu Interferenzen kommt; 2) MoE-Integration und -Aufwärmen integriert diese Spezialisten in die UniMoE-Audio-Architektur und wärmt das Gate-Modul und den gemeinsamen Experten mit einem Teil des ausgeglichenen Datensatzes auf; und 3) Synergetisches gemeinsames Training trainiert das gesamte Modell end-to-end auf dem vollständig ausgeglichenen Datensatz, wodurch eine verbesserte domänenübergreifende Synergie gefördert wird. Umfangreiche Experimente zeigen, dass UniMoE-Audio nicht nur state-of-the-art-Leistungen bei wichtigen Benchmarks zur Sprach- und Musikerzeugung erzielt, sondern auch ein überlegenes synergetisches Lernen demonstriert, das die Leistungsverschlechterung, die typischerweise bei naivem gemeinsamen Training auftritt, mildert. Unsere Ergebnisse unterstreichen das erhebliche Potenzial spezialisierter MoE-Architekturen und sorgfältig abgestimmter Trainingsstrategien für den Fortschritt im Bereich der universellen Audio-Generierung. Homepage: https://mukioxun.github.io/Uni-MoE-site/home.html
Das Denkmuster von Large Language Models (LLMs) bleibt undurchsichtig, und Reinforcement Learning (RL) wendet typischerweise einheitliche Bewertung über eine gesamte Generation hinweg an, wodurch die Unterscheidung zwischen entscheidenden und routinemäßigen Schritten verwischt wird. Diese Arbeit positioniert Aufmerksamkeit als privilegiertes Substrat, das die interne Logik von LLMs verständlich macht, nicht nur als Nebenprodukt der Berechnung, sondern als mechanistische Blaupause des Denkens selbst. Zunächst unterscheiden wir zwischen lokal und global fokussierten Aufmerksamkeitsköpfen in der Informationsverarbeitung und zeigen, dass lokal fokussierte Köpfe ein Sägezahnmuster nahe der Diagonalen erzeugen, das phrasale Chunks anzeigt, während global fokussierte Köpfe Tokens offenlegen, die einen breiten nachgelagerten Einfluss auf zukünftige Tokens ausüben. Wir formalisieren dies mit zwei Metriken: 1) Windowed Average Attention Distance, die das Ausmaß der rückwärtsgerichteten Aufmerksamkeit innerhalb eines begrenzten Fensters misst; 2) Future Attention Influence, die die globale Bedeutung eines Tokens als die durchschnittliche Aufmerksamkeit quantifiziert, die es von nachfolgenden Tokens erhält. Zusammengenommen offenbaren diese Signale einen wiederkehrenden Mechanismus des Vorplanens und Verankerns, bei dem das Modell zunächst eine langreichweitige kontextuelle Referenz durchführt, um ein einleitendes Token zu generieren, dem unmittelbar oder gleichzeitig ein semantisches Anker-Token folgt, das das nachfolgende Denken organisiert. Indem wir diese Erkenntnisse nutzen, führen wir drei neuartige RL-Strategien ein, die gezielte Bewertungszuweisungen an kritische Knoten (Vorplan-Tokens, Anker-Tokens und ihre zeitliche Kopplung) dynamisch durchführen und zeigen konsistente Leistungssteigerungen über verschiedene Denkaufgaben hinweg. Durch die Ausrichtung der Optimierung an der intrinsischen Denkrhythmik des Modells streben wir an, undurchsichtige Optimierung in einen handlungsorientierten, strukturbewussten Prozess zu transformieren, in der Hoffnung, einen potenziellen Schritt hin zu einer transparenteren und effektiveren Optimierung des LLM-Denkens zu bieten.
Vollständig offene multimodale große Sprachmodelle (MLLMs) liegen derzeit hinter proprietären Gegenstücken zurück, hauptsächlich aufgrund einer erheblichen Lücke in der Datenqualität für das überwachte Feinabstimmen (SFT). Bestehende Open-Source-Datensätze sind oft von weit verbreitetem Rauschen und einem kritischen Mangel an komplexen Denkdaten, wie Chain-of-Thought (CoT), betroffen, was die Entwicklung fortgeschrittener Modellfähigkeiten behindert. Um diese Herausforderungen zu bewältigen, leistet unsere Arbeit drei primäre Beiträge. Erstens führen wir Honey-Data-15M ein, einen neuen SFT-Datensatz, der etwa 15 Millionen Frage-Antwort-Paare umfasst, die durch mehrere Reinigungstechniken verarbeitet und mit einer neuartigen Dual-Level (kurz und lang) CoT-Anreicherungsstrategie verbessert wurden. Zweitens stellen wir HoneyPipe, die Datenkuratierungspipeline, und ihr zugrunde liegendes Framework DataStudio vor, das der Gemeinschaft eine transparente und anpassbare Methodik für die Datenkuratierung bietet, die über statische Datensatzveröffentlichungen hinausgeht. Schließlich trainieren wir, um unseren Datensatz und unsere Pipeline zu validieren, Bee-8B, ein 8B-Modell auf Honey-Data-15M. Experimente zeigen, dass Bee-8B einen neuen Stand der Technik (SOTA) für vollständig offene MLLMs etabliert und eine Leistung erzielt, die mit neueren semi-offenen Modellen wie InternVL3.5-8B wettbewerbsfähig ist und diese in einigen Fällen sogar übertrifft. Unsere Arbeit liefert der Gemeinschaft eine Reihe von grundlegenden Ressourcen, darunter: das Honey-Data-15M-Korpus; das Full-Stack-Suite bestehend aus HoneyPipe und DataStudio; Trainingsrezepte; ein Evaluationsharness; und die Modellgewichte. Diese Bemühungen zeigen, dass ein prinzipieller Fokus auf Datenqualität ein entscheidender Weg zur Entwicklung vollständig offener MLLMs ist, die mit ihren semi-offenen Gegenstücken hochgradig wettbewerbsfähig sind.
Visual-Language-Action (VLA)-Modelle verzeichnen beeindruckende Erfolgsquoten in Benchmarks für robotergestützte Manipulation, doch diese Ergebnisse könnten grundlegende Schwächen in der Robustheit verdecken. Wir führen eine systematische Schwachstellenanalyse durch, indem wir kontrollierte Störungen in sieben Dimensionen einführen: Objektanordnung, Kameraperspektiven, Ausgangszustände des Roboters, Sprachinstruktionen, Lichtverhältnisse, Hintergrundtexturen und Sensorrauschen. Wir analysierten umfassend mehrere state-of-the-art Modelle und deckten eine konsistente Anfälligkeit unter der scheinbaren Kompetenz auf. Unsere Analyse zeigt kritische Schwächen auf: Die Modelle weisen eine extreme Empfindlichkeit gegenüber Störfaktoren auf, einschließlich Kameraperspektiven und Ausgangszuständen des Roboters, wobei die Leistung bei moderaten Störungen von 95 % auf unter 30 % sinkt. Überraschenderweise sind die Modelle weitgehend unempfindlich gegenüber Sprachvariationen, und weitere Experimente zeigen, dass die Modelle dazu neigen, Sprachinstruktionen vollständig zu ignorieren. Unsere Ergebnisse stellen die Annahme infrage, dass hohe Benchmark-Ergebnisse mit echter Kompetenz gleichzusetzen sind, und unterstreichen die Notwendigkeit von Bewertungspraktiken, die die Zuverlässigkeit unter realistischen Variationen überprüfen.
Videogenerierungsmodelle sind heutzutage in der Lage, visuell realistische Videos zu erzeugen, scheitern jedoch oft daran, physikalische Gesetze einzuhalten, was ihre Fähigkeit einschränkt, physikalisch plausible Videos zu generieren und als „Weltmodelle“ zu dienen. Um dieses Problem zu lösen, schlagen wir PhysMaster vor, das physikalisches Wissen als Repräsentation erfasst, um Videogenerierungsmodelle bei der Steigerung ihres Physikbewusstseins zu leiten. Konkret basiert PhysMaster auf der Aufgabe der Bild-zu-Video-Generierung, bei der das Modell physikalisch plausible Dynamiken aus dem Eingabebild vorhersagen soll. Da das Eingabebild physikalische Prioritäten wie relative Positionen und potenzielle Interaktionen von Objekten im Szenario liefert, entwickeln wir PhysEncoder, um physikalische Informationen daraus als zusätzliche Bedingung zu kodieren und physikalisches Wissen in den Videogenerierungsprozess einzubringen. Der Mangel an geeigneter Überwachung der physikalischen Leistung des Modells über das bloße Erscheinungsbild hinaus motiviert PhysEncoder, Reinforcement Learning mit menschlichem Feedback auf das Lernen physikalischer Repräsentationen anzuwenden, wobei Feedback von Generierungsmodellen genutzt wird, um physikalische Repräsentationen mit Direct Preference Optimization (DPO) end-to-end zu optimieren. PhysMaster bietet eine praktikable Lösung zur Verbesserung des Physikbewusstseins von PhysEncoder und damit der Videogenerierung, was seine Fähigkeit bei einer einfachen Stellvertreteraufgabe und die Generalisierbarkeit auf breite physikalische Szenarien beweist. Dies impliziert, dass unser PhysMaster, das Lösungen für verschiedene physikalische Prozesse durch Repräsentationslernen im Reinforcement-Learning-Paradigma vereint, als generische und plug-in-fähige Lösung für physikbewusste Videogenerierung und weitere Anwendungen dienen kann.
Eine effektive raumzeitliche Darstellung ist grundlegend für die Modellierung, das Verständnis und die Vorhersage von Dynamiken in Videos. Die atomare Einheit eines Videos, das Pixel, verfolgt eine kontinuierliche 3D-Trajektorie über die Zeit und dient als primitives Element der Dynamik. Basierend auf diesem Prinzip schlagen wir vor, jedes Video als ein Trajektorienfeld darzustellen: eine dichte Abbildung, die jedem Pixel in jedem Frame eine kontinuierliche 3D-Trajektorienfunktion der Zeit zuordnet. Mit dieser Darstellung führen wir Trace Anything ein, ein neuronales Netzwerk, das das gesamte Trajektorienfeld in einem einzigen Vorwärtsdurchlauf vorhersagt. Konkret sagt unser Modell für jedes Pixel in jedem Frame eine Menge von Kontrollpunkten voraus, die eine Trajektorie (d. h. eine B-Spline) parametrisieren und dessen 3D-Position zu beliebigen Abfragezeitpunkten liefern. Wir haben das Trace-Anything-Modell auf groß angelegten 4D-Daten trainiert, einschließlich Daten von unserer neuen Plattform, und unsere Experimente zeigen, dass: (i) Trace Anything state-of-the-art Leistung auf unserem neuen Benchmark für die Trajektorienfeldschätzung erreicht und auf etablierten Punktverfolgungs-Benchmarks wettbewerbsfähig abschneidet; (ii) es erhebliche Effizienzgewinne dank seines Ein-Durchlauf-Paradigmas bietet, ohne iterative Optimierung oder zusätzliche Schätzer zu erfordern; und (iii) es emergente Fähigkeiten aufweist, einschließlich zielgerichteter Manipulation, Bewegungsvorhersage und raumzeitlicher Fusion. Projektseite: https://trace-anything.github.io/.
Wir stellen InteractiveOmni vor, ein einheitliches und quelloffenes omni-modales großes Sprachmodell für audio-visuelle Mehrfachinteraktionen, das von 4B bis 8B Parameter umfasst und darauf abzielt, das Feld der leichtgewichtigen Modelle durch umfassende omni-modale Verständnis- und Sprachgenerierungsfähigkeiten zu führen. Um dies zu erreichen, integrieren wir den Vision-Encoder, den Audio-Encoder, das große Sprachmodell und den Sprach-Decoder in ein einheitliches Modell für Verständnis- und Generierungsaufgaben. Wir entwickeln eine mehrstufige Trainingsstrategie, um robuste cross-modale Fähigkeiten sicherzustellen, einschließlich eines Pre-Trainings für omni-modales Verständnis, gefolgt von einem Post-Training mit Sprachkonversation und audio-visueller Interaktion. Um eine menschenähnliche Langzeit-Konversationsfähigkeit zu ermöglichen, kuratieren wir sorgfältig einen Mehrfach-Turn-Trainingsdatensatz, der die Fähigkeit des Modells verbessert, komplexe und mehrfache Interaktionen zu bewältigen. Um die Mehrfach-Turn-Gedächtnis- und Sprachinteraktionsfähigkeiten effektiv zu bewerten, konstruieren wir den multimodalen Mehrfach-Turn-Gedächtnis-Benchmark und den Mehrfach-Turn-Sprachinteraktions-Benchmark. Experimente zeigen, dass InteractiveOmni führende quelloffene Modelle deutlich übertrifft und ein intelligenteres Mehrfach-Turn-Audio-Visual-Erlebnis bietet, insbesondere in seinen Langzeitgedächtnisfähigkeiten. Bemerkenswerterweise ist InteractiveOmni-4B auf allgemeinen Benchmarks mit einem viel größeren Modell wie Qwen2.5-Omni-7B vergleichbar und kann 97 % der Leistung von InteractiveOmni-8B beibehalten, während es nur 50 % der Modellgröße nutzt. Mit state-of-the-art Ergebnissen bei ähnlich großen Modellen in den Bereichen Bild-, Audio-, Video-Verständnis und Sprachgenerierung ist InteractiveOmni eine zugängliche, quelloffene Grundlage für die nächste Generation intelligenter interaktiver Systeme.
Reinforcement Learning (RL) hat eine zentrale Rolle beim Training großer Sprachmodelle (LLMs) eingenommen, doch es mangelt an prädiktiven Skalierungsmethoden, die mit denen für das Pre-Training vergleichbar sind. Trotz rapide steigender Rechenbudgets gibt es kein fundiertes Verständnis dafür, wie algorithmische Verbesserungen für die Skalierung von RL-Rechenleistung bewertet werden können. Wir präsentieren die erste groß angelegte systematische Studie, die mehr als 400.000 GPU-Stunden umfasst und einen prinzipiellen Rahmen zur Analyse und Vorhersage der RL-Skalierung in LLMs definiert. Wir passen sigmoidale Rechenleistungs-Kurven für das RL-Training an und untersuchen eine breite Palette gängiger Designentscheidungen, um deren Auswirkungen auf die asymptotische Leistung und die Recheneffizienz zu analysieren. Wir beobachten: (1) Nicht alle Ansätze führen zu ähnlicher asymptotischer Leistung, (2) Details wie die Aggregation von Verlusten, Normalisierung, Curriculum und Off-Policy-Algorithmen beeinflussen hauptsächlich die Recheneffizienz, ohne die Asymptote wesentlich zu verschieben, und (3) Stabile, skalierbare Ansätze folgen vorhersagbaren Skalierungspfaden, was eine Extrapolation aus kleineren Durchläufen ermöglicht. Basierend auf diesen Erkenntnissen schlagen wir einen Best-Practice-Ansatz, ScaleRL, vor und demonstrieren dessen Wirksamkeit durch die erfolgreiche Skalierung und Vorhersage der Validierungsleistung in einem einzigen RL-Durchlauf, der auf 100.000 GPU-Stunden skaliert wurde. Unsere Arbeit bietet sowohl einen wissenschaftlichen Rahmen zur Analyse der Skalierung in RL als auch einen praktischen Ansatz, der das RL-Training näher an die Vorhersagbarkeit heranführt, die im Pre-Training seit langem erreicht wird.
Während die meisten autoregressiven LLMs (Large Language Models) auf eine sequenzielle Dekodierung beschränkt sind, haben Diffusions-LLMs (dLLMs) aufgrund ihres Potenzials, die Inferenz durch parallele Dekodierung erheblich zu beschleunigen, zunehmendes Interesse geweckt. Trotz dieses Versprechens führt die Annahme der bedingten Unabhängigkeit in dLLMs dazu, dass die parallele Dekodierung Token-Abhängigkeiten ignoriert, was unweigerlich die Generierungsqualität beeinträchtigt, wenn diese Abhängigkeiten stark ausgeprägt sind. Bisherige Arbeiten haben diese inhärenten Herausforderungen jedoch weitgehend übersehen, und Bewertungen auf Standard-Benchmarks (z. B. für Mathematik und Programmierung) reichen nicht aus, um die Qualitätsminderung durch parallele Dekodierung zu erfassen. Um diese Lücke zu schließen, bieten wir zunächst eine informationstheoretische Analyse der parallelen Dekodierung. Anschließend führen wir Fallstudien zu analytisch handhabbaren synthetischen Listenoperationen durch, sowohl aus der Perspektive der Datenverteilung als auch der Dekodierungsstrategie, und liefern quantitative Einblicke, die die grundlegenden Grenzen der parallelen Dekodierung aufzeigen. Aufbauend auf diesen Erkenntnissen schlagen wir ParallelBench vor, den ersten speziell für dLLMs entwickelten Benchmark, der realistische Aufgaben umfasst, die für Menschen und autoregressive LLMs trivial, für dLLMs unter paralleler Dekodierung jedoch außerordentlich herausfordernd sind. Mit ParallelBench analysieren wir systematisch sowohl dLLMs als auch autoregressive LLMs und zeigen, dass: (i) dLLMs unter paralleler Dekodierung in realen Szenarien erhebliche Qualitätseinbußen erleiden können und (ii) aktuelle parallele Dekodierungsstrategien Schwierigkeiten haben, ihren Grad der Parallelität an die Aufgabenkomplexität anzupassen, wodurch sie keine sinnvolle Beschleunigung ohne Qualitätseinbußen erreichen. Unsere Ergebnisse unterstreichen den dringenden Bedarf an innovativen Dekodierungsmethoden, die den aktuellen Kompromiss zwischen Geschwindigkeit und Qualität überwinden können. Wir veröffentlichen unseren Benchmark, um die Entwicklung wirklich effizienter dLLMs zu beschleunigen.
Multi-Agent-Systeme (MAS) und Reinforcement Learning (RL) werden häufig eingesetzt, um die agentenbasierten Fähigkeiten großer Sprachmodelle (LLMs) zu verbessern. MAS steigert die Aufgabenleistung durch rollenbasierte Orchestrierung, während RL Umweltbelohnungen nutzt, um stärkere Strategien zu erlernen, wie beispielsweise GRPO-ähnliche Optimierung. Die Anwendung von On-Policy-RL auf MAS bleibt jedoch weitgehend unerforscht und birgt einzigartige Herausforderungen. Algorithmisch brechen die Standard-GRPO-Gruppierungsannahmen zusammen, da Eingabeaufforderungen je nach Rolle und Zug variieren. Systemseitig muss der Trainingsstack MAS-Workflow-Rollouts und On-Policy-Updates sowohl für Einzelstrategie- als auch für Mehrstrategiemodelle unterstützen. Wir schlagen AT-GRPO vor, das (i) einen agenten- und zugweise gruppierten RL-Algorithmus, der auf MAS zugeschnitten ist, sowie (ii) ein Trainingssystem, das sowohl Einzel- als auch Mehrstrategie-Regime unterstützt, umfasst. Über Spiel-, Planungs-, Programmier- und Mathematikaufgaben hinweg erzielt AT-GRPO erhebliche Verbesserungen. Bei langfristiger Planung steigert es die Genauigkeit von einem 14,0- bis 47,0-Prozent-Baseline für Single-Agent-RL auf 96,0 bis 99,5 Prozent. Es verbessert auch die logische Leistung mit durchschnittlichen Steigerungen von 3,87 bis 7,62 Prozent bei Programmieraufgaben und 9,0 bis 17,93 Prozent bei Mathematik. Code und Umgebungen sind verfügbar unter: https://github.com/pettingllms-ai/PettingLLMs.
Wir stellen Generative Universal Verifier vor, ein neuartiges Konzept und Plugin, das für die nächste Generation multimodaler Reasoning in Vision-Language-Modellen und vereinheitlichten multimodalen Modellen entwickelt wurde. Es bietet die grundlegende Fähigkeit zur Reflexion und Verfeinerung visueller Ergebnisse während des Reasoning- und Generierungsprozesses. Diese Arbeit leistet drei Hauptbeiträge: (1) Wir entwickeln ViVerBench, einen umfassenden Benchmark, der 16 Kategorien kritischer Aufgaben zur Bewertung visueller Ergebnisse im multimodalen Reasoning abdeckt. Die Ergebnisse zeigen, dass bestehende VLMs durchweg in diesen Aufgaben unterperformen, was eine erhebliche Lücke zur menschlichen Fähigkeit in der zuverlässigen visuellen Verifikation aufzeigt. (2) Wir entwerfen zwei automatisierte Pipelines zur Konstruktion groß angelegter visueller Verifikationsdaten und trainieren OmniVerifier-7B, den ersten omni-fähigen generativen Verifikator, der für universelle visuelle Verifikation trainiert wurde und bemerkenswerte Verbesserungen auf ViVerBench (+8,3) erzielt. Durch das Training identifizieren wir drei atomare Fähigkeiten in der visuellen Verifikation und demonstrieren, wie sie sich verallgemeinern und synergetisch interagieren. (3) Wir schlagen OmniVerifier-TTS vor, ein sequenzielles Test-Time-Scaling-Paradigma, das den universellen Verifikator nutzt, um Bildgenerierung und -bearbeitung innerhalb vereinheitlichter Modelle zu verbinden und die Obergrenze der generativen Fähigkeit durch iterative fein abgestimmte Optimierung zu erhöhen. Über die Generierung hinaus erweitern wir den universellen Verifikator auf breitere Szenarien der verschachtelten Weltmodellierung. Empirisch erzielt OmniVerifier-TTS Verbesserungen auf T2I-ReasonBench (+3,7) und GenEval++ (+4,3) und übertrifft bestehende parallele Test-Time-Scaling-Methoden wie Best-of-N. Durch die Ausstattung des multimodalen Reasoning mit zuverlässiger visueller Verifikation fördert OmniVerifier sowohl die zuverlässige Reflexion während der Generierung als auch die skalierbare Test-Time-Verfeinerung und markiert einen Schritt hin zu vertrauenswürdigeren und kontrollierbaren Reasoning-Systemen der nächsten Generation.
Generative Modelle wurden weitreichend in der Weltmodellierung für Umgebungssimulationen und zukünftige Zustandsprognosen eingesetzt. Mit den Fortschritten im autonomen Fahren besteht eine wachsende Nachfrage nicht nur nach hochauflösender Videogenerierung unter verschiedenen Steuerungen, sondern auch nach der Erzeugung vielfältiger und aussagekräftiger Informationen wie Tiefenschätzungen. Um dies zu adressieren, schlagen wir CVD-STORM vor, ein Cross-View-Video-Diffusionsmodell, das einen räumlich-zeitlichen Rekonstruktions-Variational Autoencoder (VAE) nutzt, um langfristige, multiview-Videos mit 4D-Rekonstruktionsfähigkeiten unter verschiedenen Steuereingaben zu generieren. Unser Ansatz feintuned zunächst den VAE mit einer zusätzlichen 4D-Rekonstruktionsaufgabe, wodurch dessen Fähigkeit zur Kodierung von 3D-Strukturen und zeitlichen Dynamiken verbessert wird. Anschließend integrieren wir diesen VAE in den Videodiffusionsprozess, um die Generierungsqualität signifikant zu steigern. Experimentelle Ergebnisse zeigen, dass unser Modell erhebliche Verbesserungen in den Metriken FID und FVD erzielt. Zudem rekonstruiert der gemeinsam trainierte Gaussian Splatting Decoder effektiv dynamische Szenen und liefert wertvolle geometrische Informationen für ein umfassendes Szenenverständnis.
Wir stellen InternVLA-M1 vor, ein einheitliches Framework für räumliche Verankerung und Robotersteuerung, das befehlsfolgende Roboter in Richtung skalierbarer, allgemeiner Intelligenz vorantreibt. Der Kernansatz besteht in einem räumlich geleiteten Vision-Sprache-Aktion-Training, bei dem die räumliche Verankerung als kritische Verbindung zwischen Anweisungen und Roboteraktionen dient. InternVLA-M1 verwendet eine zweistufige Pipeline: (i) räumliche Verankerungs-Vortraining auf über 2,3 Millionen räumlichen Schlussfolgerungsdaten, um zu bestimmen, „wo gehandelt werden soll“, indem Anweisungen mit visuellen, verkörperungsunabhängigen Positionen abgeglichen werden, und (ii) räumlich geleitetes Aktionstraining, um zu entscheiden, „wie gehandelt werden soll“, indem verkörperungsbewusste Aktionen durch Plug-and-Play räumliche Prompting generiert werden. Dieses räumlich geleitete Trainingsrezept führt zu konsistenten Verbesserungen: InternVLA-M1 übertrifft seine Variante ohne räumliche Führung um +14,6 % auf SimplerEnv Google Robot, +17 % auf WidowX und +4,3 % auf LIBERO Franka, während es eine stärkere räumliche Schlussfolgerungsfähigkeit bei Box-, Punkt- und Spurvorhersagen zeigt. Um die Befehlsfolge weiter zu skalieren, haben wir eine Simulationsengine entwickelt, um 244.000 generalisierbare Pick-and-Place-Episoden zu sammeln, was eine durchschnittliche Verbesserung von 6,2 % über 200 Aufgaben und 3.000+ Objekte ermöglicht. Bei realen, gruppierten Pick-and-Place-Aufgaben verbesserte sich InternVLA-M1 um 7,3 %, und mit synthetischem Co-Training erreichte es +20,6 % bei unbekannten Objekten und neuen Konfigurationen. Darüber hinaus übertraf es in langfristigen, schlussfolgerungsintensiven Szenarien bestehende Arbeiten um über 10 %. Diese Ergebnisse unterstreichen das räumlich geleitete Training als ein vereinheitlichendes Prinzip für skalierbare und widerstandsfähige Generalisten-Roboter. Code und Modelle sind verfügbar unter https://github.com/InternRobotics/InternVLA-M1.
Spitzenforschung im Bereich der Künstlichen Intelligenz (KI) erfordert erhebliche Ressourcen, darunter Grafikprozessoren (GPUs), Daten und personelle Kapazitäten. In dieser Arbeit untersuchen wir den Zusammenhang zwischen diesen Ressourcen und dem wissenschaftlichen Fortschritt bei Foundation-Modellen (FM). Wir analysierten 6517 FM-Publikationen, die zwischen 2022 und 2024 veröffentlicht wurden, und befragten 229 Erstautoren zu den Auswirkungen von Rechenressourcen auf die wissenschaftliche Produktivität. Unsere Ergebnisse zeigen, dass ein erhöhter Rechenaufwand mit nationalen Fördermitteln und Zitationen korreliert, jedoch keine starken Zusammenhänge mit dem Forschungsumfeld (akademisch oder industriell), dem Fachgebiet oder der Studienmethodik festgestellt werden konnten. Wir empfehlen Einzelpersonen und Institutionen, sich auf die Schaffung gemeinsamer und erschwinglicher Rechenmöglichkeiten zu konzentrieren, um die Einstiegshürden für unterfinanzierte Forscher zu senken. Diese Maßnahmen können die Beteiligung an der FM-Forschung erweitern, die Vielfalt der Ideen und Mitwirkenden fördern sowie Innovation und Fortschritt in der KI nachhaltig unterstützen. Die Daten sind verfügbar unter: https://mit-calc.csail.mit.edu/
In diesem Artikel behaupten wir, dass 3D-Visual Grounding der Grundstein für räumliches Denken ist und stellen den Grounded-Spatial Reasoner (GS-Reasoner) vor, um effektive räumliche Repräsentationen zu erforschen, die die Lücke zwischen ihnen schließen. Bestehende 3D-LLMs leiden unter dem Fehlen einer einheitlichen 3D-Repräsentation, die sowohl semantische als auch geometrische Informationen gemeinsam erfassen kann. Dieser Mangel zeigt sich entweder in schlechter Leistung beim Grounding oder in einer übermäßigen Abhängigkeit von externen Modulen, was letztendlich die nahtlose Integration von Grounding und räumlichem Denken behindert. Um dies zu beheben, schlagen wir einen einfachen, aber effektiven Dual-Path-Pooling-Mechanismus vor, der geometrische Merkmale eng mit semantischen und positionsbezogenen Hinweisen abstimmt und so eine einheitliche, auf Bildpatches basierende 3D-Repräsentation konstruiert, die alle wesentlichen Informationen erfasst, ohne die Anzahl der Eingabe-Token zu erhöhen. Durch die Nutzung dieser ganzheitlichen Repräsentation ist GS-Reasoner das erste 3D-LLM, das autoregressives Grounding vollständig ohne externe Module erreicht und dabei eine Leistung erzielt, die mit state-of-the-art Modellen vergleichbar ist, wodurch ein einheitliches und eigenständiges Framework für 3D-räumliches Denken etabliert wird. Um Grounding und räumliches Denken weiter zu verbinden, führen wir den Grounded Chain-of-Thought (GCoT)-Datensatz ein. Dieser Datensatz wurde sorgfältig kuratiert, um sowohl 3D-Bounding-Box-Annotationen für Objekte, die in den Denkfragen referenziert werden, als auch schrittweise Denkpfade zu enthalten, die Grounding als Kernkomponente des Problemlösungsprozesses integrieren. Umfangreiche Experimente zeigen, dass GS-Reasoner beeindruckende Ergebnisse beim 3D-Visual Grounding erzielt, was wiederum seine Fähigkeiten im räumlichen Denken signifikant verbessert und zu state-of-the-art Leistungen führt.
Erfolgreiche generalistische Vision-Language-Action (VLA)-Modelle basieren auf effektivem Training über diverse robotische Plattformen hinweg mit groß angelegten, cross-embodiment, heterogenen Datensätzen. Um die Heterogenität in reichhaltigen, vielfältigen robotischen Datenquellen zu nutzen und zu fördern, schlagen wir einen neuartigen Soft-Prompt-Ansatz mit minimal zusätzlichen Parametern vor, indem wir Prompt-Learning-Konzepte in das cross-embodiment Robotik-Lernen integrieren und separate Sätze lernbarer Embeddings für jede spezifische Datenquelle einführen. Diese Embeddings dienen als embodiment-spezifische Prompts, die gemeinsam VLA-Modelle befähigen, die unterschiedlichen cross-embodiment Merkmale effektiv zu nutzen. Unser neues X-VLA, eine elegante, auf Flow-Matching basierende VLA-Architektur, stützt sich ausschließlich auf soft-geprompte Standard-Transformer-Encoder und vereint Skalierbarkeit und Einfachheit. Evaluiert über 6 Simulationen sowie 3 realen Robotern, erreicht unsere 0,9B-Instanziierung – X-VLA-0.9B – gleichzeitig Spitzenleistungen über eine Reihe von Benchmarks und demonstriert überlegene Ergebnisse auf einer breiten Palette von Fähigkeiten, von flexibler Geschicklichkeit bis hin zu schneller Anpassung über Embodiments, Umgebungen und Aufgaben hinweg. Website: https://thu-air-dream.github.io/X-VLA/
Universelle multimodale Einbettungsmodelle sind grundlegend für verschiedene Aufgaben. Bestehende Ansätze verwenden typischerweise In-Batch-Negative-Mining durch die Messung der Ähnlichkeit von Anfrage-Kandidat-Paaren. Diese Methoden haben jedoch oft Schwierigkeiten, subtile semantische Unterschiede zwischen den Kandidaten zu erfassen, und weisen eine mangelnde Diversität in den negativen Stichproben auf. Darüber hinaus zeigen die Einbettungen eine begrenzte Fähigkeit, falsche und schwierige Negative zu unterscheiden. In diesem Artikel nutzen wir die fortgeschrittenen Verständnisfähigkeiten von MLLMs, um das Repräsentationslernen zu verbessern, und präsentieren ein neuartiges Universal Multimodal Embedding (UniME-V2) Modell. Unser Ansatz konstruiert zunächst einen potenziellen Satz schwieriger Negative durch globale Retrieval. Anschließend führen wir den MLLM-as-a-Judge-Mechanismus ein, der MLLMs nutzt, um die semantische Ausrichtung von Anfrage-Kandidat-Paaren zu bewerten und weiche semantische Übereinstimmungswerte zu generieren. Diese Werte dienen als Grundlage für das Mining schwieriger Negative, mildern die Auswirkungen falscher Negative und ermöglichen die Identifizierung diverser, hochwertiger schwieriger Negative. Darüber hinaus werden die semantischen Übereinstimmungswerte als weiche Labels verwendet, um die starre Eins-zu-eins-Zuordnungsbeschränkung zu mildern. Durch die Ausrichtung der Ähnlichkeitsmatrix an der Matrix der weichen semantischen Übereinstimmungswerte lernt das Modell semantische Unterscheidungen zwischen den Kandidaten, was seine diskriminative Fähigkeit erheblich verbessert. Um die Leistung weiter zu steigern, schlagen wir UniME-V2-Reranker vor, ein Reranking-Modell, das auf unseren geminten schwierigen Negativen durch einen gemeinsamen paarweisen und listenweisen Optimierungsansatz trainiert wird. Wir führen umfassende Experimente auf dem MMEB-Benchmark und mehreren Retrieval-Aufgaben durch und zeigen, dass unsere Methode durchschnittlich in allen Aufgaben state-of-the-art Leistung erzielt.
Diese Studie stellt eine Methode zur Maskierten Degradationsklassifikations-Vorausbildung (MaskDCPT) vor, die entwickelt wurde, um die Klassifikation von Degradationstypen in Eingabebildern zu erleichtern und somit eine umfassende Vorausbildung für die Bildrestauration zu ermöglichen. Im Gegensatz zu herkömmlichen Vorausbildungsmethoden nutzt MaskDCPT den Degradationstyp des Bildes als äußerst schwache Supervision, während gleichzeitig die Bildrekonstruktion zur Steigerung der Leistung und Robustheit genutzt wird. MaskDCPT besteht aus einem Encoder und zwei Decodern: Der Encoder extrahiert Merkmale aus dem maskierten, qualitativ minderwertigen Eingabebild. Der Klassifikations-Decoder verwendet diese Merkmale, um den Degradationstyp zu identifizieren, während der Rekonstruktions-Decoder darauf abzielt, ein entsprechendes hochwertiges Bild zu rekonstruieren. Dieser Aufbau ermöglicht es der Vorausbildung, sowohl von der maskierten Bildmodellierung als auch vom kontrastiven Lernen zu profitieren, was zu einer generalisierten Darstellung führt, die für Restaurationsaufgaben geeignet ist. Dank der einfachen, aber effektiven MaskDCPT kann der vorausgebildete Encoder für universelle Bildrestauration eingesetzt werden und hervorragende Leistungen erzielen. Die Implementierung von MaskDCPT verbessert die Leistung sowohl von Convolutional Neural Networks (CNNs) als auch von Transformern erheblich, mit einer minimalen Steigerung des PSNR um 3,77 dB bei der 5D All-in-One-Restaurationsaufgabe und einer Reduktion des PIQE um 34,8 % im Vergleich zur Baseline in realen Degradationsszenarien. Es zeigt auch eine starke Generalisierungsfähigkeit gegenüber zuvor unbekannten Degradationstypen und -stufen. Zusätzlich haben wir den UIR-2.5M-Datensatz kuratiert und veröffentlicht, der 2,5 Millionen gepaarte Restaurationsbeispiele über 19 Degradationstypen und mehr als 200 Degradationsstufen umfasst und sowohl synthetische als auch reale Daten enthält. Der Datensatz, der Quellcode und die Modelle sind unter https://github.com/MILab-PKU/MaskDCPT verfügbar.
Durch den Einsatz großer Sprachmodelle (LLMs) zur Dokumentenrecherche und Generierung natürlicher Sprachantworten bieten Generative Engines wie Google AI Overview und ChatGPT deutlich verbesserte Benutzererlebnisse und haben sich schnell zu einer neuen Form der Suche entwickelt. Ihre rasche Verbreitung treibt auch den Bedarf an Generative Engine Optimization (GEO) voran, da Inhaltsanbieter bestrebt sind, mehr Aufmerksamkeit durch sie zu erzielen. In diesem Artikel stellen wir AutoGEO vor, ein Framework, das automatisch die Präferenzen von Generativen Engines lernt, wenn diese abgerufene Inhalte zur Antwortgenerierung verwenden, und Webinhalte umschreibt, um mehr solcher Aufmerksamkeit zu erzielen. AutoGEO fordert zunächst fortschrittliche LLMs auf, die Präferenzen von Generativen Engines zu erklären und aussagekräftige Präferenzregeln aus diesen Erklärungen zu extrahieren. Anschließend werden diese Präferenzregeln als Kontextengineering für AutoGEO_API, ein prompt-basiertes GEO-System, und als regelbasierte Belohnungen zur Schulung von AutoGEO_Mini, einem kosteneffizienten GEO-Modell, verwendet. Experimente auf dem standardisierten GEO-Bench und zwei neu erstellten Benchmarks mit echten Benutzeranfragen demonstrieren die Wirksamkeit von AutoGEO bei der Steigerung der Inhaltsattraktivität unter Beibehaltung der Suchfunktionalität. Analysen bestätigen die Robustheit der gelernten Regeln und ihre Fähigkeit, einzigartige Präferenzen in verschiedenen Domänen zu erfassen, sowie die Fähigkeit der AutoGEO-Systeme, diese in die Inhaltsoptimierung einzubetten. Der Code ist unter https://github.com/cxcscmu/AutoGEO veröffentlicht.
Unified Multimodal Models zielen darauf ab, visuelles Verständnis und Generierung gemeinsam zu ermöglichen, doch aktuelle Benchmarks untersuchen selten deren echte Integration. Bestehende Bewertungen behandeln die beiden Fähigkeiten entweder isoliert oder übersehen Aufgaben, die sie inhärent koppeln. Um diese Lücke zu schließen, präsentieren wir Uni-MMMU, einen umfassenden und disziplinbewussten Benchmark, der die bidirektionale Synergie zwischen Generierung und Verständnis systematisch über acht domänenübergreifende, auf logisches Denken ausgerichtete Bereiche entfaltet, darunter Wissenschaft, Programmierung, Mathematik und Rätsel. Jede Aufgabe ist bidirektional gekoppelt und erfordert von den Modellen, (i) konzeptionelles Verständnis zu nutzen, um präzise visuelle Synthese zu leiten, oder (ii) Generierung als kognitive Stütze für analytisches Denken einzusetzen. Uni-MMMU integriert überprüfbare Zwischenschritte der Argumentation, einzigartige Ground Truths sowie ein reproduzierbares Bewertungsprotokoll für sowohl textuelle als auch visuelle Ausgaben. Durch umfangreiche Evaluierung von state-of-the-art einheitlichen, nur generierenden und nur verstehenden Modellen decken wir erhebliche Leistungsunterschiede und cross-modale Abhängigkeiten auf, bieten neue Einblicke, wann und wie sich diese Fähigkeiten gegenseitig verstärken, und schaffen eine zuverlässige Grundlage für die Weiterentwicklung einheitlicher Modelle.
Fein abgestimmtes Verständnis zwischen visuellen Inhalten und sprachlichen Beschreibungen erfordert eine präzise Ausrichtung, eine Fähigkeit, die in aktuellen Modellen, insbesondere in nicht-englischen Kontexten, noch begrenzt ist. Während Modelle wie CLIP bei der globalen Ausrichtung gut abschneiden, haben sie oft Schwierigkeiten, fein abgestimmte Details in Objektattributen, räumlichen Beziehungen und sprachlichen Ausdrücken zu erfassen, wobei die Unterstützung für bilinguales Verständnis begrenzt ist. Um diese Herausforderungen zu bewältigen, stellen wir FG-CLIP 2 vor, ein bilinguales Vision-Sprache-Modell, das entwickelt wurde, um die fein abgestimmte Ausrichtung für sowohl Englisch als auch Chinesisch voranzutreiben. Unser Ansatz nutzt umfangreiche fein abgestimmte Supervision, einschließlich Region-Text-Abgleich und Langbeschreibungsmodellierung, sowie mehrere diskriminative Ziele. Wir führen weiterhin den Textual Intra-modal Contrastive (TIC) Loss ein, um semantisch ähnliche Beschreibungen besser unterscheiden zu können. Trainiert auf einer sorgfältig kuratierten Mischung aus groß angelegten englischen und chinesischen Daten, erreicht FG-CLIP 2 eine leistungsstarke bilinguale Leistung. Um eine rigorose Bewertung zu ermöglichen, präsentieren wir einen neuen Benchmark für das chinesische multimodale Verständnis, der Langbeschreibungsabruf und Bounding-Box-Klassifikation umfasst. Umfangreiche Experimente auf 29 Datensätzen über 8 Aufgaben hinweg zeigen, dass FG-CLIP 2 bestehende Methoden übertrifft und state-of-the-art Ergebnisse in beiden Sprachen erzielt. Wir veröffentlichen das Modell, den Code und den Benchmark, um zukünftige Forschung zur bilingualen fein abgestimmten Ausrichtung zu fördern.
Das Zusammenführen von Modellen, insbesondere bei Instruktions- und Denkmodellen, hat bemerkenswerte Leistungen für effizientes Schließen gezeigt. In diesem Papier untersuchen wir systematisch die einfachste Methode des Zusammenführens, bei der zwei Gewichte direkt interpoliert werden. Insbesondere beobachten wir, dass die Modellinterpolation einem dreistufigen evolutionären Paradigma folgt, das unterschiedliche Verhaltensweisen auf dem Schließpfad aufweist. Diese Dynamik bietet einen prinzipiellen Leitfaden, um den Kompromiss zwischen Leistung und Kosten zu navigieren. Empirische Ergebnisse zeigen, dass ein strategisch interpoliertes Modell überraschenderweise sowohl in Bezug auf Effizienz als auch Effektivität anspruchsvolle Baselines des Modellzusammenführens übertrifft. Wir validieren unsere Erkenntnisse weiterhin durch umfangreiche Ablationsstudien zu Modellschichten, -modulen und Dekodierungsstrategien. Letztlich entmystifiziert diese Arbeit die Modellinterpolation und bietet einen praktischen Rahmen zur Erstellung von Modellen mit präzise abgestimmten Schließfähigkeiten. Der Code ist verfügbar unter https://github.com/wutaiqiang/MI{Github}.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) konzentrierten sich auf das Skalieren zur Laufzeit, um das logische Denken durch erhöhte Inferenzberechnungen zu verbessern, oft jedoch auf Kosten der Effizienz. Wir untersuchen das Laufzeitverhalten erneut und entdecken ein einfaches, aber bisher wenig erforschtes Phänomen: Die Unsicherheit beim logischen Denken ist stark lokalisiert – nur eine kleine Teilmenge von Tokens mit hoher Entropie beeinflusst die Korrektheit der Ausgabe maßgeblich. Motiviert durch diese Erkenntnis schlagen wir Minimal Test-Time Intervention (MTI) vor, ein trainingsfreies Framework, das die Genauigkeit und Stabilität des logischen Denkens mit minimalem Aufwand verbessert. MTI umfasst: (i) Selektive CFG-Intervention, bei der Classifier-Free Guidance nur an unsicheren Positionen angewendet wird; und (ii) Leichtgewichtige Negative-Prompt-Guidance, die den KV-Cache des Hauptmodells wiederverwendet, um eine effiziente unbedingte Dekodierung zu approximieren. MTI erzielt konsistente Verbesserungen bei allgemeinen, Programmier- und STEM-Aufgaben – z. B. eine durchschnittliche Steigerung von +1,35 % auf acht Benchmarks für Qwen3-8B-Base und +5 % auf AIME2024 mit Qwen3-32B-Reasoning – bei gleichbleibend hoher Effizienz.
Decoder-only-Transformer haben sich aufgrund ihrer starken Leistung als Standardarchitektur für große Sprachmodelle (LLMs) etabliert. Aktuelle Studien deuten darauf hin, dass in vortrainierten LLMs frühe, mittlere und späte Schichten unterschiedliche Rollen übernehmen könnten: Frühe Schichten konzentrieren sich auf das Verständnis des Eingabekontexts, mittlere Schichten bearbeiten aufgaben spezifische Verarbeitungen, und späte Schichten wandeln abstrakte Repräsentationen in Ausgabetoken um. Wir stellen die Hypothese auf, dass, sobald die Repräsentationen von den frühen und mittleren Schichten verarbeitet wurden, die resultierenden verborgenen Zustände ausreichend Informationen enthalten könnten, um die Generierung mehrerer Token allein mithilfe der späten Schichten zu unterstützen, wodurch das wiederholte Durchlaufen der frühen und mittleren Schichten entfällt. Wir bezeichnen dieses Inferenzparadigma als Direct Multi-Token Decoding (DMTD). Im Gegensatz zum spekulativen Decoding führt unsere Methode keine zusätzlichen Parameter, Hilfsroutinen oder Post-Generierungsüberprüfungen ein. Trotz des Trainings auf einem begrenzten Datensatz hat ein feinabgestimmtes DMTD Qwen3-4B-Modell bereits vielversprechende Ergebnisse gezeigt und eine Beschleunigung von bis zu 2x bei nur geringem Leistungsverlust erreicht. Darüber hinaus wird, wie unsere Skalierungsanalyse zeigt, erwartet, dass seine Leistung mit größeren Trainingsdatensätzen weiter verbessert wird.
Trainable Sparse Attention hat sich als vielversprechende Lösung erwiesen, um den Engpass bei der Dekodierungseffizienz von LLMs (Large Language Models) in der Langzeitkontextverarbeitung zu adressieren. Dabei wird der Speicherzugriff erheblich reduziert, während die Aufgabenleistung nur minimal beeinträchtigt wird. Allerdings bleibt eine entscheidende Einschränkung bestehender Sparse-Attention-Methoden ungelöst: Die Größe des Key-Value (KV)-Caches bleibt unverändert, was die Batch-Größen auf der GPU begrenzt und den Dekodierungsdurchsatz verringert, insbesondere bei großskaliger Batch-Inferenz. In diesem Artikel zeigen wir, dass trainable Sparse Attention natürlicherweise eine starke Lokalität bei der Token-Auswahl über benachbarte Dekodierungsschritte aufweist, wodurch ein KV-Cache-Offloading ermöglicht wird, ohne die zugrunde liegende Attention-Berechnung zu verändern. Die inhärente Lokalität reicht jedoch nicht aus, um ein effizientes Offloading zu erreichen, da der Transfer ausgewählter KV-Paare zwischen CPU und GPU weiterhin den Gesamtdekodierungsaufwand dominiert. Aufbauend auf dieser Erkenntnis präsentieren wir NOSA, ein trainable Sparse-Attention-Framework, das KV-Cache-Offloading nativ unterstützt. NOSA führt explizite Lokalitätsbeschränkungen ein, indem die Token-Auswahl in abfrageabhängige und abfrageunabhängige Komponenten zerlegt wird, wodurch KV-Transfers reduziert werden, während die gleiche Attention-Berechnung wie während des Trainings beibehalten wird. Wir trainieren ein 1B-Parameter-Modell mit NOSA vor und führen umfangreiche Benchmarks durch, die zeigen, dass es eine nahezu verlustfreie Leistung bewahrt und gleichzeitig eine bis zu 2,3-fache Verbesserung des Dekodierungsdurchsatzes im Vergleich zur Baseline der herkömmlichen trainable Sparse Attention (InfLLM-V2) erreicht.
Roboter-Manipulationsstrategien haben oft Schwierigkeiten, sich auf neue Objekte zu verallgemeinern, was ihre praktische Anwendbarkeit einschränkt. Im Gegensatz dazu zeigt die Kognitionswissenschaft, dass Kinder generalisierbare geschickte Manipulationsfähigkeiten entwickeln, indem sie eine kleine Auswahl einfacher Spielzeuge meistern und dieses Wissen dann auf komplexere Gegenstände anwenden. Inspiriert davon untersuchen wir, ob ähnliche Verallgemeinerungsfähigkeiten auch bei Robotern erreicht werden können. Unsere Ergebnisse zeigen, dass Roboter generalisierbares Greifen lernen können, indem sie zufällig zusammengesetzte Objekte verwenden, die aus nur vier Grundformen bestehen: Kugeln, Quader, Zylinder und Ringe. Wir demonstrieren, dass das Training mit diesen „Spielzeugen“ eine robuste Verallgemeinerung auf reale Objekte ermöglicht und eine starke Zero-Shot-Leistung erzielt. Entscheidend ist, dass der Schlüssel zu dieser Verallgemeinerung eine objektzentrierte visuelle Repräsentation ist, die durch unseren vorgeschlagenen Detektions-Pooling-Mechanismus induziert wird. Sowohl in der Simulation als auch auf physischen Robotern getestet, erreicht unser Modell eine Erfolgsrate von 67 % beim Greifen im YCB-Datensatz und übertrifft damit state-of-the-art Ansätze, die auf deutlich mehr domänenspezifischen Daten basieren. Wir untersuchen weiterhin, wie sich die Zero-Shot-Verallgemeinerungsleistung skaliert, indem wir die Anzahl und Vielfalt der Trainingsspielzeuge sowie die Demonstrationen pro Spielzeug variieren. Wir glauben, dass diese Arbeit einen vielversprechenden Weg für skalierbares und generalisierbares Lernen in der Roboter-Manipulation bietet. Demonstrationsvideos, Code, Checkpoints und unser Datensatz sind auf unserer Projektseite verfügbar: https://lego-grasp.github.io/.
End-to-End-Autonome-Fahrmodelle, die ausschließlich mit Imitationslernen (IL) trainiert werden, leiden oft unter schlechter Generalisierung. Im Gegensatz dazu fördert Reinforcement Learning (RL) die Exploration durch Belohnungsmaximierung, steht jedoch vor Herausforderungen wie Ineffizienz bei der Stichprobenverarbeitung und instabiler Konvergenz. Eine naheliegende Lösung besteht darin, IL und RL zu kombinieren. Über das konventionelle zweistufige Paradigma (IL-Vortraining gefolgt von RL-Feinabstimmung) hinaus schlagen wir CoIRL-AD vor, ein kompetitives Dual-Policy-Framework, das es IL- und RL-Agenten ermöglicht, während des Trainings zu interagieren. CoIRL-AD führt einen wettbewerbsbasierten Mechanismus ein, der den Wissensaustausch erleichtert und gleichzeitig Gradientenkonflikte verhindert. Experimente mit dem nuScenes-Datensatz zeigen eine Reduzierung der Kollisionsrate um 18 % im Vergleich zu den Baselines, verbunden mit einer stärkeren Generalisierung und verbesserten Leistungen in langschwänzigen Szenarien. Der Code ist verfügbar unter: https://github.com/SEU-zxj/CoIRL-AD.
Jüngste Fortschritte in Multi-Agenten-Systemen, die durch große Sprachmodelle unterstützt werden, haben bemerkenswerte kollektive Intelligenz durch effektive Kommunikation demonstriert. Bestehende Ansätze stehen jedoch vor zwei Hauptherausforderungen: (i) Ineffektive Modellierung der Gruppenkollaboration, da sie auf paarweisen Kantendarstellungen in Graphenstrukturen basieren, was ihre Fähigkeit einschränkt, Beziehungen zwischen mehreren Agenten zu erfassen; und (ii) begrenzte Aufgabenanpassungsfähigkeit im Design der Kommunikationstopologie, was zu übermäßigen Kommunikationskosten für einfache Aufgaben und unzureichender Koordination für komplexe Szenarien führt. Diese Probleme schränken die Skalierbarkeit und praktische Anwendung von adaptiven Kollaborationsframeworks ein. Um diese Herausforderungen zu bewältigen, schlagen wir HyperAgent vor, ein hypergraphbasiertes Framework, das Kommunikationstopologien optimiert und Gruppenkollaborationsmuster effektiv durch direkte Hyperkantendarstellungen erfasst. Im Gegensatz zu kantenbasierten Ansätzen verwendet HyperAgent Hyperkanten, um mehrere Agenten innerhalb derselben Teilaufgabe zu verbinden, und setzt Hypergraph-Faltungsschichten ein, um eine schrittweise Informationsaggregation in Kollaborationsgruppen zu erreichen. Zusätzlich integriert es ein Variational-Autoencoder-Framework mit Sparsity-Regularisierung, um Hypergraphtopologien dynamisch basierend auf der Aufgabenkomplexität anzupassen. Experimente unterstreichen die Überlegenheit von HyperAgent sowohl in der Leistung als auch in der Effizienz. Beispielsweise erreicht HyperAgent auf GSM8K eine Genauigkeit von 95,07 %, während der Tokenverbrauch um 25,33 % reduziert wird, was das Potenzial der hypergraphbasierten Optimierung für die Multi-Agenten-Kommunikation demonstriert.
Große Sprachmodelle (LLM)-basierte Reasoning-Systeme haben kürzlich Goldmedaillen-Niveau im IMO 2025-Wettbewerb erreicht, indem sie mathematische Beweise verfasst haben, bei denen jeder Schritt nicht nur korrekt, sondern auch ausreichend begründet sein muss, um volle Punktzahl zu erhalten. Um LLM-basierte Reasoning-Systeme in solch anspruchsvollen, offenen Umgebungen zu trainieren, sind starke Verifizierer, die in der Lage sind, Fehler auf Schritt-Ebene zu erkennen, eine notwendige Voraussetzung. Wir stellen Hard2Verify vor, einen von Menschen annotierten Benchmark zur Schritt-Ebenen-Verifikation, der mit über 500 Stunden menschlicher Arbeit erstellt wurde. Hard2Verify wurde entwickelt, um Schritt-Ebenen-Verifizierer an der Grenze des Möglichen rigoros zu bewerten: Verifizierer müssen Schritt-für-Schritt-Annotationen bereitstellen oder den ersten Fehler in Antworten identifizieren, die von führenden LLMs für sehr aktuelle, anspruchsvolle und offene mathematische Fragen generiert wurden. Wir evaluieren 29 generative Kritiker und Prozess-Belohnungsmodelle und zeigen, dass Open-Source-Verifizierer, mit wenigen Ausnahmen, hinter Closed-Source-Modellen zurückbleiben. Anschließend analysieren wir, was die schlechte Leistung bei der Schritt-Ebenen-Verifikation verursacht, die Auswirkungen der Skalierung der Rechenleistung von Verifizierern sowie grundlegende Fragen wie Selbstverifikation und die Dynamik zwischen Verifikation und Generierung.
Multi-turn Text-to-SQL zielt darauf ab, die konversationellen Äußerungen eines Benutzers in ausführbare SQL-Anweisungen zu übersetzen, wobei die Dialogkohärenz und die Verankerung im Zielschema erhalten bleiben. Die meisten bestehenden Systeme betrachten diese Aufgabe jedoch lediglich als eine einfache Textübersetzungsaufgabe und folgen einem kurzzeitigen Paradigma, bei dem pro Runde eine Abfrage ohne Ausführung, explizite Überprüfung und Verfeinerung generiert wird, was zu nicht ausführbaren oder inkohärenten Ergebnissen führt. Wir stellen MTSQL-R1 vor, ein agentenbasiertes Trainingsframework für langzeitiges Multi-turn Text-to-SQL. Wir fassen die Aufgabe als einen Markov-Entscheidungsprozess (MDP) auf, bei dem ein Agent mit (i) einer Datenbank für Ausführungsfeedback und (ii) einem persistenten Dialoggedächtnis zur Kohärenzüberprüfung interagiert und einen iterativen Zyklus von Vorschlag zur Ausführung -> Überprüfung -> Verfeinerung durchläuft, bis alle Prüfungen bestanden sind. Experimente auf COSQL und SPARC zeigen, dass MTSQL-R1 durchweg starke Baseline-Modelle übertrifft, was die Bedeutung von umgebungsgetriebener Überprüfung und speichergeleiteter Verfeinerung für konversationelle semantische Analyse unterstreicht. Vollständige Rezepte (einschließlich Code, trainierte Modelle, Protokolle, Denkpfade usw.) werden nach der internen Überprüfung veröffentlicht, um zur Gemeinschaftsforschung beizutragen.
Multi-Agent-Systeme mit großen Sprachmodellen (LLMs) werden zunehmend für komplexe Sprachverarbeitungsaufgaben eingesetzt, die Kommunikation und Koordination zwischen Agenten erfordern. Diese Systeme leiden jedoch häufig unter erheblichem Overhead durch wiederholte Neuverarbeitung überlappender Kontexte zwischen den Agenten. In typischen Pipelines muss, sobald ein Agent eine Nachricht von seinem Vorgänger erhält, der vollständige Kontext – einschließlich vorheriger Dialogschritte – von Grund auf neu verarbeitet werden, was zu ineffizienter Verarbeitung führt. Während Key-Value (KV)-Caching eine effektive Lösung ist, um redundante Berechnungen in Einzel-Agenten-Szenarien zu vermeiden, in denen Präfixe unverändert bleiben, kann es in Multi-Agenten-Szenarien aufgrund divergierender Präfixe, die durch agentspezifische Kontexterweiterungen entstehen, nicht direkt wiederverwendet werden. Wir identifizieren, dass die Kernherausforderung in der Offset-Varianz von KV-Caches zwischen den Agenten liegt. Um dies zu adressieren, schlagen wir KVCOMM vor, ein trainingsfreies Framework, das effizientes Prefilling in der Multi-Agenten-Inferenz ermöglicht, indem es KV-Caches wiederverwendet und Cache-Offsets überlappender Kontexte unter verschiedenen Präfixkontexten ausrichtet. KVCOMM schätzt und passt KV-Caches für gemeinsame Inhalte an, indem es auf einen Pool von zwischengespeicherten Beispielen – sogenannte Anker – verweist, die beobachtete Cache-Abweichungen unter variierenden Präfixen speichern. Der Ankerpool wird online gepflegt und aktualisiert, was eine dynamische Anpassung an unterschiedliche Benutzeranfragen und Kontextstrukturen ermöglicht. KVCOMM erreicht eine Wiederverwendungsrate von über 70 % in verschiedenen Multi-Agenten-Workloads, einschließlich retrieval-augmentierter Generierung, mathematischem Reasoning und kollaborativen Codierungsaufgaben, ohne Qualitätseinbußen. Insbesondere wenn jeder vollständig verbundene Agent 1K Eingabe-Tokens mit 512 Präfix-Tokens und 512 Ausgabe-Tokens in einem Fünf-Agenten-Setting erhält, erreicht KVCOMM eine Beschleunigung von bis zu 7,8x im Vergleich zur Standard-Prefill-Pipeline und reduziert die TTFT von ~430 ms auf ~55 ms.
Tracker und Video-Generatoren lösen eng verwandte Probleme: Erstere analysieren Bewegung, während Letztere sie synthetisieren. Wir zeigen, dass dieser Zusammenhang vortrainierte Video-Diffusionsmodelle in die Lage versetzt, Zero-Shot-Punkt-Tracking durchzuführen, indem sie einfach dazu aufgefordert werden, Punkte visuell zu markieren, während sie sich im Laufe der Zeit bewegen. Wir platzieren einen farblich markanten Marker am Abfragepunkt und generieren dann den Rest des Videos aus einem mittleren Rauschlevel neu. Dies verbreitet den Marker über die Frames hinweg und zeichnet die Trajektorie des Punkts nach. Um sicherzustellen, dass der Marker in dieser kontrafaktischen Generierung sichtbar bleibt, obwohl solche Marker in natürlichen Videos unwahrscheinlich sind, verwenden wir den unveränderten Anfangsrahmen als negativen Prompt. Durch Experimente mit mehreren bildbasierten Video-Diffusionsmodellen stellen wir fest, dass diese „emergenten“ Tracks die von früheren Zero-Shot-Methoden übertreffen und durch Verdeckungen hindurch bestehen bleiben, oft mit einer Leistung, die mit spezialisierten selbstüberwachten Modellen konkurrieren kann.
Alignment-Training bringt Kompromisse mit sich: Es hilft Sprachmodellen (LMs), ihre Fähigkeiten im logischen Denken und Befolgen von Anweisungen zu verbessern, kann jedoch zu Einbußen in Bereichen wie Kreativität und Kalibrierung führen, in denen nicht-alignierte Basismodelle besser abschneiden. Unser Ziel ist es, das Beste aus beiden Welten durch Modellkollaboration zu erreichen, bei der verschiedene Modelle im Trainingsprozess zusammenarbeiten und sich gegenseitig ergänzen. Da LM-Antworten ineinandergreifende Fähigkeiten aufweisen, die unterschiedliche Modelle begünstigen, schlagen wir Switch Generation vor, bei der vortrainierte und alignierte Modellversionen abwechselnd in einer Antwortsequenz „sprechen“. Konkret trainieren wir ein Switcher-LM, indem wir aus den Ergebnissen lernen, unterschiedliche Modelle zur Generierung des nächsten Abschnitts über diverse Anfragen und Kontexte hinweg auszuwählen. Zur Inferenzzeit leitet das Switcher-LM verschiedene Modell-Checkpoints an, um den nächsten Abschnitt dynamisch dort zu generieren, wo ihre Stärken am meisten benötigt werden. Umfangreiche Experimente mit 8 Modellkollaborations-Baselines und 18 Datensätzen zeigen, dass 1) Modellkollaboration auf 16 von 18 Aufgaben durchweg besser abschneidet als einzelne Modelle und 2) Switch Generation die Baselines im Durchschnitt um 12,9 % übertrifft. Weitere Analysen zeigen, dass Switch Generation zusammengesetzte Fähigkeiten entdeckt, um Probleme zu lösen, bei denen einzelne Modelle Schwierigkeiten haben, und sich auf unbekannte Modelle und Aufgaben verallgemeinern lässt, indem Nebenprodukte aus teuren Modelltrainingspipelines wiederverwendet und umfunktioniert werden, die ansonsten verworfen würden.
Multi-Agent-Systeme, die von Large Language Models angetrieben werden, zeichnen sich durch koordinierte Zusammenarbeit bei komplexen Aufgaben aus, weisen jedoch hohe Fehlerquoten in Szenarien mit mehrstufiger Tiefensuche auf. Bestehende Methoden zur zeitlichen Fehlerattribution sind nicht in der Lage, die Ursachen präzise zu diagnostizieren, insbesondere wenn sich Fehler über mehrere Agenten hinweg ausbreiten. Versuche, die Fehlerattribution durch die Analyse von Aktionssequenzen zu automatisieren, bleiben aufgrund ihrer Unfähigkeit, informationsübergreifende Abhängigkeiten zu berücksichtigen, unwirksam. Dieses Papier identifiziert zwei zentrale Herausforderungen: (i) die Unterscheidung von Symptomen und Ursachen bei der Fehlerausbreitung in Multi-Agent-Systemen und (ii) die Nachverfolgung von Informationsabhängigkeiten über die zeitliche Reihenfolge hinaus. Um diese Probleme zu lösen, stellen wir GraphTracer vor, ein Framework, das die Fehlerattribution durch die Analyse von Informationsflüssen neu definiert. GraphTracer konstruiert Informationsabhängigkeitsgraphen (IDGs), um explizit zu erfassen, wie Agenten auf vorherige Ausgaben verweisen und darauf aufbauen. Es lokalisiert Ursachen, indem es diese Abhängigkeitsstrukturen nachverfolgt, anstatt sich auf zeitliche Sequenzen zu verlassen. GraphTracer nutzt zudem graphenbasierte synthetische Datengenerierung, um kritische Knotenpunkte zu adressieren und realistische Fehlerszenarien zu erzeugen. Evaluierungen auf dem Who\&When-Benchmark und die Integration in Produktionssysteme zeigen, dass GraphTracer-8B eine bis zu 18,18\% höhere Attributionsgenauigkeit im Vergleich zu modernsten Modellen erreicht und Leistungssteigerungen von 4,8\% bis 14,2\% in eingesetzten Multi-Agent-Frameworks ermöglicht. Damit etabliert es eine robuste Lösung für das Debugging von Multi-Agent-Systemen.
Mit dem Aufstieg von Reasoning-Sprachmodellen und Test-Time-Scaling-Methoden als Paradigma zur Verbesserung der Modellleistung ist oft ein erheblicher Rechenaufwand erforderlich, um mehrere Kandidatensequenzen aus demselben Prompt zu generieren. Dies ermöglicht die Exploration verschiedener Lösungswege zur korrekten Lösung, weist jedoch jedem Prompt das gleiche Rechenbudget zu. Basierend auf der Annahme, dass verschiedene Prompts unterschiedliche Komplexitätsgrade und somit unterschiedliche Rechenanforderungen aufweisen, schlagen wir EAGer vor, eine trainingsfreie Generierungsmethode, die die Modellunsicherheit durch tokenweise Entropieverteilung nutzt, um redundante Berechnungen zu reduzieren und gleichzeitig die Gesamtleistung zu verbessern. EAGer ermöglicht das Verzweigen in mehrere Lösungswege nur bei Vorhandensein von Tokens mit hoher Entropie und reallokiert das eingesparte Rechenbudget dann auf die Instanzen, in denen die Exploration alternativer Pfade am dringendsten benötigt wird. Wir stellen fest, dass EAGer über mehrere Open-Source-Modelle hinweg auf komplexen Reasoning-Benchmarks wie AIME 2025 das Budget ohne Zugriff auf Ziel-Labels neu zuteilen kann und dabei das beste Effizienz-Leistungs-Verhältnis in Bezug auf die Reasoning-Länge und Pass@k erreicht. Wenn Ziel-Labels zugänglich sind, generiert EAGer bis zu 65 % weniger Tokens (und spart somit Rechenleistung) und erreicht eine Verbesserung von bis zu 37 % in Pass@k im Vergleich zum Full Parallel Sampling.
Moderne Large Language Models (LLMs) mit langem Kontext zeigen gute Leistungen bei synthetischen „Nadel-im-Heuhaufen“-Benchmarks (NIAH), doch solche Tests übersehen, wie verrauschte Kontexte durch verzerrte Retrieval-Prozesse und agentenbasierte Workflows entstehen. Wir argumentieren, dass eine gezielte Gestaltung des „Heuhaufens“ notwendig ist, um verrauschte lange Kontexte zu konstruieren, die wichtige reale Faktoren treu abbilden – Ablenkung durch heterogene, verzerrte Retrieval-Systeme und kaskadierende Fehler in agentenbasierten Workflows –, um die Robustheit von Modellen bei langen Kontexten zu testen. Dies wird durch HaystackCraft umgesetzt, einen neuen NIAH-Benchmark, der auf dem vollständigen englischen Wikipedia-Hyperlink-Netzwerk mit Multi-Hop-Fragen basiert. HaystackCraft evaluiert, wie heterogene Retrieval-Strategien (z. B. sparse, dense, hybrid und graphenbasiert) die Zusammensetzung von Ablenkern, die Anordnung des Heuhaufens und die nachgelagerte Leistung von LLMs beeinflussen. HaystackCraft erweitert NIAH zudem auf dynamische, LLM-abhängige Szenarien, die agentenbasierte Operationen simulieren, bei denen Modelle Anfragen verfeinern, ihre bisherigen Schlussfolgerungen reflektieren und entscheiden, wann sie aufhören sollen. Experimente mit 15 Modellen mit langem Kontext zeigen, dass (1) zwar stärkere dense Retrieval-Systeme herausforderndere Ablenker einführen können, graphenbasierte Neubewertung jedoch gleichzeitig die Retrieval-Effektivität verbessert und schädlichere Ablenker reduziert; (2) in agentenbasierten Tests leiden sogar fortschrittliche Modelle wie Gemini 2.5 Pro und GPT-5 unter kaskadierenden Fehlern durch selbstgenerierte Ablenker oder haben Schwierigkeiten, frühzeitig zu stoppen. Diese Ergebnisse verdeutlichen anhaltende Herausforderungen beim agentenbasierten Langzeitkontext-Schlussfolgern und etablieren HaystackCraft als wertvolles Testfeld für zukünftige Fortschritte.
Große Sprachmodelle (LLMs) demonstrieren menschenähnliche oder sogar überlegene Sprachfähigkeiten und modellieren effektiv syntaktische Strukturen, doch die spezifischen Rechenmodule, die dafür verantwortlich sind, bleiben unklar. Eine zentrale Frage ist, ob die Verhaltensfähigkeiten von LLMs auf Mechanismen beruhen, die denen im menschlichen Gehirn ähneln. Um diese Fragen zu adressieren, führen wir die Hierarchical Frequency Tagging Probe (HFTP) ein, ein Werkzeug, das Frequenzbereichsanalysen nutzt, um neuronale Komponenten von LLMs (z. B. einzelne Multilayer-Perceptron-(MLP)-Neuronen) und kortikale Regionen (mittels intrakranieller Aufzeichnungen) zu identifizieren, die syntaktische Strukturen kodieren. Unsere Ergebnisse zeigen, dass Modelle wie GPT-2, Gemma, Gemma 2, Llama 2, Llama 3.1 und GLM-4 Syntax in analogen Schichten verarbeiten, während das menschliche Gehirn auf unterschiedliche kortikale Regionen für verschiedene syntaktische Ebenen zurückgreift. Repräsentationsähnlichkeitsanalysen offenbaren eine stärkere Übereinstimmung zwischen den Repräsentationen von LLMs und der linken Gehirnhälfte (dominant in der Sprachverarbeitung). Bemerkenswerterweise zeigen aktualisierte Modelle divergierende Trends: Gemma 2 weist eine größere Ähnlichkeit zum Gehirn auf als Gemma, während Llama 3.1 im Vergleich zu Llama 2 eine geringere Übereinstimmung mit dem Gehirn zeigt. Diese Erkenntnisse bieten neue Einblicke in die Interpretierbarkeit von Verhaltensverbesserungen bei LLMs und werfen die Frage auf, ob diese Fortschritte durch menschenähnliche oder nicht-menschenähnliche Mechanismen angetrieben werden. Zudem etabliert die HFTP sich als wertvolles Werkzeug, das Computerlinguistik und kognitive Neurowissenschaften verbindet. Dieses Projekt ist verfügbar unter https://github.com/LilTiger/HFTP.
Mit dem Aufkommen von DeepSeek-R1 hat eine neue Welle von Reinforcement-Learning (RL)-Methoden Einzug gehalten, die eine stärkere mathematische Argumentation zu ermöglichen scheinen. Bei genauerer Betrachtung des Open-Source-Ökosystems zeigt sich jedoch eine kritische Einschränkung: Bei einer ausreichend großen Anzahl von Versuchen (z. B. pass@1024) lösen viele bestehende Basismodelle bereits nahezu alle Fragen auf weit verbreiteten mathematischen Benchmarks wie MATH-500 und AIME 2024. Dies deutet darauf hin, dass die in der LLM-Argumentationsliteratur vorherrschenden RL-Feintuning-Methoden hauptsächlich bestehende Lösungsansätze verfeinern, anstatt völlig neue zu entdecken. Diese Verfeinerung steht im Gegensatz zum umfassenderen Versprechen von RL: Exploration zu fördern und neue Fähigkeiten zu erwerben. Um dieses Plateau zu überwinden, führen wir MATH-Beyond (MATH-B) ein, einen Benchmark, der gezielt so konstruiert wurde, dass er gängige Open-Source-Modelle mit bis zu 8B Parametern selbst bei großen Stichprobenbudgets überfordert. Eine Verbesserung der Leistung auf unserem Benchmark durch RL erfordert Methoden, die lernen, auf eine Weise zu argumentieren, die über die Fähigkeiten des Basismodells bei wiederholter Stichprobenentnahme hinausgeht. Da die Probleme aus Teilmengen der Datensätze DAPO-Math-17K und DeepScaleR stammen, bleiben sie thematisch äquivalent zu Standard-High-School-Mathematik. Unsere Prämisse wird bestätigt, da RL-feinabgestimmte Modelle wie Nemotron-Research-Reasoning-Qwen-1.5B und DeepScaleR-1.5B-Preview bei pass@1024 auf MATH-B schlecht abschneiden, was zeigt, wie bestehende Ansätze bei der Bewältigung schwierigerer Instanzen versagen. Wir hoffen, dass MATH-B explorationsgetriebene RL-Ansätze katalysieren wird, die tiefere Argumentationsfähigkeiten hervorrufen. Wir veröffentlichen MATH-B unter https://huggingface.co/datasets/brendel-group/MATH-Beyond.
Remote Inference ermöglicht es leistungsschwachen Geräten, leistungsstarke Cloud-Modelle zu nutzen. Allerdings führt die Latenz des Kommunikationsnetzwerks dazu, dass Vorhersagen veraltet und für Echtzeitaufgaben ungeeignet sind. Um dies zu beheben, stellen wir Dedelayed vor, eine verzögerungskorrigierende Methode, die beliebige Verzögerungen beim Remote Inference abmildert und es dem lokalen Gerät ermöglicht, Echtzeitausgaben mit geringer Latenz zu erzeugen. Unsere Methode verwendet ein leichtgewichtiges lokales Modell, das den aktuellen Frame verarbeitet und Merkmale einbindet, die ein leistungsstarkes Remote-Modell aus vergangenen Frames berechnet. Bei Videos aus dem BDD100K-Fahrdatensatz verbessert Dedelayed die Genauigkeit der semantischen Segmentierung im Vergleich zu den stärkeren der rein lokalen und rein remote-basierten Baseline-Modelle bei allen realistischen Kommunikationsnetzwerkverzögerungen über 33 ms. Ohne zusätzliche Verzögerung zu verursachen, steigert es die Genauigkeit um 6,4 mIoU im Vergleich zu vollständig lokalem Inference und um 9,8 mIoU im Vergleich zu Remote Inference bei einer Round-Trip-Verzögerung von 100 ms. Der Vorteil vergrößert sich bei längeren Verzögerungen und Szenen mit höherer Bewegung, da das verzögerungsgeminderte Split Inference die Genauigkeit effektiver aufrechterhält und klare Vorteile für Echtzeitaufgaben bietet, die mit dem aktuellen Weltzustand synchron bleiben müssen.
Reasoning-Modelle verbessern ihre Problemlösungsfähigkeit durch Skalierung zur Inferenzzeit, indem sie mehr Rechenleistung über längere Token-Budgets zuweisen. Die Identifizierung von Reasoning-Traces, die wahrscheinlich erfolgreich sind, bleibt eine zentrale Möglichkeit: Die zuverlässige Vorhersage produktiver Pfade kann verschwendete Berechnungen erheblich reduzieren und die Gesamteffizienz verbessern. Wir führen Latent-Trajectory-Signale ein, die die zeitliche Entwicklung der internen Repräsentationen eines Modells während der Generierung von Zwischenreasoning-Tokens charakterisieren. Durch die Messung der Gesamtveränderung in den latenten Repräsentationen zwischen Beginn und Ende des Reasonings, der über Zwischenschritte akkumulierten Veränderung sowie des Ausmaßes, in dem diese Veränderungen auf den Endzustand hinarbeiten, zeigen wir, dass diese Signale die Lösungsgenauigkeit zuverlässiger vorhersagen als sowohl Cross-Layer-Metriken als auch output-basierte Konfidenzmaße. Wenn sie zur Steuerung der Antwortauswahl über mehrere gesampelte Generationen hinweg verwendet werden, machen Latent-Trajectory-Signale die Skalierung zur Testzeit effektiver und effizienter als Mehrheitsabstimmungen, reduzieren die Token-Nutzung um bis zu 70 % und bewahren oder verbessern sogar die Genauigkeit um durchschnittlich 2,6 %. Darüber hinaus treten diese prädiktiven Signale oft früh im Reasoning-Trace auf, was eine frühzeitige Auswahl und Zuweisung von Rechenleistung zu den vielversprechendsten Kandidaten ermöglicht. Unsere Erkenntnisse tragen nicht nur praktische Strategien für die Effizienz zur Inferenzzeit bei, sondern bieten auch eine tiefere Interpretierbarkeitsperspektive darauf, wie Reasoning-Prozesse im latenten Raum repräsentiert und differenziert werden.
Die Entstehung großer Sprachmodelle (LLMs) hat neue Möglichkeiten für die Erstellung dynamischer Nicht-Spieler-Charaktere (NPCs) in Spielumgebungen eröffnet, wodurch sowohl die Ausführung funktionaler Aufgaben als auch die Generierung von persona-konsistenten Dialogen ermöglicht wird. In diesem Artikel berichten wir (Tu_Character_lab) über unsere Teilnahme am Commonsense Persona-Grounded Dialogue Challenge (CPDC) 2025, Runde 2, bei dem Agenten in drei Kategorien bewertet werden: aufgabenorientierte Dialoge, kontextbewusste Dialoge und deren Integration. Unser Ansatz kombiniert zwei komplementäre Strategien: (i) leichtgewichtige Prompting-Techniken im API-Track, einschließlich einer Deflanderization-Prompting-Methode, um übermäßiges Rollenspiel zu unterdrücken und die Aufgabenfidelität zu verbessern, und (ii) feinabgestimmte große Modelle im GPU-Track, die Qwen3-14B mit überwachtem Feinabstimmen (SFT) und Low-Rank Adaptation (LoRA) nutzen. Unsere besten Einreichungen belegten den 2. Platz in Aufgabe 1, den 2. Platz in Aufgabe 3 (API-Track) und den 4. Platz in Aufgabe 3 (GPU-Track).
Das Denken beschränkt sich nicht nur auf das Lösen von Problemen – es geht auch darum, zu bewerten, welche Probleme es überhaupt wert sind, gelöst zu werden. Die Bewertung von Systemen der künstlichen Intelligenz (KI) konzentrierte sich historisch vor allem auf das Problemlösen, indem untersucht wurde, wie Modelle Spiele wie Schach und Go spielen. In diesem Artikel plädieren wir für ein neues Paradigma, das die Bewertung von Spielen durch KI-Systeme untersucht. Zunächst führen wir einen Formalismus zur Bewertung solcher Bewertungen ein. Anschließend nutzen wir einen umfangreichen Datensatz von über 100 neuartigen Brettspielen und mehr als 450 menschlichen Urteilen, um die Bewertungen moderner Sprach- und Denkmodelle mit denen von Menschen und symbolischen Rechenagenten zu vergleichen. Wir betrachten zwei Arten von bewertenden Anfragen: die Bewertung des Nutzens (oder der Fairness) und des Spaßfaktors von Spielen. Diese Anfragen umfassen zwei Dimensionen, die für die Gestaltung von Bewertungen von KI-Bewertungen relevant sind: wie komplex eine Anfrage zu berechnen ist und wie schwierig es ist, eine Anfrage zu quantifizieren. Unsere Ergebnisse zeigen, dass Denkmodelle in ihrer Bewertung von Spielen im Allgemeinen stärker mit den Urteilen von Menschen übereinstimmen als nicht-denkende Sprachmodelle. Allerdings beobachten wir eine nicht-monotone Beziehung: Je näher die Modelle an das spieltheoretische Optimum heranreichen, desto schwächer wird ihre Übereinstimmung mit den menschlichen Daten. Wir beobachten auch eine stärkere „Unebenheit“ zwischen den Modellen bei der Bewertung des Spaßfaktors, was mit der größeren Schwierigkeit bei der Quantifizierung dieser Anfrage übereinstimmt. Über alle Anfragen und Spiele hinweg zeigen Denkmodelle eine stark variierende und unvorhersehbare Ressourcennutzung bei der Bewertung von Anfragen, was die Bedeutung einer stärker ressourcenrationalen Meta-Bewertung in Sprach- und Denkmodellen unterstreicht.