papers.description
Multi-LLM-Systeme nutzen die komplementären Stärken verschiedener Large Language Models (LLMs), um Leistungs- und Effizienzsteigerungen zu erzielen, die mit einem einzelnen Modell nicht erreichbar sind. In bestehenden Designs kommunizieren LLMs über Text, wodurch interne Repräsentationen in Ausgabe-Token-Sequenzen umgewandelt werden müssen. Dieser Prozess führt sowohl zum Verlust von reichhaltigen semantischen Informationen als auch zu einer Token-für-Token-Generierungslatenz. Angesichts dieser Einschränkungen stellen wir die Frage: Können LLMs über Text hinaus kommunizieren? Oracle-Experimente zeigen, dass die Anreicherung der KV-Cache-Semantik die Antwortqualität verbessern kann, ohne die Cache-Größe zu erhöhen, was den KV-Cache als effektives Medium für die Kommunikation zwischen Modellen unterstützt. Daher schlagen wir Cache-to-Cache (C2C) vor, ein neues Paradigma für die direkte semantische Kommunikation zwischen LLMs. C2C verwendet ein neuronales Netzwerk, um den KV-Cache des Quellmodells mit dem des Zielmodells zu projizieren und zu fusionieren, um einen direkten semantischen Transfer zu ermöglichen. Ein lernbarer Gating-Mechanismus wählt die Zielschichten aus, die von der Cache-Kommunikation profitieren. Im Vergleich zur Textkommunikation nutzt C2C die tiefen, spezialisierten Semantiken beider Modelle, während die explizite Generierung von Zwischentext vermieden wird. Experimente zeigen, dass C2C eine durchschnittliche Genauigkeit von 8,5-10,5 % höher als einzelne Modelle erreicht. Es übertrifft das Textkommunikationsparadigma um etwa 3,0-5,0 % und bietet eine durchschnittliche Beschleunigung der Latenz um das 2,0-fache. Unser Code ist verfügbar unter https://github.com/thu-nics/C2C.
Die visuelle Tokenisierung bleibt eine zentrale Herausforderung bei der Vereinheitlichung von visuellem Verständnis und Generierung innerhalb des autoregressiven Paradigmas. Bestehende Methoden verwenden typischerweise Tokenizer in diskreten latenten Räumen, um sie mit den Token großer Sprachmodelle abzugleichen, wobei Quantisierungsfehler die semantische Ausdrucksfähigkeit einschränken und die Fähigkeit des visuell-sprachlichen Verständnisses beeinträchtigen können. Um dies zu adressieren, führen wir MingTok ein, eine neue Familie von visuellen Tokenizern mit einem kontinuierlichen latenten Raum, für die vereinheitlichte autoregressive Generierung und Verständnis. Während Verständnisaufgaben diskriminative hochdimensionale Merkmale bevorzugen, bevorzugen Generierungsaufgaben kompakte Low-Level-Codes. Um diese konkurrierenden Anforderungen in Einklang zu bringen, verwendet MingTok eine dreistufige sequenzielle Architektur, die Low-Level-Kodierung, semantische Erweiterung und visuelle Rekonstruktion umfasst. Darauf aufbauend eliminiert Ming-UniVision die Notwendigkeit für aufgabenspezifische visuelle Repräsentationen und vereinheitlicht diverse visuell-sprachliche Aufgaben unter einem einzigen autoregressiven Vorhersageparadigma. Indem sowohl Verständnis als auch Generierung als Vorhersage des nächsten Tokens in einem gemeinsamen kontinuierlichen Raum formuliert werden, unterstützt es nahtlos mehrstufige, kontextbezogene Aufgaben wie iteratives Verständnis, Generierung und Bearbeitung. Empirisch stellen wir fest, dass die Verwendung einer vereinheitlichten kontinuierlichen visuellen Repräsentation die konkurrierenden Anforderungen an die Tokenizer durch Verständnis- und Generierungsaufgaben in Einklang bringt und dadurch zu state-of-the-art Leistungen in beiden Bereichen führt. Wir hoffen, dass unsere Erkenntnisse die vereinheitlichte visuelle Tokenisierung im kontinuierlichen Bereich vorantreiben werden. Inferenzcode und Modellgewichte werden veröffentlicht, um der Gemeinschaft zugutekommen.
Wir stellen Lumina-DiMOO vor, ein Open-Source-Grundlagenmodell für nahtlose multimodale Generierung und Verständnis. Lumina-DiMOO unterscheidet sich von früheren vereinheitlichten Modellen durch die Nutzung eines vollständig diskreten Diffusionsmodells, um Eingaben und Ausgaben über verschiedene Modalitäten hinweg zu verarbeiten. Dieser innovative Ansatz ermöglicht es Lumina-DiMOO, eine höhere Sampling-Effizienz im Vergleich zu früheren autoregressiven (AR) oder hybriden AR-Diffusions-Paradigmen zu erreichen und unterstützt geschickt ein breites Spektrum multimodaler Aufgaben, einschließlich Text-zu-Bild-Generierung, Bild-zu-Bild-Generierung (z. B. Bildbearbeitung, subjektgesteuerte Generierung und Bildinpainting) sowie Bildverständnis. Lumina-DiMOO erzielt state-of-the-art Leistung in mehreren Benchmarks und übertrifft bestehende Open-Source-vereinheitlichte multimodale Modelle. Um weitere Fortschritte in der Forschung zu multimodalen und diskreten Diffusionsmodellen zu fördern, stellen wir unseren Code und unsere Checkpoints der Gemeinschaft zur Verfügung. Projektseite: https://synbol.github.io/Lumina-DiMOO.
Aktuelle große Sprachmodelle (LLMs) und gesprochene Sprachmodelle (SLMs) beginnen erst zu denken und Aktionen auszuführen, nachdem der Benutzer seinen Zug beendet hat. Dies verhindert, dass das Modell während des Benutzerzugs interagiert, und kann zu hoher Antwortlatenz führen, während es darauf wartet, zu denken. Folglich ist das Denken nach Erhalt der vollständigen Eingabe für die Sprach-zu-Sprach-Interaktion ungeeignet, bei der ein Echtzeit-Austausch mit niedriger Latenz wichtig ist. Wir gehen dieses Problem an, indem wir feststellen, dass Menschen natürlich „während des Zuhörens denken“. In diesem Artikel schlagen wir SHANKS vor, ein allgemeines Inferenzframework, das SLMs ermöglicht, unausgesprochene Ketten von Gedanken (Chain-of-Thought Reasoning) zu generieren, während sie die Benutzereingabe hören. SHANKS streamt die Spracheingabe in festen Zeitabschnitten und generiert, sobald ein Abschnitt empfangen wird, unausgesprochenes Reasoning basierend auf allen vorherigen Sprach- und Denkprozessen, während der Benutzer weiter spricht. SHANKS nutzt dieses unausgesprochene Reasoning, um zu entscheiden, ob der Benutzer unterbrochen werden soll und um Werkzeugaufrufe zur Aufgabenbearbeitung durchzuführen. Wir zeigen, dass SHANKS die Echtzeit-Interaktion zwischen Benutzer und SLM in zwei Szenarien verbessert: (1) Wenn der Benutzer eine schrittweise Lösung für ein mathematisches Problem präsentiert, kann SHANKS zuhören, denken und unterbrechen, wenn der Benutzer einen Fehler macht, und erreicht dabei eine 37,1 % höhere Unterbrechungsgenauigkeit als ein Baseline-Modell, das ohne Denken unterbricht; und (2) in einem werkzeuggestützten Dialog kann SHANKS 56,9 % der Werkzeugaufrufe abschließen, bevor der Benutzer seinen Zug beendet. Insgesamt bewegt sich SHANKS in Richtung von Modellen, die während des gesamten Gesprächs denken, nicht nur nach dem Ende eines Zugs. Animierte Illustrationen von SHANKS finden Sie unter https://d223302.github.io/SHANKS/.
Video DiTs haben die Videogenerierung vorangetrieben, kämpfen jedoch noch immer damit, Multi-Instanz- oder Subjekt-Objekt-Interaktionen zu modellieren. Dies wirft eine zentrale Frage auf: Wie repräsentieren diese Modelle Interaktionen intern? Um dies zu beantworten, haben wir MATRIX-11K kuratiert, ein Videodatensatz mit interaktionsbewussten Beschriftungen und Multi-Instanz-Maskenverläufen. Mit diesem Datensatz führen wir eine systematische Analyse durch, die zwei Perspektiven von Video DiTs formalisiert: semantische Verankerung, über Video-zu-Text-Aufmerksamkeit, die bewertet, ob Substantiv- und Verb-Token Instanzen und ihre Beziehungen erfassen; und semantische Propagation, über Video-zu-Video-Aufmerksamkeit, die beurteilt, ob Instanzbindungen über Frames hinweg bestehen bleiben. Wir stellen fest, dass beide Effekte in einer kleinen Teilmenge von interaktionsdominanten Schichten konzentriert sind. Motiviert durch diese Erkenntnis führen wir MATRIX ein, eine einfache und effektive Regularisierung, die die Aufmerksamkeit in bestimmten Schichten von Video DiTs mit Multi-Instanz-Maskenverläufen aus dem MATRIX-11K-Datensatz ausrichtet und sowohl die Verankerung als auch die Propagation verbessert. Weiterhin schlagen wir InterGenEval vor, ein Bewertungsprotokoll für interaktionsbewusste Videogenerierung. In Experimenten verbessert MATRIX sowohl die Interaktionsfidelität als auch die semantische Ausrichtung, während Drift und Halluzination reduziert werden. Umfangreiche Ablationen validieren unsere Designentscheidungen. Codes und Gewichte werden veröffentlicht.
Jüngste Fortschritte in Vision- und Sprach-Foundation-Modellen haben das multimodale Verständnis, die Schlussfolgerung und die Generierung erheblich vorangetrieben, was ein verstärktes Interesse an der Erweiterung solcher Fähigkeiten auf verkörperte Umgebungen durch Vision-Language-Action (VLA)-Modelle geweckt hat. Dennoch werden die meisten VLA-Modelle weiterhin mit überwachtem Feinabgleich (Supervised Fine-Tuning, SFT) trainiert, der aufgrund von Fehlerakkumulation Schwierigkeiten hat, bei Verteilungsverschiebungen zu generalisieren. Reinforcement Learning (RL) bietet eine vielversprechende Alternative, indem es die Aufgabenleistung direkt durch Interaktion optimiert, aber bestehende Ansätze bleiben fragmentiert und es fehlt eine einheitliche Plattform für einen fairen und systematischen Vergleich von Modellarchitekturen und algorithmischen Designs. Um diese Lücke zu schließen, stellen wir RLinf-VLA vor, ein einheitliches und effizientes Framework für skalierbares RL-Training von VLA-Modellen. Das System verwendet ein hochflexibles Ressourcenzuweisungsdesign, das die Herausforderung der Integration von Rendering, Training und Inferenz im RL+VLA-Training adressiert. Insbesondere für GPU-parallelisierte Simulatoren implementiert RLinf-VLA einen neuartigen hybriden Fein-Granularitäts-Pipeline-Zuweisungsmodus, der eine Beschleunigung des Trainings um das 1,61- bis 1,88-fache erreicht. Durch eine einheitliche Schnittstelle unterstützt RLinf-VLA nahtlos diverse VLA-Architekturen (z.B. OpenVLA, OpenVLA-OFT), mehrere RL-Algorithmen (z.B. PPO, GRPO) und verschiedene Simulatoren (z.B. ManiSkill, LIBERO). In der Simulation erreicht ein einheitliches Modell 98,11 % über 130 LIBERO-Aufgaben und 97,66 % über 25 ManiSkill-Aufgaben. Neben der empirischen Leistung destilliert unsere Studie eine Reihe von Best Practices für die Anwendung von RL auf das VLA-Training und beleuchtet aufkommende Muster in dieser Integration. Darüber hinaus präsentieren wir eine vorläufige Bereitstellung auf einem realen Franka-Roboter, bei dem RL-trainierte Strategien eine stärkere Generalisierung zeigen als solche, die mit SFT trainiert wurden. Wir sehen RLinf-VLA als Grundlage, um die Forschung zu verkörperter Intelligenz zu beschleunigen und zu standardisieren.
Große Sprachmodelle (LLMs) haben das sogenannte Vibe Coding vorangetrieben, bei dem Nutzer LLMs nutzen, um Code durch natürliche Sprachinteraktionen zu generieren und iterativ zu verfeinern, bis er ihren Vibe Check besteht. Der Vibe Check ist an reale menschliche Präferenzen gebunden und geht über die reine Funktionalität hinaus: Die Lösung sollte sich richtig anfühlen, sauber lesbar sein, die Absicht bewahren und korrekt bleiben. Allerdings bleibt die aktuelle Code-Evaluierung an pass@k gebunden und erfasst nur die funktionale Korrektheit, während die nicht-funktionalen Anweisungen, die Nutzer routinemäßig anwenden, übersehen werden. In diesem Papier stellen wir die Hypothese auf, dass die Befolgung von Anweisungen das fehlende Puzzleteil ist, das dem Vibe Check zugrunde liegt und menschliche Präferenzen in der Programmierung neben der funktionalen Korrektheit repräsentiert. Um die Fähigkeiten von Modellen zur Befolgung von Code-Anweisungen mit messbaren Signalen zu quantifizieren, präsentieren wir VeriCode, eine Taxonomie von 30 überprüfbaren Code-Anweisungen zusammen mit entsprechenden deterministischen Verifizierern. Wir verwenden die Taxonomie, um etablierte Evaluierungssuiten zu erweitern, was in Vibe Checker resultiert, einer Testumgebung zur Bewertung sowohl der Befolgung von Code-Anweisungen als auch der funktionalen Korrektheit. Bei der Evaluierung von 31 führenden LLMs zeigen wir, dass selbst die stärksten Modelle Schwierigkeiten haben, mehrere Anweisungen zu befolgen, und klare funktionale Regressionen aufweisen. Am wichtigsten ist, dass ein zusammengesetzter Score aus funktionaler Korrektheit und Befolgung von Anweisungen am besten mit menschlichen Präferenzen korreliert, wobei letztere sich als primärer Unterscheidungsfaktor bei realen Programmieraufgaben erweist. Unsere Arbeit identifiziert Kernfaktoren des Vibe Checks und bietet einen konkreten Weg für die Benchmarking- und Modellentwicklung, um besser mit den Nutzerpräferenzen in der Programmierung übereinzustimmen.
Große Sprachmodelle (LLMs) setzen zunehmend auf mehrstufige, werkzeugintegrierte Planung für wissensintensive und komplexe Denkaufgaben. Bestehende Implementierungen basieren typischerweise auf einem einzelnen Agenten, leiden jedoch unter begrenzter Kontextlänge und verrauschten Werkzeugantworten. Eine natürliche Lösung besteht darin, ein Multi-Agenten-Framework mit Planer- und Arbeits-Agenten zur Kontextverwaltung zu verwenden. Allerdings unterstützen keine bestehenden Methoden ein effektives Reinforcement Learning nach dem Training von werkzeugintegrierten Multi-Agenten-Frameworks. Um diese Lücke zu schließen, schlagen wir Multi-Agent Tool-Integrated Policy Optimization (MATPO) vor, das es ermöglicht, unterschiedliche Rollen (Planer und Arbeiter) innerhalb einer einzigen LLM-Instanz durch rollenspezifische Prompts mittels Reinforcement Learning zu trainieren. MATPO basiert auf einem prinzipiellen Kreditzuweisungsmechanismus über Planer- und Arbeits-Agenten-Rollouts. Dieser Entwurf eliminiert die Notwendigkeit, mehrere LLMs einzusetzen, was speicherintensiv wäre, und bewahrt gleichzeitig die Vorteile der Spezialisierung. Experimente auf GAIA-text, WebWalkerQA und FRAMES zeigen, dass MATPO durchschnittlich eine relative Leistungssteigerung von 18,38 % gegenüber Single-Agent-Baselines erzielt und eine größere Robustheit gegenüber verrauschten Werkzeugausgaben aufweist. Unsere Ergebnisse unterstreichen die Effektivität der Vereinigung mehrerer Agentenrollen innerhalb eines einzelnen LLMs und bieten praktische Einblicke für stabiles und effizientes Multi-Agenten-RL-Training.
Die Modellierung langer Sequenzen steht vor einem grundlegenden Zielkonflikt zwischen der Effizienz von komprimiertem, festgroßem Speicher in RNN-ähnlichen Modellen und der Genauigkeit von verlustfreiem, wachsendem Speicher in auf Aufmerksamkeit basierenden Transformern. Inspiriert vom Multi-Store-Modell der Kognitionswissenschaft, führen wir ein Speicherframework für künstliche neuronale Netze ein. Unser Ansatz behält ein gleitendes Fenster des KV-Caches des Transformers als verlustfreien Kurzzeitspeicher bei, während ein lernbares Modul, genannt Artificial Hippocampus Network (AHN), wiederkehrend Informationen außerhalb des Fensters in einen festgroßen, kompakten Langzeitspeicher komprimiert. Um dieses Framework zu validieren, instanziieren wir AHNs mit modernen RNN-ähnlichen Architekturen, darunter Mamba2, DeltaNet und Gated DeltaNet. Umfangreiche Experimente auf den Langkontext-Benchmarks LV-Eval und InfiniteBench zeigen, dass AHN-erweiterte Modelle durchweg die gleitenden Fenster-Baselines übertreffen und eine Leistung erzielen, die vergleichbar oder sogar besser ist als die von Voll-Aufmerksamkeitsmodellen, während sie gleichzeitig den Rechen- und Speicherbedarf erheblich reduzieren. Beispielsweise reduziert die Erweiterung von Qwen2.5-3B-Instruct mit AHNs die Inferenz-FLOPs um 40,5 % und den Speichercache um 74,0 %, während die durchschnittliche Punktzahl auf LV-Eval (Sequenzlänge 128k) von 4,41 auf 5,88 verbessert wird. Der Code ist verfügbar unter: https://github.com/ByteDance-Seed/AHN.
Aktuelle Spitzenmodelle verwenden lange Ketten von Denkschritten (Chain-of-Thought Reasoning), um Lösungsräume im Kontext zu erkunden und eine stärkere Leistung zu erzielen. Während viele Arbeiten die Destillation untersuchen, um kleinere, aber dennoch leistungsfähige Modelle zu entwickeln, konzentrieren sich die meisten auf Englisch, und es ist wenig über sprachspezifisches Denken bekannt. Um diese Lücke zu schließen, führen wir zunächst **Language-Mixed CoT** ein, ein Denkschema, das zwischen Englisch und einer Zielsprache wechselt und Englisch als Anker verwendet, um die Denkfähigkeiten zu verbessern und Übersetzungsartefakte zu minimieren. Als Fallstudie für Koreanisch stellen wir **Yi-Sang** vor: 5,79 Millionen native koreanische Prompts aus Web-Fragen und -Antworten, Prüfungen, MINT-Fächern und Code; 3,7 Millionen lange Denkspuren, die von Qwen3-32B generiert wurden; und eine gezielte Teilmenge von 260.000 hochwertigen Beispielen. Wir trainieren neun Modelle (4B–35B) aus sechs Modellfamilien (Qwen2.5, Llama-3.1, Gemma-3 usw.). Unser bestes Modell, **KO-REAson-35B**, erzielt Spitzenleistungen mit dem höchsten durchschnittlichen Gesamtwert (64,0 ± 25), belegt den ersten Platz bei 5/9 Benchmarks und den zweiten Platz bei den übrigen. Kleinere und mittelgroße Modelle profitieren ebenfalls erheblich, mit einer durchschnittlichen Verbesserung von +18,6 Punkten über die neun bewerteten Benchmarks hinweg. Ablationen zeigen, dass **Language-Mixed CoT** effektiver ist als monolinguales CoT und auch zu leistungssteigernden Effekten in der Cross-Lingualität und Multimodalität führt. Wir veröffentlichen unsere Datenkuratierungs-Pipeline, das Bewertungssystem, Datensätze und Modelle, um die Forschung zu sprachspezifischem Denken voranzutreiben. Daten- und Modellsammlung: https://huggingface.co/KOREAson.
Obwohl afrikanische Sprachen fast ein Drittel der weltweiten Sprachen repräsentieren, bleiben sie von modernen NLP-Technologien kritisch unterversorgt, wobei 88 % als stark unterrepräsentiert oder in der Computerlinguistik vollständig ignoriert eingestuft werden. Wir präsentieren das African Languages Lab (All Lab), eine umfassende Forschungsinitiative, die diese technologische Lücke durch systematische Datenerfassung, Modellentwicklung und Kapazitätsaufbau adressiert. Unsere Beiträge umfassen: (1) eine qualitätskontrollierte Datenerfassungspipeline, die den größten validierten multimodalen Sprach- und Textdatensatz für afrikanische Sprachen umfasst, der 40 Sprachen mit 19 Milliarden Token monolingualen Textes und 12.628 Stunden ausgerichteter Sprachdaten abdeckt; (2) umfangreiche experimentelle Validierungen, die zeigen, dass unser Datensatz in Kombination mit Feinabstimmung erhebliche Verbesserungen gegenüber Baseline-Modellen erzielt, mit durchschnittlich +23,69 ChrF++, +0,33 COMET und +15,34 BLEU-Punkten über 31 evaluierte Sprachen hinweg; und (3) ein strukturiertes Forschungsprogramm, das erfolgreich fünfzehn Nachwuchsforscher betreut hat und nachhaltige lokale Kapazitäten etabliert. Unsere vergleichende Bewertung gegenüber Google Translate zeigt wettbewerbsfähige Leistungen in mehreren Sprachen, während Bereiche identifiziert werden, die weiterer Entwicklung bedürfen.
Das Streben nach Recheneffizienz hat die Einführung von Niedrigpräzisionsformaten für das Training von Transformer-Modellen vorangetrieben. Dieser Fortschritt wird jedoch oft durch bekannte Trainingsinstabilitäten behindert. Diese Arbeit liefert die erste mechanistische Erklärung für einen langjährigen und ungelösten Fehlerfall, bei dem das Training mit Flash Attention in Niedrigpräzisionseinstellungen zu katastrophalen Verlustexplosionen führt. Unsere detaillierte Analyse zeigt, dass der Fehler kein zufälliges Artefakt ist, sondern durch zwei miteinander verflochtene Phänomene verursacht wird: das Auftreten ähnlicher niedrigrangiger Repräsentationen innerhalb des Aufmerksamkeitsmechanismus und den kumulativen Effekt von verzerrten Rundungsfehlern, die der Niedrigpräzisionsarithmetik innewohnen. Wir zeigen, wie diese Faktoren einen Teufelskreis der Fehlerakkumulation erzeugen, der Gewichtsaktualisierungen korrumpiert und letztlich die Trainingsdynamik zum Scheitern bringt. Um unsere Erkenntnisse zu validieren, führen wir eine minimale Modifikation der Flash Attention ein, die die Verzerrung in den Rundungsfehlern mildert. Diese einfache Änderung stabilisiert den Trainingsprozess, bestätigt unsere Analyse und bietet eine praktische Lösung für dieses anhaltende Problem.
Große Reasoning-Modelle (LRMs) haben starke Fähigkeiten im komplexen, mehrstufigen Reasoning bewiesen und eröffnen damit neue Möglichkeiten zur Automatisierung von Optimierungsmodellierungen. Bestehende Methoden zur Domänenanpassung, die ursprünglich für frühere instruktionsoptimierte Modelle entwickelt wurden, scheitern jedoch oft daran, die fortgeschrittenen Reasoning-Muster moderner LRMs zu nutzen – insbesondere zeigen wir, dass ein direktes Fine-Tuning auf traditionellen nicht-reflektiven Datensätzen nur begrenzte Verbesserungen bringt. Um die inhärenten Reasoning-Fähigkeiten von LRMs vollständig auszuschöpfen, schlagen wir CALM (Corrective Adaptation with Lightweight Modification) vor, ein Framework, das LRMs schrittweise innerhalb ihrer nativen Reasoning-Modi für Optimierungsmodellierungsaufgaben verfeinert. In CALM identifiziert ein Expertenintervenient Reasoning-Fehler und liefert prägnante korrigierende Hinweise, die das LRM einbezieht, um verbesserte Reasoning-Pfade zu erzeugen. Diese Interventionen modifizieren weniger als 2,6 % der generierten Tokens, erzeugen jedoch hochwertige Daten für eine sanfte Anpassung durch überwachtes Fine-Tuning. Das angepasste Modell wird anschließend durch Reinforcement Learning weiter verbessert. Aufbauend auf CALM entwickeln wir STORM (Smart Thinking Optimization Reasoning Model), ein 4B-Parameter-LRM, das eine neue Bestleistung von durchschnittlich 68,9 % Genauigkeit über fünf beliebte Optimierungsmodellierungs-Benchmarks erreicht und damit die Leistung eines 671B-LRM erreicht. Diese Ergebnisse zeigen, dass die dynamische, hinweisbasierte Datensynthese die nativen Reasoning-Muster moderner LRMs sowohl bewahrt als auch verstärkt und einen effektiveren und skalierbaren Weg zur Expertenleistung bei anspruchsvollen Optimierungsmodellierungsaufgaben bietet.
Reinforcement Learning (RL) hat sich kürzlich als eine effektive Methode zur Schulung von Reasoning-LLMs etabliert, die lange Gedankenketten (LongCoT) erzeugen. Doch die standardmäßige RL-"Denkumgebung", in der der Zustand aus dem Prompt und allen vorherigen Reasoning-Tokens besteht, führt zu einem unbegrenzten Zustandsraum und zwingt aufmerksamkeitsbasierte Policies, quadratischen Rechenaufwand zu betreiben, wenn die Gedanken länger werden. Wir überdenken die Umgebung selbst und schlagen Markovian Thinking vor, ein Paradigma, bei dem die Policy das Reasoning vorantreibt, während sie sich auf einen Zustand konstanter Größe stützt, wodurch die Denklänge von der Kontextgröße entkoppelt wird. Dies führt unmittelbar zu linearem Rechenaufwand mit konstantem Speicherbedarf. Wir konkretisieren diese Idee mit Delethink, einer RL-Umgebung, die das Reasoning in feste Größenblöcke strukturiert. Innerhalb jedes Blocks denkt das Modell wie gewohnt; an der Grenze setzt die Umgebung den Kontext zurück und initialisiert den Prompt mit einer kurzen Übertragung. Durch RL lernt die Policy, gegen Ende jedes Blocks einen textuellen Zustand zu schreiben, der ausreicht, um das Reasoning nach dem Zurücksetzen nahtlos fortzusetzen. Ein in dieser Umgebung trainiertes R1-Distill-1.5B-Modell führt das Reasoning in 8K-Token-Blöcken durch, denkt jedoch bis zu 24K Token, wobei es LongCoT-RL, das mit einem 24K-Budget trainiert wurde, erreicht oder übertrifft. Mit Test-Time-Scaling verbessert sich Delethink weiter, während LongCoT stagniert. Der Effekt des linearen Rechenaufwands ist erheblich: Wir schätzen empirisch, dass LongCoT-RL bei einer durchschnittlichen Denklänge von 96K 27 H100-Monate kostet, verglichen mit 7 für Delethink. Analysen zu Beginn des RL zeigen, dass vorgefertigte Reasoning-Modelle (1.5B-120B) oft Markovian Traces zero-shot über diverse Benchmarks hinweg erzeugen, was positive Beispiele liefert, die RL in großem Maßstab effektiv machen. Unsere Ergebnisse zeigen, dass die Neugestaltung der Denkumgebung ein mächtiger Hebel ist: Sie ermöglicht sehr langes Reasoning ohne quadratischen Overhead und eröffnet einen Weg zu effizienten, skalierbaren Reasoning-LLMs.
Langkontextmodelle (LCMs) haben großes Potenzial bei der Verarbeitung langer Sequenzen gezeigt und ermöglichen viele praxisrelevante Anwendungen. Der Erfolg von LCMs lässt sich auf ihre Fähigkeit zurückführen, implizite Schlüsselinformationen innerhalb des Kontexts zu lokalisieren, um darauf aufbauende Vorhersagen zu treffen. Jüngste Forschungsergebnisse zeigen jedoch, dass LCMs oft anfällig für kontextuelles Rauschen sind, d. h. irrelevante Tokens, die die Aufmerksamkeit des Modells fehlleiten können. In diesem Artikel führen wir eine detaillierte Analyse des Kontextrauschens durch und schlagen eine effektive Metrik, den Integrated Gradient (IG)-Score, vor, um Rauschinformationen innerhalb des Kontexts zu erkennen und zu quantifizieren. Unsere Ergebnisse zeigen, dass bereits eine einfache Reduzierung des erkannten Kontextrauschens die Aufmerksamkeit des Modells auf kritische Tokens erheblich steigern und nachfolgende Vorhersagen verbessern kann. Aufbauend auf dieser Erkenntnis schlagen wir Context Denoising Training (CDT) vor, eine einfache, aber effektive Trainingsstrategie, die die Aufmerksamkeit auf kritische Tokens verbessert und gleichzeitig deren Einfluss auf die Modellvorhersagen verstärkt. Umfangreiche Experimente über vier Aufgaben hinweg, sowohl unter Kontextfensterskalierung als auch Langkontextausrichtung, demonstrieren die Überlegenheit von CDT. Bemerkenswerterweise kann ein Open-Source-8B-Modell, das mit CDT trainiert wurde, eine Leistung (50,92) erzielen, die mit GPT-4o (51,00) vergleichbar ist.
Transformer sind hervorragend in der Sequenzmodellierung, stoßen jedoch auf quadratische Komplexität, während lineare Aufmerksamkeit eine verbesserte Effizienz bietet, aber oft die Erinnerungsgenauigkeit über lange Kontexte beeinträchtigt. In dieser Arbeit stellen wir Native Hybrid Attention (NHA) vor, eine neuartige hybride Architektur aus linearer und vollständiger Aufmerksamkeit, die sowohl intra- als auch inter-schichtige Hybridisierung in ein einheitliches Schichtdesign integriert. NHA behält langfristige Kontexte in Schlüssel-Wert-Slots bei, die durch ein lineares RNN aktualisiert werden, und ergänzt sie durch kurzfristige Token aus einem gleitenden Fenster. Eine einzelne Softmax-Aufmerksamkeitsoperation wird dann auf alle Schlüssel und Werte angewendet, wodurch eine kontextabhängige Gewichtung pro Token und pro Kopf ermöglicht wird, ohne zusätzliche Fusionsparameter zu benötigen. Das inter-schichtige Verhalten wird durch einen einzigen Hyperparameter, die Größe des gleitenden Fensters, gesteuert, was eine sanfte Anpassung zwischen rein linearer und vollständiger Aufmerksamkeit ermöglicht, während alle Schichten strukturell einheitlich bleiben. Experimentelle Ergebnisse zeigen, dass NHA Transformer und andere hybride Baselines bei erinnerungsintensiven und gesunden Menschenverstand-Aufgaben übertrifft. Darüber hinaus können vortrainierte LLMs strukturell mit NHA hybridisiert werden, wodurch eine wettbewerbsfähige Genauigkeit bei gleichzeitig erheblichen Effizienzgewinnen erreicht wird. Der Code ist verfügbar unter https://github.com/JusenD/NHA.
Große Text-zu-Bild-Diffusionsmodelle, obwohl leistungsstark, leiden unter prohibitiven Rechenkosten. Bestehende One-Shot-Netzwerkpruning-Methoden können kaum direkt auf sie angewendet werden, da Diffusionsmodelle einen iterativen Entrauschungsprozess durchlaufen. Um diese Lücke zu schließen, stellt dieses Papier OBS-Diff vor, ein neuartiges One-Shot-Pruning-Framework, das eine genaue und trainingsfreie Kompression von großen Text-zu-Bild-Diffusionsmodellen ermöglicht. Konkret (i) belebt OBS-Diff das klassische Optimal Brain Surgeon (OBS) wieder, passt es an die komplexen Architekturen moderner Diffusionsmodelle an und unterstützt diverse Pruning-Granularitäten, einschließlich unstrukturierter, N:M semi-strukturierter und strukturierter (MHA-Köpfe und FFN-Neuronen) Sparsity; (ii) Um die Pruning-Kriterien mit der iterativen Dynamik des Diffusionsprozesses in Einklang zu bringen, wird durch die Betrachtung des Problems aus einer Fehlerakkumulationsperspektive eine neuartige, zeitstufenbewusste Hessian- Konstruktion vorgeschlagen, die ein logarithmisch abnehmendes Gewichtungsschema integriert und früheren Zeitstufen größere Bedeutung zuweist, um potenzielle Fehlerakkumulation zu mildern; (iii) Darüber hinaus wird eine recheneffiziente, gruppenweise sequenzielle Pruning-Strategie vorgeschlagen, um den teuren Kalibrierungsprozess zu amortisieren. Umfangreiche Experimente zeigen, dass OBS-Diff state-of-the-art One-Shot-Pruning für Diffusionsmodelle erreicht und Rückschlussbeschleunigung mit minimaler Verschlechterung der visuellen Qualität liefert.
Die rasche Entwicklung großer Sprachmodelle (LLMs) und der realen Welt hat die statische Natur weit verbreiteter Evaluierungsbenchmarks überholt, was Bedenken hinsichtlich ihrer Zuverlässigkeit bei der Bewertung der Faktizität von LLMs aufwirft. Während zahlreiche Arbeiten weiterhin auf beliebte, aber veraltete Benchmarks zurückgreifen, bleiben deren zeitliche Fehlausrichtung mit realweltlichen Fakten und modernen LLMs sowie deren Auswirkungen auf die Bewertung der Faktizität von LLMs weitgehend unerforscht. Daher präsentieren wir in dieser Arbeit eine systematische Untersuchung dieses Problems, indem wir fünf populäre Faktizitätsbenchmarks und acht LLMs, die in verschiedenen Jahren veröffentlicht wurden, analysieren. Eine aktuelle Faktenabrufpipeline und drei Metriken wurden speziell entwickelt, um die Alterung von Benchmarks und deren Auswirkungen auf die Bewertung der Faktizität von LLMs zu quantifizieren. Experimentelle Ergebnisse und Analysen zeigen, dass ein beträchtlicher Teil der Proben in den weit verbreiteten Faktizitätsbenchmarks veraltet ist, was zu unzuverlässigen Bewertungen der Faktizität von LLMs führt. Wir hoffen, dass unsere Arbeit eine Testumgebung bieten kann, um die Zuverlässigkeit eines Benchmarks für die Bewertung der Faktizität von LLMs zu beurteilen, und weitere Forschung zum Problem der Benchmark-Alterung anregt. Die Codes sind unter https://github.com/JiangXunyi/BenchAge verfügbar.
Bestehende Methoden zur Extraktion von Belohnungssignalen im Reinforcement Learning basieren typischerweise auf annotierten Daten und speziellen Trainingsaufteilungen – ein Ansatz, der im Kontrast dazu steht, wie Menschen direkt aus ihrer Umgebung lernen. In dieser Arbeit schlagen wir TTRV vor, um das Verständnis von Vision-Language-Modellen zu verbessern, indem das Modell während der Inferenzzeit dynamisch angepasst wird, ohne dass annotierte Daten benötigt werden. Konkret erweitern wir das Group Relative Policy Optimization (GRPO)-Framework, indem wir Belohnungen basierend auf der Häufigkeit der Ausgaben des Basismodells entwerfen, während wir jedes Testbeispiel mehrfach inferieren. Darüber hinaus schlagen wir vor, die Diversität der Modellausgaben zu steuern, indem das Modell gleichzeitig für eine niedrige Entropie der empirischen Ausgabeverteilung belohnt wird. Unser Ansatz erzielt konsistente Verbesserungen sowohl bei der Objekterkennung als auch beim visuellen Frage-Antworten (VQA), mit Steigerungen von bis zu 52,4 % bzw. 29,8 % und durchschnittlichen Verbesserungen von 24,6 % und 10,0 % über 16 Datensätze hinweg. Bemerkenswerterweise übertrifft TTRV, angewendet auf InternVL 8B, bei der Bilderkennung GPT-4o im Durchschnitt um 2,3 % über 8 Benchmarks hinweg, während es bei VQA äußerst wettbewerbsfähig bleibt. Dies zeigt, dass Reinforcement Learning zur Inferenzzeit die stärksten proprietären Modelle erreichen oder übertreffen kann. Schließlich entdecken wir viele interessante Eigenschaften von Reinforcement Learning zur Inferenzzeit für Vision-Language-Modelle: Beispielsweise führt TTRV selbst in extrem datenbegrenzten Szenarien, in denen die Anpassung an einem einzigen zufällig ausgewählten, nicht annotierten Testbeispiel durchgeführt wird, immer noch zu signifikanten Verbesserungen von bis zu 5,5 % bei Erkennungsaufgaben.
Eine grundlegende Herausforderung in der verkörperten Intelligenz besteht darin, ausdrucksstarke und kompakte Zustandsrepräsentationen für effiziente Weltmodellierung und Entscheidungsfindung zu entwickeln. Bisherige Methoden erreichen jedoch oft nicht dieses Gleichgewicht und erzeugen Repräsentationen, die entweder übermäßig redundant sind oder wichtige aufgabenrelevante Informationen vermissen lassen. Wir schlagen einen unüberwachten Ansatz vor, der eine stark komprimierte Zwei-Token-Zustandsrepräsentation mithilfe eines leichtgewichtigen Encoders und eines vortrainierten Diffusion Transformer (DiT)-Decoders lernt, wobei dessen starkes generatives Vorwissen genutzt wird. Unsere Repräsentation ist effizient, interpretierbar und lässt sich nahtlos in bestehende VLA-basierte Modelle integrieren, wodurch die Leistung um 14,3 % auf LIBERO und um 30 % bei der Erfolgsrate realer Aufgaben bei minimalem Inferenzaufwand verbessert wird. Noch wichtiger ist, dass wir feststellen, dass die Differenz zwischen diesen Tokens, die durch latente Interpolation gewonnen wird, natürlicherweise als hochwirksame latente Aktion dient, die weiter in ausführbare Roboteraktionen decodiert werden kann. Diese emergente Fähigkeit zeigt, dass unsere Repräsentation strukturierte Dynamiken ohne explizite Überwachung erfasst. Wir nennen unsere Methode StaMo, da sie generalisierbare robotische Bewegung aus kompakter Zustandsrepräsentation lernt, die aus statischen Bildern kodiert wird, und damit die weit verbreitete Abhängigkeit von komplexen Architekturen und Videodaten für das Lernen latenter Aktionen in Frage stellt. Die resultierenden latenten Aktionen verbessern auch das Policy-Co-Training und übertreffen bisherige Methoden um 10,4 % bei verbesserter Interpretierbarkeit. Darüber hinaus skaliert unser Ansatz effektiv über diverse Datenquellen hinweg, einschließlich realer Roboterdaten, Simulationen und humaner egozentrischer Videos.
Jüngste Bemühungen zur Beschleunigung der Inferenz in Multimodalen Großen Sprachmodellen (MLLMs) konzentrieren sich hauptsächlich auf die Kompression visueller Tokens. Die Wirksamkeit dieser Methoden wird typischerweise durch die Messung des Genauigkeitsverlusts auf etablierten Benchmarks bewertet, wobei die Modellleistung vor und nach der Kompression verglichen wird. Diese Benchmarks sind jedoch ursprünglich dafür konzipiert, die Wahrnehmungs- und Denkfähigkeiten von MLLMs zu bewerten, und nicht, um Kompressionstechniken zu evaluieren. Folglich führt die direkte Anwendung auf die Kompression visueller Tokens zu einer Aufgabenfehlanpassung. Bemerkenswerterweise zeigt unsere Untersuchung, dass einfache Bildverkleinerung viele fortgeschrittene Kompressionsmethoden über mehrere weit verbreitete Benchmarks hinweg konsequent übertrifft. Durch umfangreiche Experimente machen wir die folgenden Beobachtungen: (i) Aktuelle Benchmarks sind für die Aufgabe der visuellen Token-Kompression verrauscht. (ii) Bildverkleinerung kann als Datenfilter dienen, um die Schwierigkeit von Proben in der visuellen Token-Kompression zu bewerten. Motiviert durch diese Erkenntnisse führen wir VTC-Bench ein, ein Bewertungsframework, das einen Datenfiltermechanismus integriert, um bestehende Benchmarks zu entrauschen und somit eine fairere und genauere Bewertung von Methoden zur visuellen Token-Kompression zu ermöglichen. Alle Daten und Codes sind unter https://github.com/Chenfei-Liao/VTC-Bench verfügbar.
Multimodale große Sprachmodelle (MLLMs) haben in den letzten Jahren rasante Fortschritte gemacht. Bestehende Ansätze für visuelle Aufgaben stützen sich jedoch oft auf indirekte Repräsentationen, wie beispielsweise die Generierung von Koordinaten als Text für die Detektion, was die Leistung einschränkt und dichte Vorhersageaufgaben wie die Segmentierung verhindert. Um diese Herausforderungen zu bewältigen, führen wir Patch-as-Decodable Token (PaDT) ein, ein einheitliches Paradigma, das MLLMs ermöglicht, sowohl textuelle als auch diverse visuelle Ausgaben direkt zu generieren. Kern von PaDT sind Visual Reference Tokens (VRTs), die aus visuellen Patch-Einbettungen von Anfragebildern abgeleitet und nahtlos mit den textuellen Ausgabetokens des LLM verflochten werden. Ein leichtgewichtiger Decoder transformiert dann die Ausgaben des LLM in Detektions-, Segmentierungs- und Grounding-Vorhersagen. Im Gegensatz zu früheren Methoden verarbeitet PaDT VRTs unabhängig bei jedem Vorwärtsdurchlauf und erweitert die Einbettungstabelle dynamisch, wodurch die Lokalisierung und Differenzierung zwischen ähnlichen Objekten verbessert wird. Wir passen außerdem eine Trainingsstrategie für PaDT an, indem wir zufällig VRTs für das überwachte Feinabstimmen auswählen und einen robusten pro-Token-Kreuzentropieverlust einführen. Unsere empirischen Studien über vier visuelle Wahrnehmungs- und Verständnisaufgaben zeigen, dass PaDT durchweg state-of-the-art Leistungen erzielt, selbst im Vergleich zu deutlich größeren MLLM-Modellen. Der Code ist verfügbar unter https://github.com/Gorilla-Lab-SCUT/PaDT.
Die Entwicklung modernster großer Sprachmodelle wird allgemein als ein zweistufiger Prozess verstanden, der Vor- und Nachtraining umfasst. Wir weisen auf die Notwendigkeit einer zusätzlichen Zwischenstufe hin, die als Reinforcement Mid-Training bezeichnet wird und das Potenzial für erhebliche Leistungssteigerungen bietet. In diesem Papier definieren wir das Problem formal und identifizieren drei zentrale Herausforderungen: (1) ineffizientes Training aufgrund übermäßiger Denkschritte, (2) die Vernachlässigung der unausgewogenen Token-Entropieverteilung und (3) die unzureichende Nutzung von Token-Informationen. Um diese Herausforderungen zu bewältigen, schlagen wir RMT vor, ein Framework für effizientes, adaptives und einheitliches Reinforcement Mid-Training mit verschiedenen innovativen Komponenten. Insbesondere führen wir zunächst einen dynamischen Token-Budget-Mechanismus ein, der unnötige Denkschritte einschränkt und Modell-Überdenken reduziert. Anschließend entwerfen wir eine curriculum-basierte adaptive Sampling-Methode, die einen progressiven Lernpfad von einfachen zu schwierigen Tokens fördert. Schließlich präsentieren wir eine Dual-Training-Strategie, die Reinforcement Learning mit der Vorhersage des nächsten Tokens kombiniert, um gezieltes Lernen auf Schlüsseltokens und die vollständige Nutzung aller Token-Informationen zu gewährleisten. Umfangreiche Experimente demonstrieren die Überlegenheit von RMT gegenüber modernsten Methoden, mit einer Leistungssteigerung von bis zu +64,91 % bei nur 21 % der Denklänge im Sprachmodellierungskontext. Wir zeigen außerdem, dass Checkpoints, die nach dem Reinforcement Mid-Training erhalten werden, das nachfolgende Nachtraining verbessern können, was zu einer Steigerung von bis zu +18,76 % im mathematischen Bereich führt.
Handgelenkansichten sind entscheidend für VLA-Modelle, da sie feingranulare Hand-Objekt-Interaktionen erfassen, die die Manipulationsleistung direkt verbessern. Dennoch umfassen groß angelegte Datensätze selten solche Aufnahmen, was zu einer erheblichen Lücke zwischen reichlich vorhandenen Ankeransichten und knappen Handgelenkansichten führt. Bestehende Weltmodelle können diese Lücke nicht schließen, da sie einen ersten Frame in Handgelenkansicht benötigen und somit nicht in der Lage sind, Handgelenkansicht-Videos allein aus Ankeransichten zu generieren. Inmitten dieser Lücke tauchen neuere visuelle Geometriemodelle wie VGGT mit geometrischen und perspektivenübergreifenden Priors auf, die es ermöglichen, extreme Blickwinkelverschiebungen zu bewältigen. Inspiriert von diesen Erkenntnissen schlagen wir WristWorld vor, das erste 4D-Weltmodell, das Handgelenkansicht-Videos ausschließlich aus Ankeransichten generiert. WristWorld arbeitet in zwei Phasen: (i) Rekonstruktion, die VGGT erweitert und unseren Spatial Projection Consistency (SPC) Loss integriert, um geometrisch konsistente Handgelenkansicht-Posen und 4D-Punktwolken zu schätzen; (ii) Generierung, die unser Videogenerierungsmodell verwendet, um zeitlich kohärente Handgelenkansicht-Videos aus der rekonstruierten Perspektive zu synthetisieren. Experimente mit Droid, Calvin und Franka Panda demonstrieren eine state-of-the-art Videogenerierung mit überlegener räumlicher Konsistenz, während gleichzeitig die VLA-Leistung verbessert wird, was die durchschnittliche Aufgabenabschlusslänge bei Calvin um 3,81 % erhöht und 42,4 % der Lücke zwischen Anker- und Handgelenkansicht schließt.
Während Sprachmodelle (LMs) bedeutende Fortschritte bei der Automatisierung des maschinellen Lernens (MLE) gemacht haben, ist die Beschaffung von hochwertigen MLE-Trainingsdaten erheblich eingeschränkt. Aktuelle MLE-Benchmarks leiden unter geringer Skalierbarkeit und begrenzter Anwendbarkeit, da sie auf statischen, manuell kuratierten Aufgaben basieren, deren Erstellung viel Zeit und manuellen Aufwand erfordert. Wir stellen MLE-Smith vor, eine vollständig automatisierte Multi-Agenten-Pipeline, die Rohdatensätze in wettbewerbsartige MLE-Herausforderungen transformiert, indem sie ein effizientes Generieren-Verifizieren-Ausführen-Paradigma nutzt, um MLE-Aufgaben mit überprüfbarer Qualität, realer Anwendbarkeit und großer Vielfalt zu skalieren. Die vorgeschlagene Multi-Agenten-Pipeline in MLE-Smith fördert strukturierte Aufgabenentwürfe und standardisierte Refaktorierung, gekoppelt mit einem hybriden Verifizierungsmechanismus, der strenge strukturelle Regeln und semantische Korrektheit auf hohem Niveau durchsetzt. Sie validiert zudem empirische Lösbarkeit und reale Treue durch interaktive Ausführung. Wir wenden MLE-Smith auf 224 reale Datensätze an und generieren 606 Aufgaben, die mehrere Kategorien, Ziele und Modalitäten abdecken, was zeigt, dass MLE-Smith effektiv über eine breite Palette realer Datensätze hinweg arbeiten kann. Die Bewertung der generierten Aufgaben zeigt, dass die Leistung von acht Mainstream- und Spitzen-LLMs auf MLE-Smith-Aufgaben stark mit ihrer Leistung auf sorgfältig von Menschen entworfenen Aufgaben korreliert, was die Effektivität von MLE-Smith bei der Skalierung von MLE-Aufgaben unter Beibehaltung der Aufgabenqualität unterstreicht.
Die Integration von Online Reinforcement Learning (RL) in Diffusions- und Flussmodelle hat sich kürzlich als vielversprechender Ansatz zur Ausrichtung generativer Modelle an menschlichen Präferenzen herausgestellt. Stochastisches Sampling über Stochastische Differentialgleichungen (SDE) wird während des Entrauschungsprozesses eingesetzt, um vielfältige Entrauschungsrichtungen für die RL-Exploration zu generieren. Während bestehende Methoden potenzielle Hochwertproben effektiv erkunden, leiden sie unter einer suboptimalen Präferenzausrichtung aufgrund von spärlichen und begrenzten Belohnungssignalen. Um diese Herausforderungen zu bewältigen, schlagen wir ein neuartiges Granular-GRPO (G^2RPO)-Framework vor, das präzise und umfassende Belohnungsbewertungen von Sampling-Richtungen im Reinforcement Learning von Flussmodellen ermöglicht. Insbesondere wird eine Singular Stochastic Sampling-Strategie eingeführt, um schrittweise stochastische Exploration zu unterstützen und gleichzeitig eine hohe Korrelation zwischen der Belohnung und dem injizierten Rauschen zu erzwingen, wodurch eine zuverlässige Belohnung für jede SDE-Störung ermöglicht wird. Gleichzeitig führen wir ein Multi-Granularity Advantage Integration-Modul ein, um die Verzerrung zu beseitigen, die in der Entrauschung mit fester Granularität inhärent ist. Dieses Modul aggregiert Vorteile, die auf mehreren Diffusionsskalen berechnet werden, und erzeugt so eine umfassendere und robustere Bewertung der Sampling-Richtungen. Experimente, die mit verschiedenen Belohnungsmodellen durchgeführt wurden, einschließlich In-Domain- und Out-of-Domain-Evaluierungen, zeigen, dass unser G^2RPO bestehende flussbasierte GRPO-Baselines deutlich übertrifft, was seine Effektivität und Robustheit unterstreicht.
Die Hypothese der gleichmäßigen Informationsdichte (Uniform Information Density, UID) besagt, dass effektive Kommunikation einen stabilen Informationsfluss aufrechterhält. In dieser Arbeit untersuchen wir dieses Prinzip im Kontext von Reasoning-Traces großer Sprachmodelle (LLMs) und fragen, ob die Gleichmäßigkeit auf Schritt-Ebene die Qualität des Reasonings widerspiegelt. Zu diesem Zweck schlagen wir eine schrittweise Informationsdichtemessung auf Basis der Entropie vor und führen zwei komplementäre Maße für Gleichmäßigkeit ein: lokale und globale Gleichmäßigkeitswerte. In Experimenten mit sechs verschiedenen Reasoning-Benchmarks stellen wir fest, dass die Gleichmäßigkeit auf Schritt-Ebene nicht nur eine starke theoretische Perspektive bietet, sondern auch praktische Leistungsvorteile mit sich bringt; beispielsweise verbessert die Auswahl von Reasoning-Traces mit gleichmäßigerer Informationsdichte auf Schritt-Ebene die Genauigkeit um relative Gewinne von 10–32 % gegenüber den Baselines bei AIME2025. Unsere Analyse zeigt weiterhin, dass korrekte Reasoning-Traces tendenziell starke Spitzen in der Informationsdichte vermeiden, während inkorrekte Traces unregelmäßige Informationsausbrüche aufweisen. Diese Ergebnisse demonstrieren, dass UID-inspirierte Maße der Informationsdichte alternative interne Signale als Prädiktoren für Reasoning-Qualität übertreffen. Die Ergebnisse unterstreichen die Gleichmäßigkeit der Informationsdichte als robustes Diagnose- und Auswahlkriterium für den Aufbau zuverlässigerer und genauerer Reasoning-Systeme.
Im letzten Jahrzehnt hat U-Net die dominierende Architektur in der medizinischen Bildsegmentierung dargestellt, was zur Entwicklung Tausender U-förmiger Varianten geführt hat. Trotz seiner weit verbreiteten Anwendung gibt es noch keinen umfassenden Benchmark, um ihre Leistung und Nützlichkeit systematisch zu bewerten, was größtenteils auf unzureichende statistische Validierung und begrenzte Berücksichtigung von Effizienz und Generalisierung über verschiedene Datensätze hinweg zurückzuführen ist. Um diese Lücke zu schließen, präsentieren wir U-Bench, den ersten groß angelegten, statistisch fundierten Benchmark, der 100 U-Net-Varianten über 28 Datensätze und 10 Bildgebungsmodalitäten hinweg evaluiert. Unsere Beiträge sind dreifach: (1) Umfassende Evaluation: U-Bench bewertet Modelle entlang drei Schlüsseldimensionen: statistische Robustheit, Zero-Shot-Generalisierung und Recheneffizienz. Wir führen eine neue Metrik, den U-Score, ein, der den Leistungs-Effizienz-Kompromiss gemeinsam erfasst und eine einsatzorientierte Perspektive auf den Modellfortschritt bietet. (2) Systematische Analyse und Modellauswahlhilfe: Wir fassen die wichtigsten Erkenntnisse aus der groß angelegten Evaluation zusammen und analysieren systematisch den Einfluss von Datensatzmerkmalen und architektonischen Paradigmen auf die Modellleistung. Basierend auf diesen Erkenntnissen schlagen wir einen Modellberater-Agenten vor, der Forscher bei der Auswahl der am besten geeigneten Modelle für spezifische Datensätze und Aufgaben unterstützt. (3) Öffentliche Verfügbarkeit: Wir stellen allen Code, Modelle, Protokolle und Gewichte zur Verfügung, wodurch die Gemeinschaft unsere Ergebnisse reproduzieren und den Benchmark mit zukünftigen Methoden erweitern kann. Zusammenfassend deckt U-Bench nicht nur Lücken in früheren Evaluationen auf, sondern legt auch eine Grundlage für faire, reproduzierbare und praktisch relevante Benchmarking in den nächsten zehn Jahren U-Net-basierter Segmentierungsmodelle. Das Projekt ist zugänglich unter: https://fenghetan9.github.io/ubench. Der Code ist verfügbar unter: https://github.com/FengheTan9/U-Bench.
Die Erkennung generischer Ereignisgrenzen (Generic Event Boundary Detection, GEBD) zielt darauf ab, lange Videos aus der Perspektive der menschlichen Wahrnehmung zu interpretieren. Allerdings erfordern aktuelle GEBD-Methoden die Verarbeitung vollständiger Videobilder, um Vorhersagen zu treffen, im Gegensatz zur menschlichen Fähigkeit, Daten online und in Echtzeit zu verarbeiten. Um diese Lücke zu schließen, führen wir eine neue Aufgabe ein, die Online-Generische Ereignisgrenzenerkennung (On-GEBD), die darauf abzielt, Grenzen generischer Ereignisse unmittelbar in Streaming-Videos zu erkennen. Diese Aufgabe stellt einzigartige Herausforderungen dar, wie die Identifizierung subtiler, taxonomiefreier Ereignisänderungen in Echtzeit ohne Zugriff auf zukünftige Bilder. Um diese Herausforderungen zu bewältigen, schlagen wir ein neuartiges On-GEBD-Framework vor, den Estimator, der von der Ereignissegmentierungstheorie (Event Segmentation Theory, EST) inspiriert ist. Diese Theorie erklärt, wie Menschen laufende Aktivitäten in Ereignisse segmentieren, indem sie die Diskrepanzen zwischen vorhergesagten und tatsächlichen Informationen nutzen. Unser Framework besteht aus zwei Schlüsselkomponenten: dem Consistent Event Anticipator (CEA) und dem Online Boundary Discriminator (OBD). Konkret generiert der CEA eine Vorhersage des zukünftigen Bildes, das die aktuelle Ereignisdynamik basierend ausschließlich auf vorherigen Bildern widerspiegelt. Anschließend misst der OBD den Vorhersagefehler und passt den Schwellenwert adaptiv mithilfe statistischer Tests auf vergangene Fehler an, um vielfältige, subtile Ereignisübergänge zu erfassen. Experimentelle Ergebnisse zeigen, dass der Estimator alle Baselines, die aus aktuellen Online-Video-Verständnismodellen adaptiert wurden, übertrifft und eine Leistung erzielt, die mit früheren Offline-GEBD-Methoden auf den Datensätzen Kinetics-GEBD und TAPOS vergleichbar ist.
Wir stellen Heptapod vor, ein autoregressives Bildmodell, das den grundlegenden Prinzipien des Sprachmodellierens folgt. Heptapod verwendet kausale Aufmerksamkeit, verzichtet auf die Abhängigkeit von CFG und distanziert sich vom Trend semantischer Tokenizer. Unsere zentrale Innovation ist die Vorhersage der nächsten 2D-Verteilung: Ein kausaler Transformer mit einem auf Rekonstruktion ausgerichteten visuellen Tokenizer lernt, die Verteilung über das gesamte 2D-räumliche Raster von Bildern in jedem Zeitschritt vorherzusagen. Dieses Lernziel vereint die sequenzielle Modellierung des autoregressiven Rahmens mit dem ganzheitlichen selbstüberwachten Lernen des maskierten Autoencodings, wodurch das Modell in der Lage ist, umfassende Bildsemantik durch generatives Training zu erfassen. Auf dem ImageNet-Generierungsbenchmark erreicht Heptapod einen FID von 2,70 und übertrifft damit bisherige kausale autoregressive Ansätze deutlich. Wir hoffen, dass unsere Arbeit eine prinzipielle Neubetrachtung des Sprachmodellierens auf visuellen Signalen und darüber hinaus anregt.
Computer-Use-Agent (CUA)-Frameworks, die durch große Sprachmodelle (LLMs) oder multimodale LLMs (MLLMs) angetrieben werden, entwickeln sich schnell zu Assistenten, die Kontext wahrnehmen, schlussfolgern und direkt in Softwareumgebungen handeln können. Zu ihren wichtigsten Anwendungen gehört die Steuerung von Betriebssystemen (OS). Da CUAs im OS-Bereich zunehmend in den täglichen Betrieb integriert werden, ist es unerlässlich, ihre realen Sicherheitsauswirkungen zu untersuchen, insbesondere ob CUAs missbraucht werden können, um realistische, sicherheitsrelevante Angriffe durchzuführen. Bestehende Arbeiten weisen vier wesentliche Einschränkungen auf: Fehlendes Angreiferwissensmodell zu Taktiken, Techniken und Verfahren (TTP), unvollständige Abdeckung von End-to-End-Kill-Chains, unrealistische Umgebung ohne Multi-Host- und verschlüsselte Benutzeranmeldeinformationen sowie unzuverlässige Bewertung, die auf LLM-as-a-Judge basiert. Um diese Lücken zu schließen, schlagen wir AdvCUA vor, den ersten Benchmark, der mit realen TTPs in der MITRE ATT&CK Enterprise Matrix abgestimmt ist und 140 Aufgaben umfasst, darunter 40 direkte bösartige Aufgaben, 74 TTP-basierte bösartige Aufgaben und 26 End-to-End-Kill-Chains. Dieser bewertet CUAs systematisch unter einer realistischen Bedrohung der Unternehmens-OS-Sicherheit in einer Multi-Host-Umgebungssandbox durch hartkodierte Bewertung. Wir bewerten die fünf bestehenden Mainstream-CUAs, darunter ReAct, AutoGPT, Gemini CLI, Cursor CLI und Cursor IDE, basierend auf 8 grundlegenden LLMs. Die Ergebnisse zeigen, dass aktuelle fortschrittliche CUAs OS-sicherheitszentrierte Bedrohungen nicht ausreichend abdecken. Diese Fähigkeiten von CUAs verringern die Abhängigkeit von maßgeschneiderter Malware und tiefgreifendem Domänenwissen und ermöglichen es sogar unerfahrenen Angreifern, komplexe Unternehmensintrusionen durchzuführen, was gesellschaftliche Bedenken hinsichtlich der Verantwortung und Sicherheit von CUAs aufwirft.
Die Wahl des Optimierers hat einen erheblichen Einfluss auf die Trainings effizienz und die Rechenkosten von großen Sprachmodellen (LLMs). Kürzlich hat der Muon-Optimierer vielversprechende Ergebnisse gezeigt, indem er Parameteraktualisierungen orthogonalisiert und die Optimierungsgeometrie durch eine bessere Konditionierung verbessert. Obwohl Muon als potenzieller Nachfolger von Adam aufgetreten ist, wurde das Potenzial, ihre Stärken gemeinsam zu nutzen, bisher nicht systematisch untersucht. In dieser Arbeit schließen wir diese Lücke, indem wir NorMuon (Neuron-wise Normalized Muon) vorschlagen, einen Optimierer, der Orthogonalisierung mit adaptiven Lernraten auf Neuronenniveau synergetisch kombiniert. Unsere Analyse zeigt, dass Muon zwar effektiv Konditionszahlen reduziert, die resultierenden Aktualisierungen jedoch stark nicht-uniforme Neuronennormen aufweisen, was dazu führt, dass bestimmte Neuronen den Optimierungsprozess dominieren. NorMuon behebt dieses Ungleichgewicht, indem es zweite Momente für jedes Neuron beibehält und nach der Orthogonalisierung eine zeilenweise Normalisierung anwendet, wodurch eine ausgewogene Parameterausnutzung gewährleistet wird, während die Konditionierungsvorteile von Muon erhalten bleiben. Um eine praktische Implementierung in großem Maßstab zu ermöglichen, entwickeln wir eine effiziente verteilte Implementierung unter dem FSDP2-Framework, das Orthogonalisierungsberechnungen strategisch über Geräte verteilt. Experimente über mehrere Modellskalen hinweg zeigen, dass NorMuon durchweg sowohl Adam als auch Muon übertrifft und eine 21,74 % bessere Trainings effizienz als Adam und eine 11,31 % Verbesserung gegenüber Muon im 1,1 B-Pretraining-Setting erzielt, während es einen vergleichbaren Speicherbedarf wie Muon beibehält. Unsere Ergebnisse deuten darauf hin, dass Orthogonalisierung und adaptive Lernraten eher komplementär als konkurrierende Ansätze sind und neue Wege für das Design von Optimierern im groß angelegten Deep Learning eröffnen.
Die Text-zu-Video (T2V)-Generierungstechnologie hat das Potenzial, zahlreiche Bereiche wie Bildung, Marketing, Unterhaltung und assistive Technologien für Menschen mit visuellen oder Leseverständnisschwierigkeiten zu transformieren, indem sie kohärente visuelle Inhalte aus natürlichen Sprachbefehlen erzeugt. Seit ihren Anfängen hat sich das Feld von adversariellen Modellen zu diffusionsbasierten Modellen weiterentwickelt, was zu höherer Qualität und zeitlicher Konsistenz der Ausgaben führt. Dennoch bestehen weiterhin Herausforderungen wie Ausrichtung, langfristige Kohärenz und Recheneffizienz. Vor diesem sich wandelnden Hintergrund präsentieren wir eine umfassende Übersicht über text-zu-video-generative Modelle, verfolgen ihre Entwicklung von frühen GANs und VAEs bis hin zu hybriden Diffusion-Transformer (DiT)-Architekturen und erläutern, wie diese Modelle funktionieren, welche Einschränkungen ihrer Vorgänger sie adressierten und warum Verschiebungen hin zu neuen architektonischen Paradigmen notwendig waren, um Herausforderungen in Bezug auf Qualität, Kohärenz und Kontrolle zu überwinden. Wir bieten einen systematischen Überblick über die Datensätze, auf denen die untersuchten Text-zu-Video-Modelle trainiert und evaluiert wurden, und um Reproduzierbarkeit zu unterstützen und die Zugänglichkeit des Trainings solcher Modelle zu bewerten, detaillieren wir ihre Trainingskonfigurationen, einschließlich ihrer Hardware-Spezifikationen, GPU-Anzahl, Batch-Größen, Lernraten, Optimierer, Epochen und anderer wichtiger Hyperparameter. Darüber hinaus skizzieren wir die gängigen Evaluationsmetriken, die zur Bewertung solcher Modelle verwendet werden, und präsentieren ihre Leistung über Standard-Benchmarks hinweg, während wir auch die Grenzen dieser Metriken und den aufkommenden Trend hin zu ganzheitlicheren, wahrnehmungsorientierten Evaluationsstrategien diskutieren. Schließlich skizzieren wir auf der Grundlage unserer Analyse die aktuellen offenen Herausforderungen und schlagen einige vielversprechende zukünftige Richtungen vor, um eine Perspektive für zukünftige Forscher zu schaffen, die T2V-Forschung und -Anwendungen weiter voranzutreiben und darauf aufzubauen.
Wir präsentieren AlphaApollo, ein sich selbst weiterentwickelndes agentenbasiertes Reasoning-System, das darauf abzielt, zwei Engpässe im Reasoning von Foundation-Modellen (FMs) zu adressieren: die begrenzte modellintrinsische Kapazität und unzuverlässige Iterationen zur Testzeit. AlphaApollo orchestriert mehrere Modelle mit professionellen Werkzeugen, um gezieltes, überprüfbares Reasoning zu ermöglichen. Es kombiniert (i) ein Berechnungswerkzeug (Python mit numerischen und symbolischen Bibliotheken) und (ii) ein Retrieval-Werkzeug (aufgabenrelevante externe Informationen), um exakte Berechnungen durchzuführen und Entscheidungen zu fundieren. Das System unterstützt zudem die mehrstufige, multimodale Lösungsentwicklung über eine gemeinsame Zustandskarte, die Kandidaten, ausführbare Prüfungen und Feedback für iterative Verbesserungen festhält. In Evaluierungen auf AIME 2024/2025 über mehrere Modelle hinweg erzielt AlphaApollo konsistente Verbesserungen: +5,15 % Average@32 und +23,34 % Pass@32 für Qwen2.5-14B-Instruct sowie +8,91 % Average@32 und +26,67 % Pass@32 für Llama-3.3-70B-Instruct. Die Analyse der Werkzeugnutzung zeigt, dass mehr als 80 % der Werkzeugaufrufe erfolgreich ausgeführt werden, wobei die Nicht-Werkzeug-Baselines konsequent übertroffen werden, wodurch die Fähigkeitsgrenze von FMs angehoben wird. Weitere empirische Ergebnisse und Implementierungsdetails werden unter https://github.com/tmlr-group/AlphaApollo aktualisiert.
Gängige Evaluierungen von Large Language Models (LLMs) stützen sich auf Demonstrationsbeispiele, um die Antworten der Modelle in den gewünschten Stil zu lenken. Während die Anzahl der verwendeten Beispiele untersucht und standardisiert wurde, ist die Wahl der Formatierung der Beispiele weniger erforscht. In Evaluierungsprotokollen und im praktischen Einsatz stehen Nutzer vor der Entscheidung, wie sie In-Context-Beispiele trennen sollen: ein Komma? eine neue Zeile? ein Semikolon? ein Hashtag? usw. Überraschenderweise stellen wir fest, dass diese scheinbar unbedeutende Wahl die Qualität der Modellantworten erheblich beeinflussen kann. Bei führenden Modellfamilien (Llama, Qwen, Gemma) kann die Leistung auf MMLU beispielsweise um ±23 % variieren, abhängig von der Wahl des Trennzeichens. Tatsächlich kann man die Modellranglisten manipulieren, um jedes Modell an die Spitze zu setzen, indem man nur das einzelne Zeichen ändert, das die Beispiele trennt. Wir stellen fest, dass die Anfälligkeit von LLMs Themen, Modellfamilien und Skalierung durchdringt und sich mit zunehmender Skalierung nicht verbessert. Durch die Untersuchung von Attention-Head-Scores finden wir heraus, dass gut funktionierende Trennzeichen die Aufmerksamkeit auf Schlüssel-Tokens in der Eingabe lenken. Schließlich erkunden wir Methoden, um die Robustheit von LLMs gegenüber der Wahl des Trennzeichens zu verbessern. Wir stellen fest, dass die Angabe des ausgewählten Trennzeichens im Prompt die Robustheit erhöht, und bieten praktische Empfehlungen für die Auswahl der leistungsstärksten Trennzeichen.
Code-Switching (CSW), der Wechsel zwischen Sprachen und Schriftsystemen innerhalb einer einzelnen Äußerung, bleibt eine grundlegende Herausforderung für die mehrsprachige NLP, selbst angesichts der rasanten Fortschritte bei großen Sprachmodellen (LLMs). Die meisten LLMs haben nach wie vor Schwierigkeiten mit gemischtsprachigen Eingaben, begrenzten CSW-Datensätzen und Bewertungsverzerrungen, was den Einsatz in mehrsprachigen Gesellschaften behindert. Diese Übersichtsarbeit bietet die erste umfassende Analyse der CSW-bewussten LLM-Forschung und untersucht einzigartige Studien, die fünf Forschungsbereiche, 12 NLP-Aufgaben, über 30 Datensätze und mehr als 80 Sprachen abdecken. Wir klassifizieren die jüngsten Fortschritte nach Architektur, Trainingsstrategie und Evaluierungsmethodik und skizzieren, wie LLMs die CSW-Modellierung neu gestaltet haben und welche Herausforderungen bestehen bleiben. Die Arbeit schließt mit einem Fahrplan, der die Notwendigkeit inklusiver Datensätze, fairer Bewertungen und linguistisch fundierter Modelle betont, um eine wirklich mehrsprachige Intelligenz zu erreichen. Eine kuratierte Sammlung aller Ressourcen wird unter https://github.com/lingo-iitgn/awesome-code-mixing/ gepflegt.
Mit der zunehmenden Nutzung von Retrieval-Augmented Generation (RAG) sind leistungsstarke Retrieval-Modelle wichtiger denn je geworden. Im Gesundheitswesen bieten multimodale Retrieval-Modelle, die Informationen sowohl aus Texten als auch aus Bildern kombinieren, erhebliche Vorteile für viele nachgelagerte Aufgaben wie Frage-Antwort-Systeme, cross-modales Retrieval und multimodale Zusammenfassungen, da medizinische Daten oft beide Formate umfassen. Allerdings gibt es derzeit keinen Standard-Benchmark, um zu bewerten, wie gut diese Modelle in medizinischen Kontexten abschneiden. Um diese Lücke zu schließen, führen wir M3Retrieve ein, einen Multimodalen Medizinischen Retrieval-Benchmark. M3Retrieve umfasst 5 Domänen, 16 medizinische Fachgebiete und 4 verschiedene Aufgaben mit über 1,2 Millionen Textdokumenten und 164.000 multimodalen Abfragen, die alle unter genehmigten Lizenzen gesammelt wurden. Wir bewerten führende multimodale Retrieval-Modelle anhand dieses Benchmarks, um die spezifischen Herausforderungen verschiedener medizinischer Fachgebiete zu untersuchen und deren Auswirkungen auf die Retrieval-Leistung zu verstehen. Mit der Veröffentlichung von M3Retrieve möchten wir eine systematische Bewertung ermöglichen, die Innovation von Modellen fördern und die Forschung hin zu leistungsfähigeren und zuverlässigeren multimodalen Retrieval-Systemen für medizinische Anwendungen beschleunigen. Der Datensatz und der Code für die Baselines sind auf dieser GitHub-Seite verfügbar: https://github.com/AkashGhosh/M3Retrieve.
Große Sprachmodelle (LLMs) neigen häufig dazu, bei langen Fragen zu halluzinieren und dabei plausible, aber faktisch falsche Antworten zu generieren. Eine gängige Strategie zur Minderung dieses Problems besteht darin, den Ausgaben von LLMs eine Zuschreibung (Attribution) hinzuzufügen. Bisherige Benchmarks konzentrieren sich jedoch hauptsächlich auf einfache Zuschreibungen, die unterstützende Textnachweise als Referenzen abrufen. Wir argumentieren, dass in realen Anwendungsszenarien, wie beispielsweise im Finanzbereich, Zuschreibungen über die bloße Referenzbeschaffung hinausgehen. Wir stellen FinLFQA vor, einen Benchmark, der darauf abzielt, die Fähigkeit von LLMs zu bewerten, lange Antworten auf komplexe Finanzfragen mit zuverlässigen und differenzierten Zuschreibungen zu generieren. FinLFQA bewertet drei kritische Aspekte der Zuschreibung durch menschliche Annotationen: (1) unterstützende Nachweise, die aus Finanzberichten extrahiert werden, (2) Zwischenschritte der numerischen Argumentation und (3) domänenspezifisches Finanzwissen, das den Argumentationsprozess informiert. Darüber hinaus bieten wir ein automatisches Bewertungsframework, das sowohl die Antwortqualität als auch die Qualität der Zuschreibung abdeckt. Durch umfangreiche Experimente mit acht LLMs über mehrere Zuschreibungsgenerierungs-Paradigmen hinweg stellen wir fest, dass feinkörnige Metriken wichtig sind, um die Fähigkeiten der Modelle zu unterscheiden, dass end-to-end-Generierung vergleichbare Leistungen zu nachträglichen Ansätzen erzielt und dass iterative Verbesserungen nur dann helfen, wenn sie durch externes Feedback geleitet werden.
Der Reiseplanungs-Agent (Travel Planning Agent, TP) hat sich kürzlich als ein aufstrebendes Bauelement etabliert, das mit externen Tools und Ressourcen interagiert, um Reiseitinerare zu erstellen und dabei ein angenehmes Benutzererlebnis zu gewährleisten. Trotz seiner Vorteile stützen sich bestehende Studien auf manuell erstellte Prompts und feste Agenten-Workflows, was die Entwicklung eines flexibleren und autonomen TP-Agenten behindert. Dieses Papier stellt DeepTravel vor, ein end-to-end agentisches Reinforcement-Learning-Framework zur Entwicklung eines autonomen Reiseplanungs-Agenten, der in der Lage ist, autonom zu planen, Tools auszuführen und auf Tool-Antworten zu reflektieren, um Zwischenaktionen in mehrstufigen Denkprozessen zu erkunden, zu überprüfen und zu verfeinern. Um dies zu erreichen, konstruieren wir zunächst eine robuste Sandbox-Umgebung, indem wir Daten zu Transport, Unterkünften und POIs zwischenspeichern, was das Training des TP-Agenten erleichtert, ohne durch die Einschränkungen realer APIs (z. B. inkonsistente Ausgaben) behindert zu werden. Darüber hinaus entwickeln wir ein hierarchisches Belohnungsmodellierungssystem, bei dem ein Trajektorien-Level-Verifizierer zunächst die raumzeitliche Machbarkeit überprüft und unbefriedigende Reiseitinerare filtert, und dann ein Turn-Level-Verifizierer die Konsistenz der Itinerardetails mit den Tool-Antworten weiter validiert, wodurch ein effizienter und präziser Belohnungsdienst ermöglicht wird. Schließlich schlagen wir die Reply-Augmented Reinforcement-Learning-Methode vor, die es dem TP-Agenten ermöglicht, periodisch aus einem Fehlererfahrungspuffer nachzuspielen, was eine bemerkenswerte agentische Kapazität hervorbringt. Wir setzen den trainierten TP-Agenten in der DiDi Enterprise Solutions App ein und führen umfassende Online- und Offline-Evaluierungen durch, die zeigen, dass DeepTravel es kleinen LLMs (z. B. Qwen3 32B) ermöglicht, bestehende Spitzen-LLMs wie OpenAI o1, o3 und DeepSeek R1 in Reiseplanungsaufgaben deutlich zu übertreffen.
Trotz beeindruckender visueller Qualität erzeugen moderne generative Videomodelle häufig Sequenzen, die intuitiven physikalischen Gesetzen widersprechen, wie beispielsweise schwebende, teleportierende oder sich kausalitätswidrig verformende Objekte. Während Menschen solche Unplausibilitäten leicht erkennen können, gibt es bisher keine robuste Methode zur quantitativen Bewertung der physikalischen Realität in Videos. In dieser Arbeit untersuchen wir, ob Video-Sprachmodelle (VLMs) so trainiert werden können, dass sie als zuverlässige Richter für physikalische Plausibilität dienen. Wir stellen fest, dass bestehende VLMs Schwierigkeiten haben, physikalische Verstöße zu identifizieren, was grundlegende Einschränkungen in ihrer zeitlichen und kausalen Argumentation offenbart. Um dies zu beheben, führen wir TRAVL ein, eine Feinabstimmungsmethode, die einen ausgewogenen Trainingsdatensatz mit einem trajektorienbewussten Aufmerksamkeitsmodul kombiniert, um die Bewegungskodierung und -diskriminierung in VLMs zu verbessern. Um physikalisches Denken strenger zu bewerten, schlagen wir ImplausiBench vor, einen Benchmark mit 300 Videos (150 echte, 150 generierte), der sprachliche Verzerrungen entfernt und das visuell-zeitliche Verständnis isoliert. Die Leistung wird sowohl mit Goldstandard-Urteilen von Menschen als auch mit strengeren LLM-als-Richter-Metriken bewertet. Zusammen bieten TRAVL und ImplausiBench einen einheitlichen Rahmen zur Untersuchung und Verbesserung der physikalischen Plausibilität in multimodalen Modellen und beleuchten damit einen herausfordernden und bisher wenig erforschten Aspekt des visuell-zeitlichen Verständnisses.
Diese Arbeit untersucht die Fähigkeiten von Foundation-Modellen im Bereich des logischen Denkens und der Planung sowie deren Skalierbarkeit in komplexen, dynamischen Umgebungen. Wir stellen PuzzlePlex vor, einen Benchmark, der entwickelt wurde, um diese Fähigkeiten anhand einer Vielzahl von Rätseln zu bewerten. PuzzlePlex besteht aus 15 Arten von Rätseln, darunter deterministische und stochastische Spiele mit unterschiedlichem Schwierigkeitsgrad sowie Einzelspieler- und Zweispieler-Szenarien. Das PuzzlePlex-Framework bietet eine umfassende Umgebung für jedes Spiel und unterstützt die Erweiterbarkeit, um anspruchsvollere Instanzen zu generieren, sobald sich die Foundation-Modelle weiterentwickeln. Zusätzlich implementieren wir maßgeschneiderte Spielstrategien für Vergleichszwecke. Aufbauend auf diesem Benchmark entwickeln wir fein abgestimmte Metriken zur Leistungsmessung und führen eine detaillierte Analyse von führenden Foundation-Modellen in zwei Kontexten durch: anweisungsbasiert und codebasiert. Darüber hinaus untersuchen wir systematisch deren Skalierungsgrenzen. Unsere Ergebnisse zeigen, dass Modelle für logisches Denken in anweisungsbasierten Kontexten besser abschneiden, während die codebasierte Ausführung größere Herausforderungen darstellt, aber eine skalierbare und effiziente Alternative bietet. PuzzlePlex ermöglicht eine gezielte Bewertung und leitet zukünftige Verbesserungen in den Bereichen logisches Denken, Planung und Generalisierung für Foundation-Modelle an.
Das Aufkommen visueller autoregressiver (AR) Modelle hat die Bildgenerierung revolutioniert und gleichzeitig neue Herausforderungen für die Erkennung synthetischer Bilder geschaffen. Im Gegensatz zu früheren GAN- oder Diffusions-basierten Methoden generieren AR-Modelle Bilder durch diskrete Token-Vorhersage, was sowohl deutliche Verbesserungen in der Bildsynthesequalität als auch einzigartige Merkmale in ihren vektorquantisierten Darstellungen aufweist. In diesem Artikel schlagen wir vor, den diskreten Verteilungsdiskrepanz-bewussten Quantisierungsfehler (D^3QE) für die Erkennung autoregressiv generierter Bilder zu nutzen, der die charakteristischen Muster und die Häufigkeitsverteilungsverzerrung des Codebuchs in echten und gefälschten Bildern ausnutzt. Wir führen einen diskreten Verteilungsdiskrepanz-bewussten Transformer ein, der dynamische Codebuch-Häufigkeitsstatistiken in seinen Aufmerksamkeitsmechanismus integriert und semantische Merkmale mit latenten Quantisierungsfehlern verschmilzt. Um unsere Methode zu evaluieren, erstellen wir einen umfassenden Datensatz namens ARForensics, der 7 gängige visuelle AR-Modelle abdeckt. Experimente zeigen eine überlegene Erkennungsgenauigkeit und eine starke Generalisierungsfähigkeit von D^3QE über verschiedene AR-Modelle hinweg, mit Robustheit gegenüber realweltlichen Störungen. Der Code ist verfügbar unter https://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}.
Zeitreihenimputation (Time Series Imputation, TSI), die darauf abzielt, fehlende Werte in zeitlichen Daten wiederherzustellen, bleibt aufgrund der komplexen und oft hohen Fehlraten in realen Szenarien eine grundlegende Herausforderung. Bestehende Modelle optimieren typischerweise den punktweisen Rekonstruktionsverlust, wobei der Schwerpunkt auf der Wiederherstellung numerischer Werte (lokale Informationen) liegt. Wir beobachten jedoch, dass diese Modelle bei hohen Fehlraten in der Trainingsphase zwar weiterhin gut abschneiden, in der Inferenzphase jedoch schlechte Imputationen und verzerrte Verteilungen latenter Repräsentationen (globale Informationen) erzeugen. Dies offenbart ein kritisches Optimierungsdilemma: Die aktuellen Ziele fehlen globaler Führung, was dazu führt, dass Modelle lokales Rauschen überanpassen und globale Informationen der Daten nicht erfassen. Um dieses Problem zu lösen, schlagen wir ein neues Trainingsparadigma vor, den Glocal Information Bottleneck (Glocal-IB). Glocal-IB ist modellagnostisch und erweitert das Standard-IB-Framework durch die Einführung eines Global Alignment Loss, der aus einer handhabbaren Approximation der gegenseitigen Information abgeleitet wird. Dieser Verlust richtet die latenten Repräsentationen maskierter Eingaben an denen ihrer ursprünglich beobachteten Gegenstücke aus. Es hilft dem Modell, globale Struktur und lokale Details beizubehalten, während Rauschen durch fehlende Werte unterdrückt wird, was zu einer besseren Generalisierung bei hohen Fehlraten führt. Umfangreiche Experimente auf neun Datensätzen bestätigen, dass Glocal-IB zu einer konsistent verbesserten Leistung und ausgerichteten latenten Repräsentationen bei Fehlraten führt. Unsere Code-Implementierung ist verfügbar unter https://github.com/Muyiiiii/NeurIPS-25-Glocal-IB.