papers.description
Wir stellen QeRL vor, ein Quantization-enhanced Reinforcement Learning Framework für große Sprachmodelle (LLMs). Obwohl Reinforcement Learning (RL) für die Fähigkeiten von LLMs im Bereich des logischen Denkens entscheidend ist, ist es ressourcenintensiv und erfordert erheblichen GPU-Speicher sowie lange Rollout-Dauern. QeRL adressiert diese Probleme durch die Kombination von NVFP4-Quantisierung mit Low-Rank Adaptation (LoRA), wodurch die Rollout-Phase von RL beschleunigt und der Speicherbedarf reduziert wird. Neben der Effizienz zeigen unsere Ergebnisse, dass Quantisierungsrauschen die Policy-Entropie erhöht, was die Exploration verbessert und die Entdeckung besserer Strategien während des RL ermöglicht. Um die Exploration weiter zu optimieren, führt QeRL einen Mechanismus für adaptives Quantisierungsrauschen (Adaptive Quantization Noise, AQN) ein, der das Rauschen während des Trainings dynamisch anpasst. Experimente zeigen, dass QeRL eine Beschleunigung der Rollout-Phase um mehr als das 1,5-fache liefert. Darüber hinaus ist dies das erste Framework, das RL-Training eines 32B LLM auf einer einzelnen H100 80GB GPU ermöglicht, während es gleichzeitig Gesamtbeschleunigungen für das RL-Training bietet. Es erreicht auch ein schnelleres Belohnungswachstum und eine höhere Endgenauigkeit als 16-Bit LoRA und QLoRA, während es die Leistung des Full-Parameter-Fine-Tunings auf mathematischen Benchmarks wie GSM8K (90,8 %) und MATH 500 (77,4 %) im 7B-Modell erreicht. Diese Ergebnisse etablieren QeRL als ein effizientes und effektives Framework für RL-Training in LLMs.
Latente generative Modellierung, bei der ein vortrainierter Autoencoder Pixel in einen latenten Raum für den Diffusionsprozess abbildet, hat sich zur Standardstrategie für Diffusion Transformers (DiT) entwickelt; jedoch hat sich die Autoencoder-Komponente kaum weiterentwickelt. Die meisten DiTs verlassen sich weiterhin auf den ursprünglichen VAE-Encoder, was mehrere Einschränkungen mit sich bringt: veraltete Backbones, die die architektonische Einfachheit beeinträchtigen, niedrigdimensionale latente Räume, die die Informationskapazität begrenzen, und schwache Repräsentationen, die aus rein rekonstruktionsbasiertem Training resultieren und letztlich die generative Qualität einschränken. In dieser Arbeit untersuchen wir den Ersatz des VAE durch vortrainierte Repräsentationsencoder (z.B. DINO, SigLIP, MAE), die mit trainierten Decodern kombiniert werden, wodurch wir sogenannte Representation Autoencoders (RAEs) bilden. Diese Modelle bieten sowohl hochwertige Rekonstruktionen als auch semantisch reichhaltige latente Räume, während sie eine skalierbare, transformerbasierte Architektur ermöglichen. Da diese latenten Räume typischerweise hochdimensional sind, besteht eine zentrale Herausforderung darin, Diffusion Transformers effektiv in ihnen arbeiten zu lassen. Wir analysieren die Ursachen dieser Schwierigkeit, schlagen theoretisch fundierte Lösungen vor und validieren diese empirisch. Unser Ansatz erreicht eine schnellere Konvergenz ohne zusätzliche Repräsentationsausrichtungsverluste. Mit einer DiT-Variante, die mit einem leichten, breiten DDT-Head ausgestattet ist, erzielen wir starke Bildgenerierungsergebnisse auf ImageNet: 1.51 FID bei 256x256 (ohne Führung) und 1.13 sowohl bei 256x256 als auch bei 512x512 (mit Führung). RAE bietet klare Vorteile und sollte der neue Standard für das Training von Diffusion Transformers sein.
Autoregressive (AR) Modelle bleiben der Standard für die natürliche Sprachgenerierung, leiden jedoch weiterhin unter hoher Latenz aufgrund des streng sequenziellen Decodierens. Neuere, von Diffusionsprozessen inspirierte Ansätze wie LlaDA und Dream mildern dies durch parallele Generierung, weisen jedoch zwei zentrale Einschränkungen auf: Informationsverlust, da prädiktive Verteilungen für nicht finalisierte Tokens in jedem Schritt verworfen werden, und vorzeitige Festlegung, bei der lokale Entscheidungen ohne ausreichende globale Koordination getroffen werden. Wir stellen Latent Refinement Decoding (LRD) vor, ein zweistufiges Framework mit Latent Refinement und einer Predictive Feedback Loop. Die erste Stufe bewahrt maskierte Positionen als verteilungsbasierte Mischungen aus vorhergesagten Tokens und der Masken-Einbettung, wodurch das Modell global konsistentere Überzeugungen entwickeln kann. Die zweite Stufe finalisiert schrittweise confidente Tokens, während unsichere für iteratives Feedback beibehalten werden. KL-Divergenz-Dynamiken bieten ein prinzipielles und zuverlässiges Kriterium für Konvergenz und frühzeitiges Stoppen. Experimente in den Bereichen Programmierung (HumanEval +6,3, MBPP +2,6) und logisches Denken (GSM8K +2,9, MATH500 +3,8) zeigen, dass LRD die Genauigkeit verbessert und gleichzeitig Beschleunigungen von bis zu 10,6x liefert, was es zu einer starken und vielseitigen Alternative für die parallele Sequenzgenerierung macht.
Jüngste Fortschritte in multimodalen großen Sprachmodellen (MLLMs) haben ein erhebliches Potenzial im Bereich des Videoverständnisses gezeigt. Bestehende Benchmarks scheitern jedoch daran, synergetische Denkfähigkeiten über Audio- und visuelle Modalitäten hinweg umfassend zu bewerten, indem sie oft eine der Modalitäten vernachlässigen oder sie auf logisch inkonsistente Weise integrieren. Um diese Lücke zu schließen, führen wir OmniVideoBench ein, einen groß angelegten und sorgfältig konzipierten Benchmark, der der Bewertung des synergetischen Audio-Video-Verständnisses gewidmet ist, mit einem starken Fokus auf Modalitätskomplementarität und logischer Konsistenz. Konkret umfasst OmniVideoBench 1000 hochwertige Frage-Antwort-Paare (QA), die jeweils mit schrittweisen Denkspuren annotiert sind und aus 628 verschiedenen Videos mit einer Dauer von wenigen Sekunden bis zu 30 Minuten abgeleitet wurden. Diese wurden manuell überprüft, um vollständige Korrektheit und Einzigartigkeit zu gewährleisten. Darüber hinaus beinhaltet OmniVideoBench 13 sorgfältig gestaltete Fragentypen, die zeitliches Denken, räumliche Lokalisierung, Zählen, kausale Inferenz, Zusammenfassung und mehr abdecken und damit die wesentlichen Herausforderungen des Videoverständnisses erfassen. Die Bewertung mehrerer MLLMs anhand von OmniVideoBench zeigt eine deutliche Lücke zwischen der Modellleistung und dem menschlichen Denken, wobei Open-Source-Modelle deutlich hinter ihren Closed-Source-Pendants zurückbleiben, was die inhärente Schwierigkeit des echten Audio-Video-Denkens unterstreicht. Wir werden OmniVideoBench veröffentlichen, um die Entwicklung von MLLMs mit stärkeren und generalisierbareren Denkfähigkeiten zu fördern.
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich kürzlich als vielversprechendes Framework zur Verbesserung der Fähigkeiten zur logischen Schlussfolgerung in großen Sprachmodellen (LLMs) herausgestellt. Allerdings neigen mit binärer Verifikation optimierte Strategien dazu, potenziell wertvolle Explorationen im Verlauf der Schlussfolgerung zu übersehen. Angesichts der hohen Annotationskosten für goldene Prozess-Belohnungsmodelle (PRMs) versuchen aktuelle Arbeiten, Hilfssignale für die Belohnungsgestaltung von Prozess-Tokens zu verwenden, darunter Entropie und Wahrscheinlichkeiten, die aus dem Logit-Raum gesammelt werden. In dieser Arbeit bieten wir eine neue Perspektive auf die Gestaltung von RLVR mit Fluss-Belohnungen, die aus dem latenten Raum abgeleitet werden, und schlagen RLFR vor, bei dem die Flussfelder der Modell-Latents entweder aus Off-Policy-Daten hoher Qualität oder aus On-Policy-Daten durch Ablehnungsstichproben konstruiert werden. Die Geschwindigkeitsabweichungen der Policy-Latents innerhalb dieser Felder werden quantifiziert, um als Belohnungssignal zu dienen. RLFR zeigt zunächst, dass ein gut etabliertes Flussfeld eine solide Umgebung für die Sammlung von Belohnungssignalen sein kann, und hebt hervor, dass der expressive latente Raum bisher stark vernachlässigt wurde. Darüber hinaus ist RLFR in der Lage, beliebige Off-Policy-Experten-Daten als Referenz für die Erstellung von Belohnungssignalen zu komprimieren, und wir zeigen, dass die effiziente Kontextabhängigkeit, die innerhalb der verborgenen Zustände komprimiert ist, genutzt wird, anstatt einzelne Token-Level-Bezeichnungen für das Kontextverständnis. Experimente auf Benchmarks für sprachliche und multimodale Schlussfolgerungen demonstrieren die Zuverlässigkeit von Fluss-Belohnungen und deuten auf ein vielversprechendes Paradigma für die Belohnungsgestaltung mit Hilfssignalen hin.
Während Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) die Argumentationsfähigkeiten großer visuell-sprachlicher Modelle (LVLMs) vorangetrieben hat, ignorieren die meisten bestehenden Methoden im multimodalen Denken die entscheidende Rolle der visuellen Wahrnehmung im RLVR-Optimierungsprozess. In diesem Papier unternehmen wir eine bahnbrechende Untersuchung von multimodalem RLVR aus der neuartigen Perspektive der Token-Wahrnehmung, die die visuelle Abhängigkeit jedes generierten Tokens misst. Durch eine detaillierte Analyse von Chain-of-Thought (CoT)-Prozessen decken wir zwei zentrale Erkenntnisse auf: Erstens ist die Token-Wahrnehmung in einer Rollout-Trajektorie spärlich verteilt, wobei nur ein kleiner Bruchteil der Token eine hohe visuelle Abhängigkeit für visuell fundiertes Denken aufweist; zweitens zeigen verschiedene Trajektorien eine signifikante Divergenz in ihrer gesamten visuellen Abhängigkeit. Basierend auf diesen Beobachtungen schlagen wir Visually-Perceptive Policy Optimization (VPPO) vor, einen neuartigen Policy-Gradient-Algorithmus, der explizit die Token-Wahrnehmung nutzt, um das Lernsignal zu verfeinern. Konkret erreicht VPPO dies durch einen dualen Mechanismus: Es gewichtet den Vorteil einer Trajektorie nach ihrer gesamten visuellen Abhängigkeit neu und konzentriert Policy-Updates ausschließlich auf wahrnehmungsrelevante Tokens. In einer umfassenden Suite von acht Wahrnehmungs- und Argumentations-Benchmarks zeigt VPPO deutliche Verbesserungen gegenüber führenden Open-Source-RL-optimierten Modellen, wobei seine Wirksamkeit konsistent über 7B- und 32B-Modellgrößen hinweg validiert wird. Unsere Ergebnisse etablieren nicht nur eine neue Token-basierte Wahrnehmungsperspektive für die Analyse von multimodalem RLVR, sondern präsentieren auch eine neuartige und effektive Optimierungsstrategie, um die multimodalen Argumentationsfähigkeiten von LVLMs signifikant zu verbessern.
Die allgemeine Modellierung von SVG bleibt aufgrund fragmentierter Datensätze, begrenzter Übertragbarkeit von Methoden über verschiedene Aufgaben hinweg und der Schwierigkeit, strukturelle Komplexität zu bewältigen, eine Herausforderung. Als Antwort darauf nutzen wir die starken Transfer- und Generalisierungsfähigkeiten multimodaler großer Sprachmodelle (MLLMs), um eine einheitliche Modellierung für das Verständnis, die Bearbeitung und die Generierung von SVG zu erreichen. Wir präsentieren die InternSVG-Familie, eine integrierte Daten-Benchmark-Modell-Suite. Im Kern steht SAgoge, der größte und umfassendste multimodale Datensatz für SVG-Aufgaben, der sowohl statische Grafiken als auch dynamische Animationen umfasst. Er deckt Icons, langsequenzige Illustrationen, wissenschaftliche Diagramme und dynamische Animationen ab, unterstützt Aufgaben unterschiedlicher Schwierigkeitsgrade und bietet im Vergleich zu früheren Datensätzen tiefere Hierarchien mit reicheren Attributen. Basierend auf dieser Ressource führen wir SArena ein, einen begleitenden Benchmark mit umfassenden Aufgabendefinitionen und standardisierter Bewertung, die sich an den von SAgoge abgedeckten Domänen und dem Schwierigkeitsspektrum orientieren. Auf diesen Grundlagen aufbauend schlagen wir InternSVG vor, ein einheitliches MLLM für das Verständnis, die Bearbeitung und die Generierung von SVG mit SVG-spezifischen Sonderzeichen, subwortbasierter Embedding-Initialisierung und einer zweistufigen Trainingsstrategie, die von kurzen statischen SVGs zu langsequenzigen Illustrationen und komplexen Animationen fortschreitet. Diese einheitliche Formulierung induziert positiven Transfer und verbessert die Gesamtleistung. Experimente auf SArena und früheren Benchmarks bestätigen, dass InternSVG erhebliche Gewinne erzielt und führende offene und proprietäre Gegenstücke konsequent übertrifft.
Kürzlich hat das Aufkommen von agentenbasiertem Reinforcement Learning (RL) gezeigt, dass RL auch effektiv die agentische Denkfähigkeit von Large Language Models (LLMs) verbessern kann, doch die zentralen Designprinzipien und optimalen Praktiken bleiben unklar. In dieser Arbeit führen wir eine umfassende und systematische Untersuchung durch, um Reinforcement Learning im Kontext von agentischem Denken aus drei Schlüsselperspektiven zu beleuchten: Daten, Algorithmus und Denkmodus. Wir heben unsere zentralen Erkenntnisse hervor: (i) Der Ersatz von zusammengesetzten synthetischen Trajektorien durch reale End-to-End-Tool-Nutzungs-Trajektorien führt zu einer deutlich stärkeren SFT-Initialisierung; hochdiverse, modellbewusste Datensätze unterstützen die Exploration und verbessern die RL-Leistung erheblich. (ii) Exploration-freundliche Techniken sind entscheidend für agentisches RL, wie z. B. das Clippen hoher Werte, überlange Belohnungsformung und die Beibehaltung einer angemessenen Policy-Entropie, was die Trainings effizienz steigern kann. (iii) Eine deliberative Strategie mit weniger Tool-Aufrufen übertrifft häufige Tool-Aufrufe oder ausuferndes Selbst-Denken, was die Tool-Effizienz und die finale Genauigkeit verbessert. Zusammengenommen verbessern diese einfachen Praktiken konsequent das agentische Denken und die Trainings effizienz, erzielen starke Ergebnisse auf anspruchsvollen Benchmarks mit kleineren Modellen und etablieren eine praktische Basis für zukünftige agentische RL-Forschung. Über diese empirischen Erkenntnisse hinaus tragen wir weiterhin einen hochwertigen, realen End-to-End-agentischen SFT-Datensatz sowie einen hochwertigen RL-Datensatz bei und demonstrieren die Wirksamkeit unserer Erkenntnisse bei der Steigerung der agentischen Denkfähigkeit von LLMs über vier anspruchsvolle Benchmarks hinweg, darunter AIME2024/AIME2025, GPQA-Diamond und LiveCodeBench-v6. Mit unseren Methoden können auch 4B-große Modelle eine überlegene agentische Denkleistung im Vergleich zu 32B-großen Modellen erreichen. Code und Modelle: https://github.com/Gen-Verse/Open-AgentRL
In dieser Arbeit stellen wir DiT360 vor, ein auf DiT basierendes Framework, das ein hybrides Training mit Perspektiv- und Panoramadaten für die Panoramabildgenerierung durchführt. Für die Probleme der Beibehaltung geometrischer Treue und des Photorealismus in der Generierungsqualität führen wir den Hauptgrund auf den Mangel an groß angelegten, hochwertigen, realen Panoramadaten zurück, wobei diese datenzentrierte Sichtweise sich von früheren Methoden unterscheidet, die sich auf das Modell-Design konzentrieren. Grundsätzlich verfügt DiT360 über mehrere Schlüsselmodule für die interdomänale Transformation und die intradomänale Augmentierung, die sowohl auf der prä-VAE-Bildebene als auch auf der post-VAE-Token-Ebene angewendet werden. Auf der Bildebene integrieren wir domänenübergreifendes Wissen durch Perspektivbildführung und Panoramaverfeinerung, was die wahrgenommene Qualität verbessert und gleichzeitig die Diversität und den Photorealismus reguliert. Auf der Token-Ebene wird eine hybride Überwachung über mehrere Module hinweg angewendet, die zirkuläres Padding für Grenzkontinuität, Yaw-Verlust für Rotationsrobustheit und Cube-Verlust für Verzerrungsbewusstsein umfassen. Umfangreiche Experimente zu Text-zu-Panorama-, Inpainting- und Outpainting-Aufgaben zeigen, dass unsere Methode eine bessere Grenzkonsistenz und Bildtreue über elf quantitative Metriken hinweg erreicht. Unser Code ist unter https://github.com/Insta360-Research-Team/DiT360 verfügbar.
Die audiovisuelle Videobeschriftung zielt darauf ab, semantisch reichhaltige Beschreibungen mit zeitlicher Abstimmung zwischen visuellen und auditiven Ereignissen zu generieren, wodurch sowohl das Verständnis als auch die Erstellung von Videos verbessert werden. In diesem Artikel stellen wir AVoCaDO vor, einen leistungsstarken audiovisuellen Videobeschriftungsgenerator, der durch die zeitliche Orchestrierung zwischen auditiven und visuellen Modalitäten angetrieben wird. Wir schlagen eine zweistufige Nachschulungs-Pipeline vor: (1) AVoCaDO SFT, das das Modell auf einem neu kuratierten Datensatz von 107.000 hochwertigen, zeitlich abgestimmten audiovisuellen Beschriftungen feinabstimmt; und (2) AVoCaDO GRPO, das maßgeschneiderte Belohnungsfunktionen nutzt, um die zeitliche Kohärenz und Dialoggenauigkeit weiter zu verbessern, während die Beschriftungslänge reguliert und Zusammenbrüche reduziert werden. Experimentelle Ergebnisse zeigen, dass AVoCaDO bestehende Open-Source-Modelle in vier audiovisuellen Videobeschriftungs-Benchmarks deutlich übertrifft und auch im visuell-exklusiven Setting auf dem VDC- und DREAM-1K-Benchmark wettbewerbsfähige Leistungen erzielt.
Die effiziente Lösung realer Probleme mit LLMs hängt zunehmend von ihrer Fähigkeit ab, mit dynamischen Webumgebungen zu interagieren und externe Informationen autonom zu erwerben. Während aktuelle Forschungsarbeiten wie Search-R1 und WebDancer eine starke Leistung bei der Lösung von Webaufgaben demonstrieren, sind sie stark auf zusätzliche Werkzeuge angewiesen, um die interaktive Webumgebung in statischen Textinhalt umzuwandeln. Dies steht im Gegensatz zu menschlichen Surfverhalten, das vielfältige Interaktionen mit dem Browser wie Scrollen, Klicken und Tippen umfasst. In diesem Artikel schlagen wir BrowserAgent vor, einen interaktiveren Agenten, der komplexe Aufgaben durch menschlich inspirierte Browseraktionen löst. BrowserAgent operiert direkt auf rohen Webseiten über Playwright durch eine Reihe vordefinierter Browseraktionen. Wir verwenden ein zweistufiges Training (Supervised Fine-Tuning (SFT) und Rejection Fine-Tuning (RFT)), um die Generalisierungsfähigkeiten des Modells zu verbessern. Obwohl BrowserAgent deutlich weniger Trainingsdaten als Search-R1 verwendet, erzielt er wettbewerbsfähigere Ergebnisse bei verschiedenen Open-QA-Aufgaben. Zusätzlich führen wir einen expliziten Speichermechanismus ein, um Schlussfolgerungen über Schritte hinweg zu speichern, was die Argumentationsfähigkeiten des Modells für langfristige Aufgaben weiter verbessert. Bemerkenswerterweise kann BrowserAgent-7B eine Verbesserung von etwa 20 % gegenüber Search-R1 bei Multi-Hop-QA-Aufgaben wie HotpotQA, 2Wiki und Bamboogle erreichen. Diese Ergebnisse deuten darauf hin, dass BrowserAgent als fortschrittlicheres Framework für interaktivere und skalierbarere Webagenten dienen kann.
Large Language Model (LLM)-Agenten zeigen großes Potenzial für komplexe, mehrstufige Aufgaben, die den Einsatz von Werkzeugen erfordern, doch ihre Entwicklung wird oft durch den extremen Mangel an hochwertigen Trainingsdaten behindert. Supervised Fine-Tuning (SFT) auf synthetischen Daten führt zu Überanpassung, während Standard-Reinforcement-Learning (RL) mit einem kritischen Cold-Start-Problem und Trainingsinstabilität kämpft. Um diese Herausforderungen zu bewältigen, führen wir Environment Tuning ein, ein neuartiges Trainingsparadigma, das es Agenten ermöglicht, komplexe Verhaltensweisen direkt aus Problemstellungen zu erlernen, ohne auf vorab gesammelte Expertentrajektorien angewiesen zu sein. Environment Tuning orchestriert diesen Lernprozess durch einen strukturierten Lehrplan, umsetzbare Umgebungsanpassungen, die korrigierendes Feedback liefern, und fein abgestufte Fortschrittsbelohnungen, um eine stabile und effiziente Exploration zu gewährleisten. Mit nur 400 Problemstellungen aus dem Berkeley Function-Calling Leaderboard (BFCL)-Benchmark erreicht unsere Methode nicht nur eine wettbewerbsfähige In-Distribution-Leistung im Vergleich zu starken Baselines, sondern zeigt auch eine überlegene Out-of-Distribution-Generalisierung, wodurch der bei SFT-basierten Ansätzen häufig auftretende Leistungseinbruch überwunden wird. Unsere Arbeit stellt einen Paradigmenwechsel vom Supervised Fine-Tuning auf statischen Trajektorien hin zu einer dynamischen, umgebungsbasierten Exploration dar und ebnet den Weg für die Ausbildung robusterer und dateneffizienterer Agenten.
Jüngste Fortschritte in agentenbasierten Workflows haben die Automatisierung von Aufgaben wie der professionellen Dokumentenerstellung ermöglicht. Allerdings konzentrieren sie sich hauptsächlich auf die textuelle Qualität und vernachlässigen visuelle Struktur und Stil, die für Lesbarkeit und Engagement entscheidend sind. Diese Lücke entsteht vor allem durch das Fehlen geeigneter Belohnungsmodelle, um agentenbasierte Workflows zur Erstellung von Dokumenten mit stärkerer struktureller und stilistischer Qualität zu führen. Um dies zu beheben, schlagen wir DocReward vor, ein Dokumenten-Belohnungsmodell, das Dokumente basierend auf ihrer Struktur und ihrem Stil bewertet. Wir erstellen einen multidisziplinären Datensatz DocPair mit 117.000 gepaarten Dokumenten, die 32 Domänen und 267 Dokumenttypen abdecken, wobei jedes ein hochprofessionelles und ein weniger professionelles Dokument mit identischem Inhalt, aber unterschiedlicher Struktur und Stil enthält. Dies ermöglicht es dem Modell, Professionalität umfassend und in einer textqualitätsunabhängigen Weise zu bewerten. DocReward wird mit dem Bradley-Terry-Verlust trainiert, um Dokumente zu bewerten und Vorhersagen zu bestrafen, die der annotierten Rangfolge widersprechen. Um die Leistung von Belohnungsmodellen zu bewerten, erstellen wir einen Testdatensatz, der Dokumentenbündel enthält, die von gut ausgebildeten menschlichen Bewertern bewertet wurden. Bemerkenswerterweise übertrifft DocReward GPT-4o und GPT-5 in der Genauigkeit um 30,6 bzw. 19,4 Prozentpunkte und demonstriert damit seine Überlegenheit gegenüber den Baselines. In einer extrinsischen Bewertung der Dokumentenerstellung erreicht DocReward eine signifikant höhere Gewinnrate von 60,8 % im Vergleich zu GPT-5s Gewinnrate von 37,7 %, was seinen Nutzen bei der Führung von Generierungsagenten zur Erstellung von menschlich bevorzugten Dokumenten unterstreicht.
Während LLM-Agenten mehrstufige Aufgaben planen können, ist das Eingreifen in der Planungsphase – bevor eine Aktion ausgeführt wird – oft der sicherste Weg, um Schaden zu verhindern, da bestimmte Risiken, sobald sie umgesetzt sind, schwerwiegende Folgen haben können. Allerdings operieren bestehende Sicherheitsvorkehrungen meist nach der Ausführung, was schwer skalierbar ist und wenig Raum für kontrollierbare Überwachung auf der Planungsebene lässt. Um diese Herausforderung zu bewältigen, beleuchten wir drei kritische Lücken in der aktuellen Forschung: die Datenlücke, die Modelllücke und die Evaluationslücke. Um die Datenlücke zu schließen, führen wir AuraGen ein, eine kontrollierbare Engine, die (i) harmlose Trajektorien synthetisiert, (ii) kategoriebezogene Risiken mit kalibrierter Schwierigkeit injiziert und (iii) Ausgaben über ein automatisiertes Belohnungsmodell filtert, wodurch große und zuverlässige Korpora für die Sicherheit vor der Ausführung erzeugt werden. Um die Modelllücke bei den Sicherheitsvorkehrungen zu schließen, schlagen wir ein grundlegendes Sicherheitsmodell namens Safiron vor, das einen plattformübergreifenden Planungsadapter mit einem kompakten Sicherheitsmodell kombiniert. Der Adapter vereinheitlicht verschiedene Eingabeformate, während Safiron riskante Fälle markiert, Risikotypen zuweist und Begründungen generiert; durch zweistufiges Training mit einem breit erforschten Datenrezept erreicht Safiron eine robuste Übertragbarkeit über verschiedene Kontexte hinweg. Um die Evaluationslücke zu schließen, veröffentlichen wir Pre-Exec Bench, einen realistischen Benchmark, der diverse Werkzeuge und verzweigte Trajektorien abdeckt und die Erkennung, feinkörnige Kategorisierung, Erklärung sowie plattformübergreifende Generalisierung in menschlich verifizierten Szenarien misst. Umfangreiche Experimente zeigen konsistente Verbesserungen des vorgeschlagenen Sicherheitsmodells gegenüber starken Baselines auf Pre-Exec Bench, und Ablationen destillieren weiterhin umsetzbare Praktiken, wodurch eine praktische Vorlage für sicherere agentenbasierte Systeme bereitgestellt wird.
In den letzten Jahren hat sich der Forschungsschwerpunkt bei großen Sprachmodellen (LLMs) und Agenten zunehmend von der Demonstration neuartiger Fähigkeiten hin zu komplexem Denken und der Bewältigung anspruchsvoller Aufgaben verlagert. Bisherige Evaluierungen konzentrieren sich jedoch hauptsächlich auf Mathematik-/Programmierwettbewerbe oder allgemeine Aufgaben, während bestehende multidisziplinäre akademische Benchmarks eine unzureichende Tiefe im Bereich des logischen Denkens aufweisen. Dies lässt das Feld ohne einen rigorosen Benchmark für hochrangiges Denken zurück. Um diese Lücke zu schließen, führen wir den Acadreason-Benchmark ein, der darauf abzielt, die Fähigkeit von LLMs und Agenten zur Aneignung und Anwendung akademischen Wissens zu bewerten. Er besteht aus 50 von Experten annotierten akademischen Problemen aus fünf anspruchsvollen Domänen, darunter Informatik, Wirtschaftswissenschaften, Recht, Mathematik und Philosophie. Alle Fragen stammen aus Top-Publikationen der letzten Jahre und durchlaufen eine strenge Annotation und Qualitätskontrolle, um sicherzustellen, dass sie sowohl herausfordernd als auch lösbar sind. Wir führen systematische Evaluierungen von über 10 gängigen LLMs und Agenten durch. Die Ergebnisse zeigen, dass die meisten LLMs unter 20 Punkte erzielten, wobei selbst das fortschrittlichste GPT-5 nur 16 Punkte erreichte. Während Agenten höhere Punktzahlen erzielten, überschritt keiner die 40-Punkte-Marke. Dies verdeutlicht die derzeitige Fähigkeitslücke zwischen LLMs und Agenten bei überintelligenten akademischen Forschungsaufgaben und unterstreicht die Herausforderungen von Acadreason.
Das Lösen mathematischer Probleme durch verifizierbare Sprachen wie Lean hat sowohl die Mathematik- als auch die Informatikgemeinschaft erheblich beeinflusst. Aktuelle State-of-the-Art-Modelle werden oft mit kostspieligem Online-Reinforcement-Learning (RL) oder Experteniteration trainiert. Diese Ansätze stützen sich jedoch auf feste Problemsätze, was zu ineffizientem Training führt und die Fähigkeit des Modells einschränkt, komplexe Probleme zu bewältigen. Um diese Einschränkungen zu überwinden, schlagen wir GAR vor: Generative Adversarial Reinforcement Learning, ein umfassendes RL-Trainingsframework, das den Problemkomponisten und den Löser gemeinsam in einer adversarischen Schleife trainiert. GAR führt einen impliziten Mechanismus für Curriculum-Learning ein, der die Schwierigkeit der Aufgaben mit der sich entwickelnden Fähigkeit des Beweisers abstimmt. Dadurch wird die Trainingseffizienz verbessert und die Leistung bei der Bewältigung fortgeschrittener Theoreme gesteigert. Experimente zeigen, dass mit GAR-Training Goedel-Prover-V2-8B und DeepSeek-Prover-V2-7B eine durchschnittliche relative Verbesserung in pass@32 von 4,20 % auf dem MiniF2F-Test-Benchmark erreichen, während der pass@32-Wert von DeepSeek-Prover-V2 auf ProofNet-Test von 22,58 % auf 25,81 % steigt. Über die formale Beweisführung hinaus etabliert GAR ein allgemeines RL-Paradigma für die Ko-Evolution von Problemgenerierung und -lösung in verifizierbaren Umgebungen.
Mathematisches Denken ist ein primärer Indikator für die Intelligenz von großen Sprachmodellen (LLMs). Allerdings zeigen bestehende LLMs Schwächen in Bezug auf Robustheit und Generalisierung. Diese Arbeit führt diese Defizite auf fehlerhaftes Schlussfolgern zurück, d.h. das Erzeugen von Antworten basierend auf oberflächlichen Merkmalen. Um diese Herausforderung zu bewältigen, schlagen wir das AdaR-Framework vor, das adaptives Denken ermöglicht, bei dem Modelle auf Problemlösungslogik zurückgreifen, um Antworten zu generieren. AdaR synthetisiert logisch äquivalente Anfragen durch Variation von Variablenwerten und trainiert Modelle mit RLVR auf diesen Daten, um fehlerhafte Logik zu bestrafen und gleichzeitig adaptives Denken zu fördern. Um die Datenqualität zu verbessern, extrahieren wir die Problemlösungslogik aus der ursprünglichen Anfrage und generieren die entsprechende Antwort durch Code-Ausführung, gefolgt von einer Plausibilitätsprüfung. Experimentelle Ergebnisse zeigen, dass AdaR die Robustheit und Generalisierung verbessert und eine deutliche Steigerung im mathematischen Denken erreicht, während gleichzeitig eine hohe Dateneffizienz gewährleistet wird. Analysen zeigen, dass Datensynthese und RLVR koordiniert zusammenwirken, um adaptives Denken in LLMs zu ermöglichen. Weitere Analysen liefern wichtige Erkenntnisse über die Auswirkungen kritischer Faktoren und die Anwendbarkeit zur Instruktion von LLMs. Unser Projekt ist verfügbar unter https://github.com/LaiZhejian/AdaR.
Die Komplexität der Generally Accepted Accounting Principles (GAAP) und die hierarchische Struktur von eXtensible Business Reporting Language (XBRL)-Einreichungen machen die Automatisierung und Überprüfung von Finanzprüfungen zunehmend schwierig. Während große Sprachmodelle (LLMs) starke Fähigkeiten im Verständnis unstrukturierter Texte gezeigt haben, bleibt ihre Fähigkeit, über strukturierte, voneinander abhängige und taxonomiegesteuerte Finanzdokumente zu schlussfolgern, weitgehend unerforscht. Um diese Lücke zu schließen, stellen wir FinAuditing vor, den ersten taxonomieausgerichteten, strukturbewussten und mehrdokumentbasierten Benchmark zur Bewertung von LLMs bei Finanzprüfungsaufgaben. Basierend auf realen US-GAAP-konformen XBRL-Einreichungen definiert FinAuditing drei komplementäre Teilaufgaben: FinSM für semantische Konsistenz, FinRE für relationale Konsistenz und FinMR für numerische Konsistenz, die jeweils einen bestimmten Aspekt des strukturierten Prüfungsdenkens abdecken. Wir schlagen weiterhin ein einheitliches Bewertungsframework vor, das Retrieval-, Klassifikations- und Schlussfolgerungsmetriken über diese Teilaufgaben hinweg integriert. Umfangreiche Zero-Shot-Experimente mit 13 modernsten LLMs zeigen, dass aktuelle Modelle inkonsistent über semantische, relationale und mathematische Dimensionen hinweg abschneiden, mit Genauigkeitseinbußen von bis zu 60-90 % beim Schlussfolgern über hierarchische Mehrdokumentstrukturen. Unsere Ergebnisse legen die systematischen Grenzen moderner LLMs bei der taxonomiebasierten Finanzschlussfolgerung offen und etablieren FinAuditing als Grundlage für die Entwicklung vertrauenswürdiger, strukturbewusster und regulierungskonformer Finanzintelligenzsysteme. Der Benchmark-Datensatz ist auf Hugging Face verfügbar.
Während sich ein Großteil der Forschung auf die Entwicklung von verkörperten Denkfähigkeiten mithilfe von Vision-Language-Modellen (VLMs) oder die Integration fortschrittlicher VLMs in Vision-Language-Action-Modelle (VLA) zur End-to-End-Robotersteuerung konzentriert hat, gibt es nur wenige Studien, die die kritische Lücke zwischen dem auf VLMs basierten Upstream-Denken und dem Downstream-VLA-Policy-Lernen direkt adressieren. In dieser Arbeit unternehmen wir einen ersten Schritt zur Verknüpfung von verkörpertem Denken mit VLA-Policy-Lernen, indem wir Vlaser vorstellen – ein Vision-Language-Action-Modell mit synergetischer verkörperter Denkfähigkeit, das als grundlegendes Vision-Language-Modell entwickelt wurde, um hochrangiges Denken mit niedrigrangiger Steuerung für verkörperte Agenten zu integrieren. Basierend auf dem hochwertigen Vlaser-6M-Datensatz erzielt Vlaser Spitzenleistungen in einer Reihe von verkörperten Denkbenchmarks, einschließlich räumlichem Denken, verkörperter Verankerung, verkörperter Frage-Antwort-Interaktion und Aufgabenplanung. Darüber hinaus untersuchen wir systematisch, wie unterschiedliche VLM-Initialisierungen das überwachte VLA-Fine-Tuning beeinflussen, und bieten neue Einblicke in die Minderung des Domänenwechsels zwischen internetbasierten Vorab-Trainingsdaten und verkörpertem Policy-Lernen. Aufbauend auf diesen Erkenntnissen erzielt unser Ansatz Spitzenergebnisse im WidowX-Benchmark und wettbewerbsfähige Leistungen im Google-Robot-Benchmark.
Einheitliche multimodale Modelle integrieren die Denkfähigkeit großer Sprachmodelle mit Bildverständnis und -generierung und zeigen großes Potenzial für fortgeschrittene multimodale Intelligenz. Dennoch fehlt der Gemeinschaft nach wie vor ein strenger, auf das Denken zentrierter Benchmark, um die Übereinstimmung zwischen Verständnis und Generierung sowie ihr Generalisierungspotenzial in komplexen visuellen Aufgaben systematisch zu bewerten. Zu diesem Zweck führen wir GIR-Bench ein, einen umfassenden Benchmark, der einheitliche Modelle aus drei komplementären Perspektiven bewertet. Erstens untersuchen wir die Konsistenz zwischen Verständnis und Generierung (GIR-Bench-UGC), indem wir prüfen, ob Modelle dasselbe Wissen sowohl in Verständnis- als auch in Generierungsaufgaben konsistent nutzen können. Zweitens untersuchen wir, ob Modelle eine auf das Denken zentrierte Text-zu-Bild-Generierung durchführen können, die die Anwendung logischer Einschränkungen und impliziten Wissens erfordert, um treue visuelle Inhalte zu erzeugen (GIR-Bench-T2I). Drittens bewerten wir, ob Modelle mehrstufiges Denken bei der Bearbeitung bewältigen können (GIR-Bench-Edit). Für jede Teilmenge entwerfen wir sorgfältig verschiedene aufgaben spezifische Bewertungspipelines, die auf die jeweilige Aufgabe zugeschnitten sind. Dies ermöglicht eine fein abgestimmte und interpretierbare Bewertung, während Verzerrungen durch das verbreitete MLLM-as-a-Judge-Paradigma gemildert werden. Umfangreiche Ablationen über verschiedene einheitliche Modelle und rein generierende Systeme haben gezeigt: Obwohl einheitliche Modelle besser in der Lage sind, auf das Denken ausgerichtete visuelle Aufgaben zu bewältigen, besteht nach wie vor eine anhaltende Lücke zwischen Verständnis und Generierung. Die Daten und der Code für GIR-Bench sind unter https://hkust-longgroup.github.io/GIR-Bench verfügbar.
Aktuelle Text-zu-Video (T2V)-Modelle haben eine beeindruckende Fähigkeit zur visuellen Simulation realer Geometrie und physikalischer Gesetze demonstriert, was ihr Potenzial als implizite Weltmodelle verdeutlicht. Inspiriert davon untersuchen wir die Machbarkeit, den Video-Generierungs-Prior für die Blickpunktplanung aus gegebenen 4D-Szenen zu nutzen, da Videos intern dynamische Szenen mit natürlichen Blickpunkten begleiten. Zu diesem Zweck schlagen wir ein zweistufiges Paradigma vor, um vortrainierte T2V-Modelle auf kompatible Weise für die Blickpunktvorhersage anzupassen. Zunächst integrieren wir die 4D-Szenendarstellung über einen adaptiven Lernzweig in das vortrainierte T2V-Modell, wobei die 4D-Szene blickpunktunabhängig ist und das bedingt generierte Video die Blickpunkte visuell einbettet. Anschließend formulieren wir die Blickpunktextraktion als einen hybrid-bedingten Prozess zur Denoisierung der Kameraposition. Konkret wird ein Kamerapositions-Diffusionszweig auf das vortrainierte T2V-Modell aufgesetzt, der das generierte Video und die 4D-Szene als Eingabe verwendet. Experimentelle Ergebnisse zeigen die Überlegenheit unserer Methode gegenüber bestehenden Konkurrenzansätzen, und Ablationsstudien bestätigen die Wirksamkeit unserer Schlüsseltechniken. In gewissem Maße beweist diese Arbeit das Potenzial von Video-Generierungsmodellen für 4D-Interaktionen in der realen Welt.
Diffusion Large Language Models (dLLMs) etablieren sich als effiziente Alternative zu autoregressiven Modellen, da sie in der Lage sind, mehrere Tokens parallel zu dekodieren. Die Ausrichtung von dLLMs an menschlichen Präferenzen oder aufgabenbezogenen Belohnungen durch Reinforcement Learning (RL) gestaltet sich jedoch schwierig, da ihre nicht handhabbare Log-Likelihood die direkte Anwendung standardmäßiger Policy-Gradient-Methoden verhindert. Während frühere Arbeiten Surrogate wie die Evidence Lower Bound (ELBO) verwenden, können diese einseitigen Approximationen erhebliche Verzerrungen im Policy-Gradient verursachen. Um dies zu adressieren, schlagen wir den Sandwiched Policy Gradient (SPG) vor, der sowohl eine obere als auch eine untere Schranke der wahren Log-Likelihood nutzt. Experimente zeigen, dass SPG Baselines, die auf ELBO oder Ein-Schritt-Schätzung basieren, deutlich übertrifft. Insbesondere verbessert SPG die Genauigkeit gegenüber modernsten RL-Methoden für dLLMs um 3,6 % in GSM8K, 2,6 % in MATH500, 18,4 % in Countdown und 27,0 % in Sudoku.
Große visuell-sprachliche Modelle (Large Vision-Language Models, LVLMs), die einen visuellen Encoder (Vision Encoder, VE) mit einem großen Sprachmodell kombinieren, haben bemerkenswerte Erfolge bei verschiedenen Aufgaben erzielt. Dennoch gibt es in LVLMs weiterhin entscheidende Herausforderungen, wie beispielsweise Objekthalluzinationen, bei denen Beschreibungen von Objekten generiert werden, die nicht im Eingabebild vorhanden sind. Hier argumentieren wir, dass unsichere visuelle Tokens innerhalb des VE ein Schlüsselfaktor sind, der zu Objekthalluzinationen beiträgt. Unsere statistische Analyse ergab, dass es positive Korrelationen zwischen visuellen Tokens mit hoher epistemischer Unsicherheit und dem Auftreten von Halluzinationen gibt. Darüber hinaus zeigen wir sowohl theoretisch als auch empirisch, dass visuelle Tokens in frühen VE-Schichten, die große Repräsentationsabweichungen unter kleinen adversarischen Störungen aufweisen, auf eine hohe epistemische Unsicherheit hinweisen. Basierend auf diesen Erkenntnissen schlagen wir eine einfache, aber effektive Strategie vor, um Objekthalluzinationen zu reduzieren, indem ausschließlich der VE modifiziert wird. Unsere Methode umfasst ein Proxy-Verfahren mit adversarischen Störungen zur effizienten Identifizierung unsicherer visueller Tokens sowie eine Methode, diese unsicheren visuellen Tokens während des Self-Attention-Prozesses in den mittleren Schichten des VE zu maskieren, wodurch ihr Einfluss auf die visuelle Kodierung unterdrückt und somit Halluzinationen gemildert werden. Umfangreiche Experimente zeigen, dass unsere Methode Objekthalluzinationen in LVLMs signifikant reduziert und synergetisch mit anderen bestehenden Techniken zusammenwirken kann.
Jüngste Fortschritte bei Large Language Models (LLMs) und Vision Language Models (VLMs) haben bedeutende Fortschritte im mathematischen Denken gezeigt, doch sie stoßen nach wie vor auf eine kritische Hürde bei Problemen, die visuelle Unterstützung erfordern, wie das Zeichnen von Hilfslinien oder das Plotten von Funktionen, um die Probleme zu lösen. Die meisten LLMs und VLMs sind auf textbasierte Denkketten beschränkt, während multimodale, vereinheitlichte Modelle, die verschachtelten Text und Bilder erzeugen können, die notwendige Präzision und Steuerbarkeit für solche Aufgaben vermissen lassen. Um dies zu adressieren, schlagen wir CodePlot-CoT vor, ein codegesteuertes Chain-of-Thought-Paradigma für das „Denken mit Bildern“ in der Mathematik. Unser Ansatz nutzt das VLM, um textbasierte Schlussfolgerungen sowie ausführbaren Plotting-Code zu generieren, der dann in Bilder als „visuelle Gedanken“ gerendert wird, um mathematische Probleme zu lösen. Um dies zu erreichen, konstruieren wir zunächst Math-VR, den ersten groß angelegten, zweisprachigen Datensatz und Benchmark für mathematische Probleme mit visuellem Denken, der 178K Proben umfasst. Zweitens entwickeln wir einen hochmodernen Bild-zu-Code-Konverter, der speziell für das Parsen komplexer mathematischer Figuren in Code ausgelegt ist, um hochwertige Trainingsdaten zu erstellen. Schließlich trainieren wir mit diesen Trainingsdaten das CodePlot-CoT-Modell zur Lösung mathematischer Probleme. Experimentelle Ergebnisse zeigen, dass unser Modell eine Steigerung von bis zu 21 % gegenüber dem Basismodell auf unserem neuen Benchmark erreicht, was die Wirksamkeit unseres vorgeschlagenen codegesteuerten Denkparadigmas vollständig bestätigt. Unsere Arbeit eröffnet eine neue Richtung für multimodales mathematisches Denken und stellt der Community den ersten groß angelegten Datensatz, einen umfassenden Benchmark und einen robusten Ansatz für solche Probleme zur Verfügung. Um zukünftige Forschung zu erleichtern, stellen wir unsere Datensätze, Code und vortrainierte Modelle öffentlich unter https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT zur Verfügung.
Große Sprachmodell-Agenten (LLM-Agenten) haben bemerkenswerte Fähigkeiten im Bereich des logischen Schließens gezeigt. Bestehende Multi-Agenten-Systeme beruhen jedoch oft auf festen Rollen oder zentralisierter Steuerung, was die Skalierbarkeit und Anpassungsfähigkeit bei langfristigen Schlussfolgerungen einschränkt. Wir stellen SwarmSys vor, ein geschlossenes Framework für verteiltes Multi-Agenten-Schließen, das von der Schwarmintelligenz inspiriert ist. Die Koordination in SwarmSys entsteht durch iterative Interaktionen zwischen drei spezialisierten Rollen – Entdecker, Arbeiter und Validierer –, die kontinuierlich zwischen Exploration, Ausnutzung und Validierung wechseln. Um skalierbare und adaptive Zusammenarbeit zu ermöglichen, integrieren wir adaptive Agenten- und Ereignisprofile, embedding-basierte probabilistische Zuordnung und einen pheromoninspirierten Verstärkungsmechanismus, der dynamische Aufgabenverteilung und selbstorganisierende Konvergenz ohne globale Überwachung unterstützt. In symbolischem Schließen, Forschungssynthese und wissenschaftlichen Programmieraufgaben übertrifft SwarmSys durchgängig Vergleichsbaselines und verbessert sowohl die Genauigkeit als auch die Stabilität des Schließens. Diese Ergebnisse unterstreichen die schwarminspirierte Koordination als vielversprechendes Paradigma für skalierbares, robustes und adaptives Multi-Agenten-Schließen und deuten darauf hin, dass die Skalierung der Koordination der Modellskalierung in der Weiterentwicklung der LLM-Intelligenz ebenbürtig sein könnte.
Wir schlagen Stable Video Infinity (SVI) vor, das in der Lage ist, unendlich lange Videos mit hoher zeitlicher Konsistenz, plausiblen Szenenübergängen und kontrollierbaren Streaming-Handlungssträngen zu generieren. Während bestehende Methoden für lange Videos versuchen, akkumulierte Fehler durch manuell erstellte Anti-Drifting-Maßnahmen (z. B. modifizierte Rauschplanung, Frame-Verankerung) zu mildern, bleiben sie auf die Extrapolation mit einem einzigen Prompt beschränkt und erzeugen homogene Szenen mit repetitiven Bewegungen. Wir identifizieren, dass die grundlegende Herausforderung über die Fehlerakkumulation hinausgeht und eine kritische Diskrepanz zwischen der Trainingsannahme (das Sehen von sauberen Daten) und der autoregressiven Realität zur Testzeit (die Bedingung auf selbst generierten, fehleranfälligen Ausgaben) besteht. Um diese Hypothesenlücke zu überbrücken, integriert SVI das Error-Recycling Fine-Tuning, eine neue Art des effizienten Trainings, das die selbst generierten Fehler des Diffusion Transformers (DiT) in überwachte Prompts recycelt und damit den DiT dazu anregt, aktiv seine eigenen Fehler zu identifizieren und zu korrigieren. Dies wird durch das Injizieren, Sammeln und Speichern von Fehlern in einem geschlossenen Recyclingkreislauf erreicht, wobei autoregressiv aus fehlerinjiziertem Feedback gelernt wird. Konkret (i) injizieren wir historische Fehler, die vom DiT gemacht wurden, in saubere Eingaben, um fehlerakkumulierte Trajektorien im Flow Matching zu simulieren; (ii) approximieren wir effizient Vorhersagen mit einstufiger bidirektionaler Integration und berechnen Fehler mit Residuen; (iii) speichern wir Fehler dynamisch in einem Replay-Speicher über diskretisierte Zeitschritte, die für neue Eingaben neu abgetastet werden. SVI ist in der Lage, Videos von Sekunden auf unendliche Dauer zu skalieren, ohne zusätzliche Inferenzkosten, und bleibt dabei kompatibel mit diversen Bedingungen (z. B. Audio, Skelett und Textströme). Wir evaluieren SVI anhand von drei Benchmarks, einschließlich konsistenter, kreativer und bedingter Einstellungen, und verifizieren gründlich seine Vielseitigkeit und seine Rolle als State-of-the-Art-Methode.
Die Skalierbarkeit des robotischen Lernens wird grundlegend durch die erheblichen Kosten und den Arbeitsaufwand der Datenerfassung in der realen Welt begrenzt. Während simulierte Daten eine skalierbare Alternative bieten, scheitern sie oft daran, auf die reale Welt zu übertragen, da erhebliche Lücken in der visuellen Erscheinung, den physikalischen Eigenschaften und den Objektinteraktionen bestehen. Um dies zu adressieren, schlagen wir RoboSimGS vor, ein neuartiges Real2Sim2Real-Framework, das Multi-View-Bilder aus der realen Welt in skalierbare, hochwertige und physikalisch interaktive Simulationsumgebungen für die robotische Manipulation umwandelt. Unser Ansatz rekonstruiert Szenen mithilfe einer hybriden Darstellung: 3D Gaussian Splatting (3DGS) erfasst das fotorealistische Erscheinungsbild der Umgebung, während Mesh-Primitive für interaktive Objekte eine genaue Physiksimulation gewährleisten. Entscheidend ist, dass wir erstmals ein Multi-modales Großes Sprachmodell (MLLM) verwenden, um die Erstellung physikalisch plausibler, artikulierter Objekte zu automatisieren. Das MLLM analysiert visuelle Daten, um nicht nur physikalische Eigenschaften (z. B. Dichte, Steifigkeit), sondern auch komplexe kinematische Strukturen (z. B. Scharniere, Schienen) von Objekten abzuleiten. Wir zeigen, dass Strategien, die ausschließlich auf Daten trainiert wurden, die von RoboSimGS generiert wurden, erfolgreiche Zero-Shot-Sim-to-Real-Übertragungen über eine Vielzahl von realen Manipulationsaufgaben erreichen. Darüber hinaus verbessern Daten von RoboSimGS die Leistung und Generalisierungsfähigkeit von State-of-the-Art-Methoden signifikant. Unsere Ergebnisse bestätigen RoboSimGS als eine leistungsstarke und skalierbare Lösung zur Überbrückung der Sim-to-Real-Lücke.
Aktuelle Transformer-basierte Modelle für die 3D-Human-Mesh-Rekonstruktion (HMR) haben zwar eine hohe Leistung erzielt, leiden jedoch oft unter hohen Rechenkosten und Komplexität aufgrund tiefer Transformer-Architekturen und redundanter Tokens. In dieser Arbeit führen wir zwei HMR-spezifische Verschmelzungsstrategien ein: Error-Constrained Layer Merging (ECLM) und Mask-guided Token Merging (Mask-ToMe). ECLM verschmilzt selektiv Transformer-Schichten, die einen minimalen Einfluss auf den Mean Per Joint Position Error (MPJPE) haben, während Mask-ToMe sich auf die Verschmelzung von Hintergrund-Tokens konzentriert, die wenig zum endgültigen Ergebnis beitragen. Um den potenziellen Leistungsabfall durch die Verschmelzung weiter zu adressieren, schlagen wir einen diffusionsbasierten Decoder vor, der zeitlichen Kontext einbezieht und Poseprioritäten nutzt, die aus groß angelegten Motion-Capture-Datensätzen gelernt wurden. Experimente über mehrere Benchmarks hinweg zeigen, dass unsere Methode eine bis zu 2,3-fache Beschleunigung erreicht und dabei die Leistung im Vergleich zur Baseline leicht verbessert.
Während Large Language Models (LLMs) bei der algorithmischen Codegenerierung hervorragende Leistungen erbringen, haben sie Schwierigkeiten im Bereich der Frontend-Entwicklung, bei der die Korrektheit anhand gerenderter Pixel und Interaktionen beurteilt wird. Wir stellen ReLook vor, ein agentenbasiertes, visuell fundiertes Reinforcement-Learning-Framework, das einen Agenten befähigt, einen robusten Generieren–Diagnostizieren–Verfeinern-Zyklus zu schließen, indem ein multimodaler LLM (MLLM) als Werkzeug eingesetzt wird. Während des Trainings nutzt der Agent den MLLM-in-the-loop sowohl als visuellen Kritiker – der Code anhand von Screenshots bewertet – als auch als Quelle für umsetzbares, visuell fundiertes Feedback; eine strikte Null-Belohnungsregel für ungültige Renderings sichert die Renderfähigkeit und verhindert Reward-Hacking. Um einen Verhaltenszusammenbruch zu vermeiden, führen wir Forced Optimization ein, eine strikte Akzeptanzregel, die nur verbessernde Revisionen zulässt und somit monoton bessere Trajektorien erzeugt. Bei der Inferenz entkoppeln wir den Kritiker und führen einen leichten, kritikerfreien Selbstbearbeitungszyklus durch, wodurch die Latenz vergleichbar zur Basisdkodierung bleibt, während der Großteil der Gewinne erhalten bleibt. Über drei weit verbreitete Benchmarks hinweg übertrifft ReLook durchweg starke Baseline-Modelle bei der visuell fundierten Frontend-Codegenerierung, was die Vorteile von agentenbasierter Wahrnehmung, visuellen Belohnungen und der Entkopplung von Training und Inferenz unterstreicht.
Ein Paradigma der Feinabstimmung von Sprachmodellen (Language Models, LMs) basiert auf der Erstellung großer Trainingsdatensätze, in der Annahme, dass hohe Quantität und Vielfalt es den Modellen ermöglichen, sich nach dem Training auf neue Aufgaben zu verallgemeinern. In der Praxis ist das Sammeln großer Datensätze jedoch ineffizient, und das Training darauf ist extrem kostspielig; schlimmer noch, es gibt keine Garantie, dass das resultierende Modell komplexe Szenarien bewältigen oder sich besser verallgemeinern wird. Darüber hinaus bewerten bestehende Techniken selten, ob ein Trainingsbeispiel neue Informationen liefert oder redundant zum bereits erworbenen Wissen des Modells ist, was zu unnötigen Kosten führt. In dieser Arbeit untersuchen wir eine neue Methode zur Selbstverbesserung zur Laufzeit, um effektivere und besser verallgemeinerbare agentenbasierte LMs on-the-fly zu erstellen. Der vorgeschlagene Algorithmus lässt sich in drei Schritte zusammenfassen: (i) Zunächst identifiziert er die Beispiele, mit denen das Modell Schwierigkeiten hat (Selbstwahrnehmung), (ii) generiert dann ähnliche Beispiele aus den erkannten unsicheren Fällen (Selbst-Daten-Augmentierung) und (iii) verwendet diese neu generierten Beispiele zur Feinabstimmung zur Laufzeit (Selbstverbesserung). Wir untersuchen zwei Varianten dieses Ansatzes: Test-Time Self-Improvement (TT-SI), bei dem dasselbe Modell zusätzliche Trainingsbeispiele aus seinen eigenen unsicheren Fällen generiert und dann daraus lernt, und vergleichen diesen Ansatz mit Test-Time Distillation (TT-D), bei dem ein stärkeres Modell ähnliche Beispiele für unsichere Fälle generiert, wodurch der Schüler mithilfe destillierter Supervision adaptieren kann. Empirische Auswertungen über verschiedene Agenten-Benchmarks zeigen, dass TT-SI die Leistung mit einem durchschnittlichen absoluten Genauigkeitsgewinn von +5,48 % über alle Benchmarks hinweg verbessert und andere Standard-Lernmethoden übertrifft, dabei jedoch 68x weniger Trainingsbeispiele verwendet. Unsere Ergebnisse unterstreichen das Potenzial von TT-SI und demonstrieren die Möglichkeiten von Selbstverbesserungsalgorithmen zur Laufzeit als neues Paradigma für die Entwicklung leistungsfähigerer Agenten hin zur Selbstevolution.
Sprachmodelle zeigen oft nur geringe oder gar keine Verbesserungen (d.h. „Sättigung“), wenn sie mittels herkömmlichem Supervised Fine-Tuning (SFT) auf Daten trainiert werden, die denen in ihrem Trainingsdatensatz ähneln (z.B. MATH). Wir stellen eine neue Fine-Tuning-Strategie, STAT, vor, um ein solches Schülermodell zu trainieren, indem wir die Metakognitionsfähigkeit eines stärkeren Large Language Models (LLM) als Lehrer nutzen. Der Lehrer verwendet den Aufgaben-Datensatz, um eine Liste der für die Aufgabe benötigten Fähigkeiten zu erstellen, und kennzeichnet dann jeden Datenpunkt mit den erforderlichen Fähigkeiten (Didolkar et al., 2024). Durch die Überwachung der Antworten des Schülers erstellt der Lehrer ein Missing-Skill-Profile für den Schüler, das festhält, wie oft dieser jede Fähigkeit in seinen Antworten nicht anwenden konnte. Wir nutzen diese Idee, um einen modifizierten Trainingsdatensatz auf eine von zwei Arten zu erstellen. Bei STAT-Sel verwendet der Lehrer einen bestehenden Satz von Trainingsbeispielen, gewichtet sie jedoch adaptiv gemäß dem Missing-Skill-Profile neu. Bei STAT-Syn synthetisiert der Lehrer zusätzliche Beispiele, die fehlende Fähigkeiten beinhalten. In umfangreichen Experimenten mit Llama- und Qwen-Modellen erzielen unsere Methoden Verbesserungen von bis zu 7,5 % auf MATH, während SFT nur begrenzte Fortschritte bietet. Darüber hinaus verbessert STAT die Leistung bei Out-of-Distribution-Benchmarks (z.B. AIME24/25, AMC23 usw.) im Durchschnitt um 4,6 %. Entscheidend ist, dass wir feststellen, dass STAT komplementär zu RL via GRPO (Shao et al., 2024) ist: Nachdem das Modell mit STAT verbessert wurde, um Fähigkeitslücken zu schließen, fügt GRPO weitere Gewinne hinzu. Wir kommen zu dem Schluss, dass zielgerichtetes adaptives Training die aktuellen Trainingspipelines allgemein verbessern sollte. Unser Code ist verfügbar unter: https://github.com/princeton-pli/STAT.
Wie sollten wir die Robustheit von Sprachmodellabwehrmechanismen bewerten? Aktuelle Abwehrmaßnahmen gegen Jailbreaks und Prompt-Injections (die darauf abzielen, zu verhindern, dass ein Angreifer schädliches Wissen abruft oder ferngesteuert bösartige Aktionen auslöst) werden typischerweise entweder gegen einen statischen Satz schädlicher Angriffszeichenfolgen oder gegen rechnerisch schwache Optimierungsmethoden evaluiert, die nicht mit der Abwehr im Hintergrund entwickelt wurden. Wir argumentieren, dass dieser Evaluierungsprozess fehlerhaft ist. Stattdessen sollten wir Abwehrmaßnahmen gegen adaptive Angreifer bewerten, die ihre Angriffsstrategie explizit anpassen, um den Entwurf der Abwehr zu kontern, während sie erhebliche Ressourcen aufwenden, um ihr Ziel zu optimieren. Durch systematisches Anpassen und Skalieren allgemeiner Optimierungstechniken – Gradientenabstieg, Reinforcement Learning, zufällige Suche und menschlich geleitete Exploration – umgehen wir 12 aktuelle Abwehrmechanismen (basierend auf einer Vielzahl von Techniken) mit einer Angriffserfolgsrate von über 90 % bei den meisten; entscheidend ist, dass die Mehrheit der Abwehrmechanismen ursprünglich nahezu null Angriffserfolgsraten meldete. Wir glauben, dass zukünftige Abwehrarbeiten stärkere Angriffe, wie die von uns beschriebenen, berücksichtigen müssen, um zuverlässige und überzeugende Robustheitsaussagen treffen zu können.
Der Vergleich von menschlicher und Modellleistung bietet eine wertvolle Perspektive, um die Stärken und Grenzen von Embedding-Modellen zu verstehen, und zeigt auf, wo sie erfolgreich sind und wo sie Bedeutung und Nuancen nicht erfassen können. Solche Vergleiche werden jedoch selten angestellt, da die menschliche Leistung bei Embedding-Aufgaben schwer zu messen ist. Um diese Lücke zu schließen, führen wir HUME ein: ein Human Evaluation Framework for Text Embeddings. Während Frameworks wie MTEB eine breite Modellbewertung bieten, fehlen ihnen zuverlässige Schätzungen der menschlichen Leistung, was die Interpretierbarkeit der Modellergebnisse einschränkt. Wir messen die menschliche Leistung über 16 MTEB-Datensätze hinweg, die Neusortierung, Klassifizierung, Clustering und semantische Textähnlichkeit in linguistisch diversen Hoch- und Niedrigressourcen-Sprachen abdecken. Menschen erreichen eine durchschnittliche Leistung von 77,6 % im Vergleich zu 80,1 % für das beste Embedding-Modell, wobei die Variation erheblich ist: Modelle erreichen nahezu maximale Leistung bei einigen Datensätzen, während sie bei anderen Schwierigkeiten haben, was auf Probleme mit den Datensätzen hinweist und Schwächen in Niedrigressourcen-Sprachen offenbart. Wir liefern menschliche Leistungsbaselines, Einblicke in Muster der Aufgabenkomplexität und ein erweiterbares Bewertungsframework, das eine aussagekräftigere Interpretation der Modelle ermöglicht und die Entwicklung sowohl von Modellen als auch von Benchmarks informiert. Unser Code, Datensätze und Leaderboard sind öffentlich verfügbar unter https://github.com/embeddings-benchmark/mteb.
Große Reasoning-Modelle (LRMs) haben beeindruckende Leistungen bei komplexen Reasoning-Aufgaben erzielt, indem sie detaillierte Chain-of-Thought (CoT)-Erklärungen generieren. Allerdings sind diese Antworten oft übermäßig lang und enthalten redundante Reasoning-Schritte, die die Inferenzkosten erhöhen und die Benutzerfreundlichkeit verringern. Die Kontrolle der Länge des generierten Reasonings ohne Genauigkeitsverlust bleibt eine offene Herausforderung. Durch eine systematische empirische Analyse zeigen wir eine konsistente positive Korrelation zwischen der Modellentropie und der Antwortlänge in verschiedenen Reasoning-Phasen über diverse LRMs hinweg: Die Denkphase weist eine höhere Entropie auf, was ein exploratives Verhalten mit längeren Antworten widerspiegelt, während die Phase der endgültigen Antwort eine niedrigere Entropie zeigt, was auf eine deterministischere Lösung hindeutet. Diese Beobachtung legt nahe, dass die Entropie in verschiedenen Reasoning-Phasen als Steuerelement für die Balance zwischen Prägnanz und Leistung dienen kann. Basierend auf dieser Erkenntnis führt diese Arbeit den Phase Entropy Aware Reward (PEAR) ein, einen Belohnungsmechanismus, der phasenabhängige Entropie in das Belohnungsdesign integriert. Anstatt alle Token gleich zu behandeln, bestraft PEAR übermäßige Entropie während der Denkphase und ermöglicht moderate Exploration in der Phase der endgültigen Antwort, wodurch Modelle dazu angeregt werden, prägnante Reasoning-Spuren zu generieren, die dennoch ausreichend Flexibilität behalten, um die Aufgabe korrekt zu lösen. Dies ermöglicht eine adaptive Kontrolle der Antwortlänge ohne explizite Längenziele oder starre Kürzungsregeln. Umfangreiche Experimente über vier Benchmarks zeigen, dass PEAR die Antwortlänge konsequent reduziert, während die Genauigkeit über verschiedene Modellgrößen hinweg wettbewerbsfähig bleibt. Darüber hinaus zeigt PEAR eine starke Robustheit gegenüber Out-of-Distribution (OOD)-Daten, die über die Trainingsverteilung hinausgehen. Unser Code ist verfügbar unter: https://github.com/iNLP-Lab/PEAR.
Wenn ein KI-Assistent sich daran erinnert, dass Sarah eine alleinerziehende Mutter ist, die zwei Jobs hat, interpretiert es ihren Stress anders, als wenn sie eine wohlhabende Managerin wäre? Da personalisierte KI-Systeme zunehmend langfristige Benutzerspeicher integrieren, ist es entscheidend zu verstehen, wie dieses Gedächtnis das emotionale Denken beeinflusst. Wir untersuchen, wie der Benutzerspeicher die emotionale Intelligenz in großen Sprachmodellen (LLMs) beeinflusst, indem wir 15 Modelle anhand von menschlich validierten emotionalen Intelligenztests bewerten. Wir stellen fest, dass identische Szenarien, die mit unterschiedlichen Benutzerprofilen gepaart sind, systematisch divergierende emotionale Interpretationen hervorrufen. Über validierte, benutzerunabhängige emotionale Szenarien und diverse Benutzerprofile hinweg zeigten sich systematische Verzerrungen in mehreren leistungsstarken LLMs, bei denen privilegierte Profile genauere emotionale Interpretationen erhielten. Darüber hinaus zeigen LLMs erhebliche Disparitäten bei demografischen Faktoren in Aufgaben zum Verständnis von Emotionen und unterstützenden Empfehlungen, was darauf hindeutet, dass Personalisierungsmechanismen soziale Hierarchien in das emotionale Denken der Modelle einbetten können. Diese Ergebnisse verdeutlichen eine zentrale Herausforderung für KI mit Gedächtniserweiterung: Systeme, die für Personalisierung entwickelt wurden, könnten unbeabsichtigt soziale Ungleichheiten verstärken.
Das intuitive physikalische Verständnis in Video-Diffusionsmodellen spielt eine wesentliche Rolle bei der Entwicklung allgemeiner physikalisch plausibler Weltsimulatoren. Dennoch bleibt die genaue Bewertung dieser Fähigkeit eine herausfordernde Aufgabe, da es schwierig ist, die physikalische Korrektheit von der visuellen Erscheinung in der Generierung zu trennen. Zu diesem Zweck führen wir LikePhys ein, eine trainingsfreie Methode, die das intuitive physikalische Verständnis in Video-Diffusionsmodellen bewertet, indem sie physikalisch gültige und unmögliche Videos anhand des Denoising-Ziels als ELBO-basierte Likelihood-Ersatzgröße auf einem kuratierten Datensatz von gültig-ungültig-Paaren unterscheidet. Durch Tests auf unserem konstruierten Benchmark mit zwölf Szenarien, die vier physikalische Domänen umfassen, zeigen wir, dass unsere Bewertungsmetrik, der Plausibility Preference Error (PPE), eine starke Übereinstimmung mit menschlichen Präferenzen aufweist und state-of-the-art Bewertungsbaselines übertrifft. Anschließend bewerten wir systematisch das intuitive physikalische Verständnis in aktuellen Video-Diffusionsmodellen. Unsere Studie analysiert weiterhin, wie Modellgestaltung und Inferenzeinstellungen das intuitive physikalische Verständnis beeinflussen, und hebt domänenspezifische Kapazitätsvariationen über physikalische Gesetze hinweg hervor. Empirische Ergebnisse zeigen, dass, obwohl aktuelle Modelle mit komplexen und chaotischen Dynamiken kämpfen, es einen klaren Trend der Verbesserung im physikalischen Verständnis gibt, wenn die Modellkapazität und die Inferenzeinstellungen skaliert werden.
Die Erzeugung realistischer und kontrollierbarer 3D-Menschavatare stellt eine langjährige Herausforderung dar, insbesondere wenn ein breites Spektrum an Attributen wie Ethnizität, Alter, Kleidungsstile und detaillierte Körperformen abgedeckt werden soll. Die Erfassung und Annotation groß angelegter menschlicher Datensätze für das Training generativer Modelle ist äußerst kostspielig und in Umfang und Vielfalt begrenzt. Die zentrale Frage, die wir in diesem Artikel behandeln, lautet: Können bestehende Foundation-Modelle so destilliert werden, dass sie theoretisch unbegrenzte, reich annotierte 3D-Menschdaten erzeugen? Wir stellen InfiniHuman vor, ein Framework, das diese Modelle synergetisch destilliert, um reich annotierte Menschdaten mit minimalen Kosten und theoretisch unbegrenzter Skalierbarkeit zu erzeugen. Wir präsentieren InfiniHumanData, eine vollautomatische Pipeline, die Vision-Language- und Bildgenerierungsmodelle nutzt, um einen groß angelegten multimodalen Datensatz zu erstellen. Eine Nutzerstudie zeigt, dass unsere automatisch generierten Identitäten nicht von Scan-Renderings zu unterscheiden sind. InfiniHumanData umfasst 111.000 Identitäten mit einer beispiellosen Vielfalt. Jede Identität ist mit mehrgranularen Textbeschreibungen, Mehransicht-RGB-Bildern, detaillierten Kleidungsbildern und SMPL-Körperformparametern annotiert. Aufbauend auf diesem Datensatz schlagen wir InfiniHumanGen vor, eine diffusionsbasierte generative Pipeline, die auf Text, Körperform und Kleidungsassets konditioniert ist. InfiniHumanGen ermöglicht eine schnelle, realistische und präzise kontrollierbare Avatar-Generierung. Umfangreiche Experimente zeigen signifikante Verbesserungen gegenüber state-of-the-art-Methoden in Bezug auf visuelle Qualität, Generierungsgeschwindigkeit und Kontrollierbarkeit. Unser Ansatz ermöglicht die Erzeugung hochwertiger Avatare mit fein abgestufter Kontrolle in praktisch unbegrenztem Umfang durch eine praktische und kostengünstige Lösung. Wir werden die automatische Datengenerierungspipeline, den umfassenden InfiniHumanData-Datensatz und die InfiniHumanGen-Modelle öffentlich unter https://yuxuan-xue.com/infini-human freigeben.
Generative Modelle bilden das Rückgrat des modernen maschinellen Lernens und unterliegen den fortschrittlichsten Systemen in den Bereichen Text, Bild und multimodale Anwendungen. Während die Maximum-Likelihood-Schätzung traditionell als dominantes Trainingsparadigma diente, haben neuere Arbeiten ihre Grenzen aufgezeigt, insbesondere in Bezug auf Generalisierung und Anfälligkeit für katastrophales Vergessen im Vergleich zu Reinforcement-Learning-Techniken wie Policy-Gradient-Methoden. Diese Ansätze hängen jedoch von expliziten Belohnungssignalen ab, die in der Praxis oft nicht verfügbar sind, wodurch das grundlegende Problem offen bleibt, wie generative Modelle ausgerichtet werden können, wenn nur hochwertige Datensätze zugänglich sind. In dieser Arbeit gehen wir diese Herausforderung über ein Bilevel-Optimierungs-Framework an, bei dem die Belohnungsfunktion als Optimierungsvariable eines äußeren Problems behandelt wird, während ein Policy-Gradient-Ziel das innere Problem definiert. Anschließend führen wir eine theoretische Analyse dieses Optimierungsproblems in einem handhabbaren Rahmen durch und gewinnen Erkenntnisse, die, wie wir zeigen, auf Anwendungen wie tabellarische Klassifikation und modellbasiertes Reinforcement Learning übertragbar sind. Den Code stellen wir unter https://github.com/abenechehab/nll_to_po zur Verfügung.
Vortrainierte visuelle Basismodelle (VFMs) fördern das robotische Lernen durch umfangreiche visuelle Repräsentationen, doch einzelne VFMs zeichnen sich typischerweise nur in spezifischen Domänen aus, was die Allgemeingültigkeit über verschiedene Aufgaben hinweg einschränkt. Die Destillation mehrerer VFMs in eine einheitliche Repräsentation für die Politik kann diese Einschränkung mildern, führt jedoch oft zu unflexibler, aufgabenbezogener Merkmalsauswahl und erfordert kostspieliges vollständiges Neu-Training, um roboterspezifisches Wissen zu integrieren. Wir schlagen VER, einen Vision-Expert-Transformer für das robotische Lernen, vor. Während des Vortrainings destilliert VER mehrere VFMs in eine Vision-Expert-Bibliothek. Anschließend wird nur ein leichtgewichtiges Routing-Netzwerk (weniger als 0,4 % der Parameter) feinabgestimmt, um dynamisch aufgabenrelevante Experten aus der vortrainierten Bibliothek für nachgelagerte Robotikaufgaben auszuwählen. Wir führen zusätzlich Patchweise Experten-Routing mit Curriculum Top-K-Annealing ein, um sowohl die Flexibilität als auch die Präzision der dynamischen Expertenauswahl zu verbessern. Darüber hinaus unterstützt VER parameter-effizientes Feintuning für skalierbare Expertennutzung und adaptive Integration von roboterspezifischem Wissen. Über 17 verschiedene Robotikaufgaben und mehrere Politik-Köpfe hinweg erreicht VER state-of-the-art Leistung. Wir stellen fest, dass VER große Norm-Ausreißer in aufgabenirrelevanten Regionen (z. B. Hintergrund) reduziert und sich auf aufgabenkritische Regionen konzentriert. Visualisierungen und Codes sind unter https://yixiaowang7.github.io/ver_page/ verfügbar.
Hochwertige Vortrainingsdaten sind der fossile Brennstoff großer Sprachmodelle (LLMs), doch ihre Reserven schwinden für Spitzenmodelle. In diesem Artikel stellen wir RePro vor, eine neuartige Methode zum Web-Recycling, die ein relativ kleines Sprachmodell (LM) mit Verstärkungslernen trainiert, um effektive und treue Umformulierungen von Vortrainingsdaten zu generieren. Konkret entwerfen wir eine Qualitätsbelohnung und drei Treuebelohnungen, um das LM-Umformulierungsmodell zu optimieren, organische Daten in hochwertige Umformulierungen umzuwandeln, während deren Kernsemantik und Struktur erhalten bleiben. In unserem Experiment trainieren wir einen 4B-Umformulierer, um 72B Token aus DCLM-RefinedWeb zu recyceln. Die Vortrainingsergebnisse für 400M- und 1.4B-Modelle zeigen, dass RePro im Vergleich zu einem rein organischen Baseline-Modell relative Genauigkeitssteigerungen von 4,7 % bis 14,0 % bei 22 nachgelagerten Aufgaben erzielt. RePro übertrifft auch ReWire, die derzeit beste Web-Recycling-Methode, die einen 70B-Umformulierer anstößt, sowie die organische Baseline mit einem 4-mal größeren Datenpool. Experimente mit unterschiedlichen Mengen recycelter Daten verdeutlichen, dass RePro die Effizienz organischer Daten um das 2- bis 3-fache verbessert. Einzelne und verteilungsbezogene Analysen bestätigen, dass RePro im Vergleich zu anstoßbasierten Methoden mehr kritische Informationen bewahrt und die Eigenschaften organischer Daten treuer widerspiegelt. Zusammengenommen zeigen diese Ergebnisse, dass RePro einen effizienten und kontrollierbaren Weg bietet, um den fossilen Brennstoff des LLM-Vortrainings effektiv zu nutzen. Wir stellen unseren Code, den Umformulierer und die recycelten Daten unter https://github.com/cxcscmu/RePro als Open-Source zur Verfügung.
Organische Reaktionsmechanismen sind die schrittweisen Elementarreaktionen, durch die Ausgangsstoffe Zwischenprodukte und Endprodukte bilden. Sie sind grundlegend für das Verständnis chemischer Reaktivität und die Entwicklung neuer Moleküle und Reaktionen. Obwohl große Sprachmodelle (LLMs) vielversprechende Fähigkeiten bei chemischen Aufgaben wie der Syntheseplanung gezeigt haben, ist unklar, inwieweit dies echte chemische Denkfähigkeiten widerspiegelt, d. h. die Fähigkeit, gültige Zwischenprodukte zu generieren, chemische Konsistenz zu wahren und logisch kohärente Mehrschrittpfade zu verfolgen. Wir adressieren dies durch die Einführung von oMeBench, dem ersten groß angelegten, von Experten kuratierten Benchmark für das Verständnis organischer Reaktionsmechanismen in der organischen Chemie. Es umfasst über 10.000 annotierte mechanistische Schritte mit Zwischenprodukten, Typkennzeichnungen und Schwierigkeitsbewertungen. Darüber hinaus schlagen wir oMeS vor, ein dynamisches Bewertungsframework, das schrittweise Logik und chemische Ähnlichkeit kombiniert, um die Fähigkeiten von LLMs präziser zu bewerten und eine fein abgestufte Bewertung zu ermöglichen. Wir analysieren die Leistung modernster LLMs, und unsere Ergebnisse zeigen, dass aktuelle Modelle zwar vielversprechende chemische Intuition aufweisen, jedoch mit korrekter und konsistenter Mehrschrittargumentation kämpfen. Bemerkenswerterweise stellen wir fest, dass die Verwendung von Prompting-Strategien und das Feinabstimmen eines Spezialmodells auf unser vorgeschlagenes Datenset die Leistung um 50 % gegenüber dem führenden Closed-Source-Modell steigert. Wir hoffen, dass oMeBench als rigorose Grundlage für die Weiterentwicklung von KI-Systemen hin zu echtem chemischen Denken dienen wird.
Während Text-zu-Bild (T2I)-Modelle hochwertige Bilder synthetisieren können, verschlechtert sich ihre Leistung erheblich, wenn sie mit neuartigen oder außerhalb der Verteilung (Out-of-Distribution, OOD) liegenden Entitäten angeregt werden, was auf inhärente Wissensgrenzen zurückzuführen ist. Wir stellen World-To-Image vor, ein neuartiges Framework, das diese Lücke schließt, indem es die T2I-Generierung mit agentengesteuertem Weltwissen erweitert. Wir entwickeln einen Agenten, der dynamisch das Web durchsucht, um Bilder für Konzepte zu finden, die dem Basismodell unbekannt sind. Diese Informationen werden dann verwendet, um eine multimodale Prompt-Optimierung durchzuführen, die leistungsstarke generative Backbones in Richtung einer präzisen Synthese lenkt. Entscheidend ist, dass unsere Bewertung über traditionelle Metriken hinausgeht und moderne Bewertungsmethoden wie LLMGrader und ImageReward nutzt, um die wahre semantische Treue zu messen. Unsere Experimente zeigen, dass World-To-Image state-of-the-art-Methoden sowohl in der semantischen Ausrichtung als auch in der visuellen Ästhetik deutlich übertrifft und eine Verbesserung von +8,1 % in der Genauigkeit zum Prompt auf unserem kuratierten NICE-Benchmark erreicht. Unser Framework erzielt diese Ergebnisse mit hoher Effizienz in weniger als drei Iterationen und ebnet den Weg für T2I-Systeme, die die sich ständig verändernde reale Welt besser widerspiegeln können. Unser Demo-Code ist hier verfügbar: https://github.com/mhson-kyle/World-To-Image.
Moderne Konversationsagenten wie ChatGPT und Alexa+ basieren auf vordefinierten Richtlinien, die Metadaten, Antwortstile und Regeln für die Werkzeugnutzung spezifizieren. Da diese LLM-basierten Systeme erweitert werden, um diverse geschäftliche und nutzerspezifische Anfragen zu unterstützen, werden solche Richtlinien, die oft als In-Context-Prompts implementiert sind, zunehmend komplex und umfangreich. Dies erschwert die treue Einhaltung und verursacht hohe feste Berechnungskosten. Mit dem Aufkommen multimodaler Agenten sind Richtlinien, die visuelles und multimodales Verhalten steuern, entscheidend, bleiben jedoch weitgehend unerforscht. Bisherige Arbeiten zur Prompt-Komprimierung konzentrieren sich hauptsächlich auf die Verkürzung von Aufgabenvorlagen und Demonstrationen, während bestehende Studien zur Richtlinienausrichtung sich nur auf textbasierte Sicherheitsregeln beschränken. Wir stellen Multimodal Policy Internalization (MPI) vor, eine neue Aufgabe, die ressourcenintensive multimodale Richtlinien in Modellparameter internalisiert und so eine stärkere Richtlinienbefolgung ermöglicht, ohne die Richtlinie während der Inferenz einzubeziehen. MPI stellt einzigartige Daten- und algorithmische Herausforderungen dar. Wir erstellen zwei Datensätze, die synthetische und reale Entscheidungsfindungs- und Werkzeugnutzungsaufgaben abdecken, und schlagen TriMPI vor, ein dreistufiges Trainingsframework. TriMPI injiziert zunächst Richtlinienwissen durch kontinuierliches Pretraining, führt dann überwachtes Finetuning durch und wendet schließlich PolicyRollout an, eine GRPO-artige Erweiterung des Reinforcement Learning, die Rollouts mit richtlinienbewussten Antworten für fundierte Exploration ergänzt. TriMPI erzielt bemerkenswerte Fortschritte in Bezug auf End-to-End-Genauigkeit, Generalisierung und Robustheit gegenüber Vergessen. Als erste Arbeit zur Internalisierung multimodaler Richtlinien stellen wir Datensätze, Trainingsrezepte und umfassende Evaluierungen zur Verfügung, um zukünftige Forschung zu fördern. Projektseite: https://mikewangwzhl.github.io/TriMPI.
Allgemeine Large Language Models (LLMs) zeichnen sich durch ihre Fähigkeiten im Bereich des logischen Denkens aus, während Modelle, die für Übersetzungen optimiert wurden, in solchen Aufgaben Schwierigkeiten haben. Um dieses Problem zu lösen, schlagen wir ein neuartiges, translationsoptimiertes Verfahren vor, das mit Instruktionsmodellen beginnt und eine schichtselektive Feinabstimmung ausschließlich auf parallelen Daten anwendet. Im Rahmen dieses Prozesses führen wir die Qwen3-XPlus-Modelle ein, die signifikante Verbesserungen in der Übersetzungsleistung sowohl für ressourcenstarke als auch ressourcenschwache Sprachen demonstrieren und dabei in ressourcenschwachen Sprachen wie Swahili Werte von über 15 spBLEU und über 40 xComet erreichen. Interessanterweise erzielt Qwen3-XPlus, das nur mit kleinen parallelen Datensätzen trainiert wurde, eine durchschnittliche Verbesserung von mehr als 1 Punkt in 7 multilingualen Aufgaben, während es eine vergleichbare Kompetenz wie das Qwen3-Instruktionsmodell in 15 gängigen Reasoning-Datensätzen beibehält. Diese Arbeit bietet einen vielversprechenden Ansatz zur multilingualen Verbesserung, der die Komplexität erheblich reduziert und die Zugänglichkeit für eine breitere Palette von Sprachen erhöht. Der Code und das Modell sind öffentlich verfügbar.
Im Kern von Deep Research steht das Wissensmining, die Aufgabe, strukturierte Informationen aus massiven unstrukturierten Texten als Reaktion auf Benutzeranweisungen zu extrahieren. Große Sprachmodelle (LLMs) sind hervorragend darin, solche Anweisungen zu interpretieren, aber ihr Einsatz in großem Maßstab ist prohibitv teuer, während traditionelle Pipelines aus Klassifikatoren und Extraktoren zwar effizient, aber spröde bleiben und sich nicht auf neue Aufgaben verallgemeinern lassen. Wir stellen Falconer vor, ein kollaboratives Framework, das das agentenbasierte Denken von LLMs mit leichten Proxy-Modellen für skalierbares Wissensmining kombiniert. In Falconer fungieren LLMs als Planer, die Benutzeranweisungen in ausführbare Pipelines zerlegen, und als Annotatoren, die Aufsichtsdaten zur Schulung kleiner Proxies generieren. Das Framework vereint Klassifikation und Extraktion in zwei atomare Operationen, get label und get span, wodurch ein einziges anweisungsfolgendes Modell mehrere aufgabenspezifische Komponenten ersetzen kann. Um die Konsistenz zwischen den von Falconer inkubierten Proxy-Modellen und den von Menschen und großen Modellen bereitgestellten Annotationen zu bewerten, erstellen wir neue Benchmarks, die sowohl die Planung als auch die end-to-end-Ausführung abdecken. Experimente zeigen, dass Falconer in der Genauigkeit der Anweisungsbefolgung mit den modernsten LLMs vergleichbar ist, während die Inferenzkosten um bis zu 90 % reduziert und das groß angelegte Wissensmining um mehr als das 20-fache beschleunigt werden, was eine effiziente und skalierbare Grundlage für Deep Research bietet.
Kreative Generierung ist die Synthese neuer, überraschender und wertvoller Beispiele, die die Benutzerabsicht widerspiegeln, jedoch im Voraus nicht vorstellbar sind. Diese Aufgabe zielt darauf ab, die menschliche Vorstellungskraft zu erweitern und die Entdeckung visueller Konzepte zu ermöglichen, die in den unerforschten Räumen zwischen bekannten Domänen existieren. Während Text-zu-Bild-Diffusionsmodelle hervorragend darin sind, fotorealistische Szenen zu rendern, die Benutzeranfragen treu entsprechen, haben sie immer noch Schwierigkeiten, wirklich neuartige Inhalte zu generieren. Bestehende Ansätze zur Steigerung der generativen Kreativität beruhen entweder auf der Interpolation von Bildmerkmalen, was die Exploration auf vordefinierte Kategorien beschränkt, oder erfordern zeitintensive Verfahren wie Embedding-Optimierung oder Modell-Fine-Tuning. Wir schlagen VLM-geführtes adaptives Negativ-Prompting vor, eine trainingsfreie Methode zur Inferenzzeit, die die kreative Bildgenerierung fördert und gleichzeitig die Gültigkeit des generierten Objekts bewahrt. Unser Ansatz nutzt ein Vision-Language-Modell (VLM), das Zwischenergebnisse des Generierungsprozesses analysiert und diesen adaptiv von konventionellen visuellen Konzepten wegsteuert, wodurch das Entstehen neuartiger und überraschender Ergebnisse gefördert wird. Wir bewerten Kreativität sowohl anhand von Neuartigkeit als auch Gültigkeit, indem wir statistische Metriken im CLIP-Embedding-Raum verwenden. Durch umfangreiche Experimente zeigen wir konsistente Gewinne in der kreativen Neuartigkeit mit vernachlässigbarem Rechenaufwand. Darüber hinaus erstreckt sich unser Ansatz, im Gegensatz zu bestehenden Methoden, die hauptsächlich einzelne Objekte generieren, auf komplexe Szenarien, wie die Erzeugung kohärenter Sätze kreativer Objekte und die Bewahrung der Kreativität innerhalb elaborierter Kompositionsanfragen. Unsere Methode integriert sich nahtlos in bestehende Diffusionspipelines und bietet einen praktischen Weg, kreative Ergebnisse zu erzeugen, die über die Grenzen textueller Beschreibungen hinausgehen.
In-Context-Learning ermöglicht es großen Modellen, sich an neue Aufgaben anhand weniger Demonstrationen anzupassen, hat jedoch im Bereich des Moleküldesigns bisher nur begrenzten Erfolg gezeigt. Bestehende Datenbanken wie ChEMBL enthalten molekulare Eigenschaften, die Millionen von biologischen Assays umfassen, doch bleiben annotierte Daten für jede Eigenschaft knapp. Um diese Einschränkung zu überwinden, führen wir demonstrationsbedingte Diffusionsmodelle (DemoDiff) ein, die Aufgabenkontexte mithilfe einer kleinen Menge von Molekül-Score-Beispielen statt textueller Beschreibungen definieren. Diese Demonstrationen leiten einen Denoising-Transformer an, um Moleküle zu generieren, die mit den Ziel-Eigenschaften übereinstimmen. Für skalierbares Pretraining entwickeln wir einen neuen molekularen Tokenizer mit Node-Pair-Encoding, der Moleküle auf Motivebene darstellt und 5,5-mal weniger Knoten benötigt. Wir erstellen einen Datensatz, der Millionen von Kontextaufgaben aus verschiedenen Quellen abdeckt, sowohl für Arzneimittel als auch Materialien, und trainieren ein Modell mit 0,7 Milliarden Parametern darauf. Über 33 Designaufgaben in sechs Kategorien hinweg erreicht DemoDiff vergleichbare oder bessere Ergebnisse als Sprachmodelle, die 100-1000-mal größer sind, und erzielt einen durchschnittlichen Rang von 3,63 im Vergleich zu 5,25-10,20 für domänenspezifische Ansätze. Diese Ergebnisse positionieren DemoDiff als ein molekulares Grundlagenmodell für In-Context-Moleküldesign. Unser Code ist verfügbar unter https://github.com/liugangcode/DemoDiff.
In den letzten Jahren haben cloud-basierte MLLMs wie QwenVL, InternVL, GPT-4o, Gemini und Claude Sonnet mit enormen Modellgrößen von Hunderten von Milliarden Parametern herausragende Leistungen gezeigt, die jedoch die Grenzen in Bezug auf Speicher, Stromverbrauch und Rechenkapazität von Edge-Geräten wie Mobiltelefonen deutlich überschreiten. Dieses Papier stellt AndesVL vor, eine Suite von mobilen MLLMs mit 0,6B bis 4B Parametern, basierend auf Qwen3s LLM und verschiedenen visuellen Encodern. Wir skizzieren umfassend die Modellarchitekturen, den Trainingspipeline und die Trainingsdaten von AndesVL, das erstklassige Leistungen in einer Vielzahl von Open-Source-Benchmarks erzielt, darunter Bereiche wie das Verständnis von textreichen Bildern, Schlussfolgerungen und Mathematik, das Verständnis mehrerer Bilder, allgemeine VQA, die Reduzierung von Halluzinationen, mehrsprachiges Verständnis und GUI-bezogene Aufgaben im Vergleich zu state-of-the-art Modellen ähnlicher Größe. Darüber hinaus führen wir ein 1+N LoR
Typische Post-Training-Paradigmen für große visuell-sprachliche Modelle (Large Vision-and-Language Models, LVLMs) umfassen Supervised Fine-Tuning (SFT) und Reinforcement Learning mit überprüfbaren Belohnungen (Reinforcement Learning with Verifiable Rewards, RLVR). SFT nutzt externe Anleitung, um neues Wissen einzubringen, während RLVR interne Verstärkung verwendet, um die Fähigkeiten zur logischen Schlussfolgerung und die Gesamtleistung zu verbessern. Unsere Analyse zeigt jedoch, dass SFT häufig zu suboptimaler Leistung führt, während RLVR bei Aufgaben, die die interne Wissensbasis des Modells übersteigen, Schwierigkeiten hat. Um diese Einschränkungen zu überwinden, schlagen wir ViSurf (Visual Supervised-and-Reinforcement Fine-Tuning) vor, ein einheitliches Post-Training-Paradigma, das die Stärken von SFT und RLVR in einer einzigen Stufe integriert. Wir analysieren die Ableitung der SFT- und RLVR-Ziele, um das ViSurf-Ziel zu etablieren, und bieten damit eine einheitliche Perspektive auf diese beiden Paradigmen. Der Kern von ViSurf besteht darin, Ground-Truth-Labels in die RLVR-Rollouts einzubetten, wodurch gleichzeitig externe Überwachung und interne Verstärkung bereitgestellt werden. Darüber hinaus führen wir drei neuartige Belohnungssteuerungsstrategien ein, um den Trainingsprozess zu stabilisieren und zu optimieren. Umfangreiche Experimente über mehrere diverse Benchmarks hinweg demonstrieren die Wirksamkeit von ViSurf, das sowohl individuelles SFT, RLVR als auch zweistufiges SFT \textrightarrow RLVR übertrifft. Eine detaillierte Analyse bestätigt diese Ergebnisse und validiert die Ableitung und Designprinzipien von ViSurf.
Die anweisungsgesteuerte Videobearbeitung hat sich als ein schnell voranschreitender Forschungsbereich etabliert, der neue Möglichkeiten für intuitive Inhaltsumwandlungen bietet, aber auch erhebliche Herausforderungen für eine systematische Bewertung mit sich bringt. Bestehende Benchmarks für die Videobearbeitung unterstützen die Bewertung anweisungsgesteuerter Videobearbeitung nur unzureichend und leiden zudem unter begrenzter Quellenvielfalt, eingeschränkter Aufgabenabdeckung und unvollständigen Bewertungsmetriken. Um diese Einschränkungen zu überwinden, stellen wir IVEBench vor, eine moderne Benchmark-Suite, die speziell für die Bewertung anweisungsgesteuerter Videobearbeitung entwickelt wurde. IVEBench umfasst eine vielfältige Datenbank mit 600 hochwertigen Quellvideos, die sieben semantische Dimensionen abdecken und Videolängen von 32 bis 1.024 Bildern umfassen. Darüber hinaus beinhaltet es 8 Kategorien von Bearbeitungsaufgaben mit 35 Unterkategorien, deren Anweisungen durch große Sprachmodelle generiert und durch Expertenüberprüfung verfeinert wurden. Entscheidend ist, dass IVEBench ein dreidimensionales Bewertungsprotokoll etabliert, das Videoqualität, Anweisungserfüllung und Videotreue umfasst und sowohl traditionelle Metriken als auch multimodale, auf großen Sprachmodellen basierende Bewertungen integriert. Umfangreiche Experimente demonstrieren die Wirksamkeit von IVEBench bei der Bewertung modernster Methoden der anweisungsgesteuerten Videobearbeitung und zeigen seine Fähigkeit, umfassende und menschenorientierte Bewertungsergebnisse zu liefern.
Eine präzise semantische Segmentierung von terrestrischen Laserscanning (TLS)-Punktwolken wird durch den aufwändigen manuellen Annotationsprozess eingeschränkt. Wir schlagen eine semi-automatisierte, unsicherheitsbewusste Pipeline vor, die sphärische Projektion, Merkmalsanreicherung, Ensemble-Lernen und gezielte Annotation integriert, um den Aufwand für die Beschriftung zu reduzieren, während eine hohe Genauigkeit erhalten bleibt. Unser Ansatz projiziert 3D-Punkte auf ein 2D-sphärisches Gitter, reichert Pixel mit Merkmalen aus mehreren Quellen an und trainiert ein Ensemble von Segmentierungsnetzwerken, um Pseudolabels und Unsicherheitskarten zu erzeugen, wobei Letztere die Annotation von mehrdeutigen Regionen leiten. Die 2D-Ergebnisse werden zurück in den 3D-Raum projiziert, wodurch dicht annotierte Punktwolken entstehen, die durch eine dreistufige Visualisierungssuite (2D-Merkmalskarten, 3D-farbige Punktwolken und kompakte virtuelle Sphären) unterstützt werden, um eine schnelle Priorisierung und Anleitung für den Prüfer zu ermöglichen. Mit dieser Pipeline erstellen wir Mangrove3D, ein semantisches Segmentierungs-TLS-Datensatz für Mangrovenwälder. Wir bewerten weiterhin die Dateneffizienz und die Bedeutung von Merkmalen, um zwei zentrale Fragen zu beantworten: (1) wie viele annotierte Scans benötigt werden und (2) welche Merkmale am wichtigsten sind. Die Ergebnisse zeigen, dass die Leistung nach ~12 annotierten Scans gesättigt ist, geometrische Merkmale den größten Beitrag leisten und kompakte Neun-Kanal-Stapel nahezu die gesamte diskriminative Kraft erfassen, wobei der mittlere Intersection-over-Union-Wert (mIoU) bei etwa 0,76 ein Plateau erreicht. Schließlich bestätigen wir die Generalisierbarkeit unserer Merkmalsanreicherungsstrategie durch Cross-Dataset-Tests auf ForestSemantic und Semantic3D. Unsere Beiträge umfassen: (i) eine robuste, unsicherheitsbewusste TLS-Annotationspipeline mit Visualisierungstools; (ii) den Mangrove3D-Datensatz; und (iii) empirische Leitlinien zur Dateneffizienz und Merkmalsbedeutung, wodurch eine skalierbare, hochwertige Segmentierung von TLS-Punktwolken für die ökologische Überwachung und darüber hinaus ermöglicht wird. Der Datensatz und die Verarbeitungsskripte sind öffentlich unter https://fz-rit.github.io/through-the-lidars-eye/ verfügbar.
Verbesserungen in der Modellkonstruktion, einschließlich verstärkter Sicherheitsbarrieren, ermöglichen es großen Sprachmodellen (LLMs), zunehmend standardisierte Sicherheitsprüfungen zu bestehen. Dennoch neigen LLMs manchmal dazu, schädliches Verhalten zu offenbaren, wie beispielsweise die Äußerung rassistischer Ansichten während von Gesprächen. Um dies systematisch zu analysieren, führen wir CoBia ein, eine Sammlung von leichtgewichtigen adversarischen Angriffen, die es uns ermöglichen, den Rahmen der Bedingungen zu verfeinern, unter denen LLMs in Gesprächen von normativem oder ethischem Verhalten abweichen. CoBia erstellt ein konstruiertes Gespräch, in dem das Modell eine voreingenommene Aussage über eine soziale Gruppe trifft. Anschließend bewerten wir, ob das Modell sich von der fabrizierten voreingenommenen Aussage erholen und voreingenommene Folgefragen ablehnen kann. Wir bewerten 11 Open-Source- sowie proprietäre LLMs hinsichtlich ihrer Ausgaben in Bezug auf sechs soziodemografische Kategorien, die für individuelle Sicherheit und faire Behandlung relevant sind, d. h. Geschlecht, Rasse, Religion, Nationalität, sexuelle Orientierung und andere. Unsere Bewertung basiert auf etablierten LLM-basierten Bias-Metriken, und wir vergleichen die Ergebnisse mit menschlichen Urteilen, um die Zuverlässigkeit und Ausrichtung der LLMs zu ermitteln. Die Ergebnisse deuten darauf hin, dass gezielt konstruierte Gespräche zuverlässig eine Verstärkung von Vorurteilen offenbaren und dass LLMs oft nicht in der Lage sind, voreingenommene Folgefragen während eines Dialogs abzulehnen. Diese Form von Stresstests hebt tief verwurzelte Vorurteile hervor, die durch Interaktion sichtbar gemacht werden können. Code und Artefakte sind verfügbar unter https://github.com/nafisenik/CoBia.
Große Reasoning-Modelle (LRMs) zeichnen sich durch komplexes logisches Denken aus, werden jedoch traditionell in statischen, „eingefrorenen Welt“-Szenarien evaluiert: Die Antworten des Modells werden als unmittelbar angenommen, und der Kontext einer Anfrage wird als unveränderlich während der Dauer der Antwort vorausgesetzt. Obwohl dies im Allgemeinen für kurzfristige Aufgaben zutrifft, bricht die Annahme der „eingefrorenen Welt“ bei modernen Reasoning-Aufgaben wie assistiver Programmierung zusammen, bei denen Modelle Stunden benötigen können, um Probleme durchzudenken, und sich der Code dramatisch ändern kann, von dem Zeitpunkt, an dem das Modell zu denken beginnt, bis zu seiner endgültigen Ausgabe. In dieser Arbeit stellen wir die Annahme der eingefrorenen Welt in Frage und evaluieren die Robustheit von LRMs unter zwei realistischen dynamischen Szenarien: Unterbrechungen, die die Qualität der partiellen Ausgaben des Modells bei begrenztem Budget testen, und dynamischer Kontext, der die Anpassungsfähigkeit des Modells an Änderungen während des Prozesses prüft. Über Mathematik- und Programmier-Benchmarks, die langfristiges logisches Denken erfordern, überschätzen statische Evaluierungen durchweg die Robustheit: Selbst state-of-the-art LRMs, die in statischen Szenarien hohe Genauigkeit erreichen, können bei Unterbrechungen oder sich änderndem Kontext unvorhersehbar versagen, wobei die Leistung um bis zu 60 % sinkt, wenn Aktualisierungen spät im Denkprozess eingeführt werden. Unsere Analyse deckt zudem mehrere neuartige Fehlermodi auf, darunter Reasoning-Leakage, bei dem Modelle das logische Denken in ihre endgültige Antwort integrieren, wenn sie unterbrochen werden; Panik, bei der Modelle unter Zeitdruck das logische Denken vollständig aufgeben und falsche Antworten liefern; und Selbstzweifel, bei dem die Leistung abnimmt, während aktualisierte Informationen integriert werden.
In diesem Artikel präsentieren wir die erste groß angelegte Studie, die untersucht, ob von Large Language Models (LLMs) generierter JavaScript-Code Rückschlüsse auf das Modell zulässt, das ihn erzeugt hat, und somit eine zuverlässige Urheberschaftsattribution und Modellfingerabdrücke ermöglicht. Mit dem rasanten Anstieg von KI-generiertem Code spielt die Attribution eine entscheidende Rolle bei der Erkennung von Sicherheitslücken, der Markierung bösartiger Inhalte und der Gewährleistung von Verantwortlichkeit. Während die KI-vs-Mensch-Erkennung KI üblicherweise als eine einzige Kategorie behandelt, zeigen wir, dass einzelne LLMs einzigartige stilistische Signaturen hinterlassen, selbst unter Modellen derselben Familie oder mit gleicher Parametergröße. Zu diesem Zweck führen wir LLM-NodeJS ein, einen Datensatz von 50.000 Node.js-Backend-Programmen von 20 großen Sprachmodellen. Jedes Programm verfügt über vier transformierte Varianten, was 250.000 einzigartige JavaScript-Beispiele und zwei zusätzliche Repräsentationen (JSIR und AST) für vielfältige Forschungsanwendungen ergibt. Mit diesem Datensatz vergleichen wir traditionelle maschinelle Lernklassifikatoren mit feinabgestimmten Transformer-Encodern und stellen CodeT5-JSA vor, eine spezielle Architektur, die aus dem 770-Millionen-Parameter-Modell CodeT5 abgeleitet ist, bei dem der Decoder entfernt und ein modifizierter Klassifikationskopf hinzugefügt wurde. Es erreicht eine Genauigkeit von 95,8 % bei der Fünf-Klassen-Attribution, 94,6 % bei der Zehn-Klassen- und 88,5 % bei der Zwanzig-Klassen-Aufgabe und übertrifft damit andere getestete Modelle wie BERT, CodeBERT und Longformer. Wir zeigen, dass Klassifikatoren tiefere stilistische Regelmäßigkeiten im Datenfluss und der Struktur von Programmen erfassen, anstatt sich auf oberflächliche Merkmale zu verlassen. Dadurch bleibt die Attribution auch nach Code-Verfälschung, Kommentarentfernung und umfangreichen Code-Transformationen effektiv. Um offene Wissenschaft und Reproduzierbarkeit zu unterstützen, veröffentlichen wir den LLM-NodeJS-Datensatz, Google Colab-Trainingsskripte und alle zugehörigen Materialien auf GitHub: https://github.com/LLM-NodeJS-dataset.
Die Diagnose eines Ganz-Schnitten-Bildes ist ein interaktiver, mehrstufiger Prozess, der Veränderungen in der Vergrößerung und Bewegungen zwischen verschiedenen Bildbereichen beinhaltet. Obwohl aktuelle Pathologie-Foundation-Modelle leistungsstark sind, fehlen praktische agentenbasierte Systeme, die entscheiden, welchen Bereich als Nächstes untersucht werden soll, die Vergrößerung anpassen und erklärbare Diagnosen liefern. Der Engpass sind die Daten: skalierbare, klinisch ausgerichtete Überwachung des Expertenverhaltens, das implizit und erfahrungsbasiert ist, nicht in Lehrbüchern oder online dokumentiert wird und daher in großen Sprachmodelltrainings fehlt. Wir stellen den AI Session Recorder vor, der mit Standard-WSI-Betrachtern zusammenarbeitet, um routinemäßige Navigation unauffällig aufzuzeichnen und die Betrachterprotokolle in standardisierte Verhaltensbefehle (untersuchen oder kurz ansehen bei diskreten Vergrößerungen) und Begrenzungsrahmen umzuwandeln. Eine leichtgewichtige menschliche Überprüfung verwandelt die von der KI erstellten Begründungen in den Pathology-CoT-Datensatz, eine Form von gepaarter „wohin schauen“ und „warum es wichtig ist“-Überwachung, die mit etwa sechsmal geringerem Labeling-Aufwand erstellt wird. Mit diesen Verhaltensdaten bauen wir Pathologist-o3, einen zweistufigen Agenten, der zunächst Regionen von Interesse vorschlägt und dann verhaltensgesteuertes Reasoning durchführt. Bei der Detektion von gastrointestinalen Lymphknotenmetastasen erreichte er eine Präzision von 84,5 %, einen Recall von 100,0 % und eine Genauigkeit von 75,4 %, womit er das state-of-the-art OpenAI o3-Modell übertraf und sich über verschiedene Backbones hinweg verallgemeinern ließ. Unseres Wissens stellt dies eines der ersten verhaltensbasierten agentenbasierten Systeme in der Pathologie dar. Indem wir alltägliche Betrachterprotokolle in skalierbare, von Experten validierte Überwachung umwandeln, macht unser Framework agentenbasierte Pathologie praktikabel und ebnet den Weg für menschlich ausgerichtete, aufrüstbare klinische KI.
Große Sprachmodelle (LLMs) können die Frage „Wann wurde Einstein geboren?“ korrekt beantworten, scheitern jedoch daran, dasselbe Datum anzugeben, wenn sie über Einsteins Leben schreiben. Dies offenbart eine grundlegende Inkonsistenz darin, wie Modelle faktisches Wissen über verschiedene Aufgabenkomplexitäten hinweg abrufen. Obwohl Modelle beeindruckende Genauigkeit bei faktischen Frage-Antwort-Benchmarks zeigen, bleibt die Zuverlässigkeitslücke zwischen einfachen und komplexen Anfragen weitgehend unverstanden, was ihr Vertrauenswürdigkeit untergräbt. In dieser Arbeit stellen wir Short-Long Form Alignment for Factual Question Answering (SLAQ) vor, ein kontrolliertes Evaluationsframework, das die Antworten von LLMs auf dieselben faktischen Fragen vergleicht, die (a) isoliert (kurz) bzw. (b) in komplexe Anfragen integriert (lang) gestellt werden. Anhand von 16 LLMs und 600 Anfragen zeigen wir eine systematische Fehlausrichtung der Antworten auf die entsprechenden kurzen und langen Anfragen. Weiterhin decken wir positionsabhängige Genauigkeitsverluste und Momentum-Effekte auf, bei denen aufeinanderfolgende korrekte oder falsche Antworten selbstverstärkende Muster erzeugen. Durch mechanistische Analysen stellen wir fest, dass übereinstimmende Fakten überlappende Modellinterna aktivieren und dass Metriken basierend auf mechanistischer Ähnlichkeit die Kurz-Lang-Antwort-Ausrichtung mit bis zu 78 % Genauigkeit vorhersagen können. Unsere Arbeit etabliert die faktische Konsistenz über die Anfragekomplexität hinweg als einen wichtigen Aspekt der Vertrauenswürdigkeit von LLMs und stellt aktuelle Evaluationspraktiken in Frage, die implizit davon ausgehen, dass gute Leistung bei einfachen faktischen Anfragen auch Zuverlässigkeit bei komplexeren wissensbasierten Aufgaben impliziert.
Video Inbetweening erzeugt flüssige und natürliche Übergänge zwischen zwei Bildrahmen und ist damit ein unverzichtbares Werkzeug für die Videobearbeitung und die Synthese langer Videos. Bisherige Arbeiten in diesem Bereich sind nicht in der Lage, große, komplexe oder detailreiche Bewegungen zu generieren. Insbesondere können sie die Vielseitigkeit der Benutzerabsichten nicht berücksichtigen und bieten in der Regel keine präzise Kontrolle über die Details der Zwischenbilder, was zu einer Fehlausrichtung mit der kreativen Absicht führt. Um diese Lücken zu schließen, stellen wir MultiCOIN vor, ein Video-Inbetweening-Framework, das multimodale Steuerungen ermöglicht, einschließlich Tiefenübergängen und -schichtungen, Bewegungsbahnen, Textprompts und Zielbereichen für die Bewegungslokalisierung, während es ein Gleichgewicht zwischen Flexibilität, Benutzerfreundlichkeit und Präzision für die fein abgestufte Videointerpolation erreicht. Um dies zu erreichen, verwenden wir die Diffusion Transformer (DiT)-Architektur als unser Video-Generierungsmodell, da sie sich als fähig erwiesen hat, hochwertige lange Videos zu erzeugen. Um die Kompatibilität zwischen DiT und unseren multimodalen Steuerungen sicherzustellen, bilden wir alle Bewegungssteuerungen in eine gemeinsame, spärliche und benutzerfreundliche punktbasierte Darstellung als Video-/Rauscheingabe ab. Darüber hinaus trennen wir, um die Vielfalt der Steuerungen zu berücksichtigen, die auf unterschiedlichen Granularitäts- und Einflussniveaus arbeiten, Inhaltssteuerungen und Bewegungssteuerungen in zwei Zweige, um die erforderlichen Merkmale zu kodieren, bevor wir den Rauschunterdrückungsprozess steuern, was zu zwei Generatoren führt, einem für die Bewegung und einem für den Inhalt. Schließlich schlagen wir eine stufenweise Trainingsstrategie vor, um sicherzustellen, dass unser Modell die multimodalen Steuerungen reibungslos erlernt. Umfangreiche qualitative und quantitative Experimente zeigen, dass multimodale Steuerungen eine dynamischere, anpassbarere und kontextuell genauere visuelle Erzählung ermöglichen.