papers.description
Die Code-Generierung in langen Kontexten wird zunehmend kritisch, da Large Language Models (LLMs) dazu benötigt werden, über umfangreiche Informationen in der Codebasis zu schlussfolgern. Während jüngste Fortschritte es Code-LLMs ermöglichen, lange Eingaben zu verarbeiten, bleiben hohe API-Kosten und Generierungslatenz erhebliche Engpässe. Bestehende Techniken zur Kontextreduzierung, wie LLMLingua, erzielen vielversprechende Ergebnisse für allgemeinen Text, berücksichtigen jedoch code-spezifische Strukturen und Abhängigkeiten nicht, was zu suboptimaler Leistung bei Programmieraufgaben führt. In diesem Artikel schlagen wir LongCodeZip vor, ein neuartiges Plug-and-Play-Code-Kompressionsframework, das speziell für Code-LLMs entwickelt wurde. LongCodeZip verwendet eine zweistufige Strategie: (1) grobkörnige Kompression, die funktionsbasierte Blöcke mithilfe der bedingten Perplexität in Bezug auf die Anweisung identifiziert und bewertet, wobei nur die relevantesten Funktionen beibehalten werden; und (2) feinkörnige Kompression, die beibehaltene Funktionen basierend auf der Perplexität in Blöcke segmentiert und eine optimale Teilmenge unter einem adaptiven Token-Budget auswählt, um die Relevanz zu maximieren. Bewertungen über mehrere Aufgaben hinweg, einschließlich Code-Vervollständigung, Zusammenfassung und Fragebeantwortung, zeigen, dass LongCodeZip durchweg Baseline-Methoden übertrifft und ein Kompressionsverhältnis von bis zu 5,6x erreicht, ohne die Aufgabenleistung zu beeinträchtigen. Durch die effektive Reduzierung der Kontextgröße bei gleichzeitiger Bewahrung wesentlicher Informationen ermöglicht LongCodeZip LLMs, besser auf reale, groß angelegte Code-Szenarien zu skalieren und so die Effizienz und Fähigkeit von Code-Intelligenz-Anwendungen voranzutreiben.
Diffusionsmodelle haben die Bild- und Videogenerierung revolutioniert und eine beispiellose visuelle Qualität erreicht. Ihre Abhängigkeit von Transformer-Architekturen führt jedoch zu prohibitiv hohen Rechenkosten, insbesondere bei der Erzeugung langer Videos. Aktuelle Arbeiten haben autoregressive Ansätze für die Generierung langer Videos untersucht, typischerweise durch Distillation von kurzzeitigen bidirektionalen Lehrermodellen. Da Lehrermodelle jedoch keine langen Videos synthetisieren können, führt die Extrapolation von Schülermodellen über ihren Trainingshorizont hinaus oft zu einer deutlichen Qualitätsverschlechterung, die sich aus der Kumulierung von Fehlern im kontinuierlichen latenten Raum ergibt. In diesem Artikel schlagen wir einen einfachen, aber effektiven Ansatz vor, um die Qualitätsverschlechterung bei der langzeitigen Videogenerierung zu mildern, ohne dass eine Überwachung durch langzeitige Lehrermodelle oder ein erneutes Training auf langen Videodatensätzen erforderlich ist. Unser Ansatz konzentriert sich darauf, das umfangreiche Wissen der Lehrermodelle zu nutzen, um das Schülermodell durch aus selbstgenerierten langen Videos entnommene Segmente zu leiten. Unsere Methode bewahrt die zeitliche Konsistenz, während die Videolänge um bis zu 20x über die Fähigkeit des Lehrermodells hinaus skaliert wird, und vermeidet häufige Probleme wie Überbelichtung und Fehlerakkumulation, ohne überlappende Frames wie bei früheren Methoden neu zu berechnen. Bei der Skalierung der Rechenleistung zeigt unsere Methode die Fähigkeit, Videos von bis zu 4 Minuten und 15 Sekunden zu generieren, was 99,9 % der maximalen Spanne entspricht, die durch die Positions-Einbettung unseres Basismodells unterstützt wird, und mehr als 50x länger ist als die unseres Baseline-Modells. Experimente auf Standard-Benchmarks und unserem vorgeschlagenen verbesserten Benchmark zeigen, dass unser Ansatz Baseline-Methoden sowohl in Bezug auf die Bildtreue als auch auf die Konsistenz deutlich übertrifft. Unsere Demo für langzeitige Videos finden Sie unter https://self-forcing-plus-plus.github.io/.
Reinforcement Learning aus verifizierbaren Belohnungen (RLVR) ist ein aufstrebendes Paradigma zur Verbesserung der Fähigkeit großer Sprachmodelle zum logischen Schlussfolgern. Allerdings verwirft das Standard-On-Policy-Training Rollout-Erfahrungen nach einer einzigen Aktualisierung, was zu Rechenineffizienz und Instabilität führt. Während frühere Arbeiten zu RL die Vorteile der Wiederverwendung vergangener Erfahrungen hervorgehoben haben, bleibt die Rolle von Erfahrungsmerkmalen bei der Gestaltung der Lern dynamik großer Schlussfolgerungsmodelle weitgehend unerforscht. In dieser Arbeit untersuchen wir erstmals, was eine Schlussfolgerungserfahrung wertvoll macht, und identifizieren die Korrektheit des Rollouts und die Entropie als effektive Indikatoren für den Erfahrungswert. Basierend auf diesen Erkenntnissen schlagen wir ExGRPO (Experiential Group Relative Policy Optimization) vor, ein Framework, das wertvolle Erfahrungen organisiert und priorisiert und ein gemischtes Policy-Ziel verwendet, um Exploration mit der Nutzung von Erfahrungen auszugleichen. Experimente mit fünf Basismodellen (1,5B–8B Parameter) zeigen, dass ExGRPO die Leistung beim logischen Schlussfolgern auf mathematischen/allgemeinen Benchmarks konsequent verbessert, mit einem durchschnittlichen Gewinn von +3,5/7,6 Punkten gegenüber On-Policy RLVR. Darüber hinaus stabilisiert ExGRPO das Training sowohl bei stärkeren als auch bei schwächeren Modellen, bei denen On-Policy-Methoden scheitern. Diese Ergebnisse unterstreichen die prinzipielle Erfahrungsverwaltung als einen Schlüsselfaktor für effizientes und skalierbares RLVR.
3D-Szenendarstellungsmethoden wie Neural Radiance Fields (NeRF) und 3D Gaussian Splatting (3DGS) haben die Synthese neuer Ansichten erheblich vorangetrieben. Da diese Methoden immer verbreiteter werden, wird die Behebung ihrer Schwachstellen zunehmend kritisch. Wir analysieren die Robustheit von 3DGS gegenüber bildbasierten Vergiftungsangriffen und schlagen eine neuartige dichtegeleitete Vergiftungsmethode vor. Unsere Methode injiziert strategisch Gauß-Punkte in Regionen mit niedriger Dichte, die durch Kernel Density Estimation (KDE) identifiziert werden, und bettet dabei sichtabhängige Scheinobjekte ein, die von vergifteten Ansichten deutlich sichtbar sind, während unschuldige Ansichten minimal beeinflusst werden. Zusätzlich führen wir eine adaptive Rauschstrategie ein, um die Mehransichtskonsistenz zu stören und die Angriffswirksamkeit weiter zu steigern. Wir schlagen ein KDE-basiertes Bewertungsprotokoll vor, um die Angriffsschwierigkeit systematisch zu bewerten und eine objektive Benchmarking-Grundlage für zukünftige Forschung zu schaffen. Umfangreiche Experimente demonstrieren die überlegene Leistung unserer Methode im Vergleich zu modernsten Techniken. Projektseite: https://hentci.github.io/stealthattack/
Große Sprachmodelle (LLMs) haben kürzlich starke Fähigkeiten als autonome Agenten demonstriert und zeigen Potenzial in den Bereichen logisches Denken, Werkzeugnutzung und sequenzieller Entscheidungsfindung. Während frühere Benchmarks LLM-Agenten in Domänen wie Softwareentwicklung und wissenschaftlicher Entdeckung bewertet haben, bleibt der Finanzbereich trotz seiner direkten Relevanz für wirtschaftlichen Wert und hochriskante Entscheidungsfindung weitgehend unerforscht. Bestehende Finanzbenchmarks testen hauptsächlich statisches Wissen durch Frage-Antwort-Szenarien, erfassen jedoch nicht die dynamische und iterative Natur des Handels. Um diese Lücke zu schließen, führen wir StockBench ein, einen kontaminationsfreien Benchmark, der entwickelt wurde, um LLM-Agenten in realistischen, mehrmonatigen Aktienhandelsumgebungen zu bewerten. Die Agenten erhalten täglich Marktsignale – einschließlich Preise, Fundamentaldaten und Nachrichten – und müssen sequenzielle Kauf-, Verkaufs- oder Halteentscheidungen treffen. Die Leistung wird anhand finanzieller Kennzahlen wie kumulativer Rendite, maximalem Drawdown und dem Sortino-Verhältnis bewertet. Unsere Bewertung von state-of-the-art proprietären (z. B. GPT-5, Claude-4) und Open-Weight-Modellen (z. B. Qwen3, Kimi-K2, GLM-4.5) zeigt, dass die meisten LLM-Agenten Schwierigkeiten haben, die einfache Buy-and-Hold-Baseline zu übertreffen, einige Modelle jedoch das Potenzial zeigen, höhere Renditen zu erzielen und Risiken effektiver zu managen. Diese Ergebnisse verdeutlichen sowohl die Herausforderungen als auch die Chancen bei der Entwicklung von LLM-gestützten Finanzagenten und zeigen, dass die Bewältigung statischer Finanzwissensaufgaben nicht zwangsläufig in erfolgreiche Handelsstrategien mündet. Wir veröffentlichen StockBench als Open-Source-Ressource, um Reproduzierbarkeit zu unterstützen und zukünftige Forschung in diesem Bereich voranzutreiben.
Wir stellen F2LLM vor – Foundation to Feature Large Language Models, eine Suite von State-of-the-Art-Einbettungsmodellen in drei Größen: 0,6B, 1,7B und 4B. Im Gegensatz zu früheren Top-Einbettungsmodellen, die massives kontrastives Pretraining, anspruchsvolle Trainingspipelines und kostspielige synthetische Trainingsdaten erfordern, wird F2LLM direkt aus Foundation-Modellen auf 6 Millionen Query-Dokument-Negativ-Tupeln feinabgestimmt, die aus Open-Source-, nicht-synthetischen Datensätzen kuratiert wurden. Dies schafft eine starke Balance zwischen Trainingskosten, Modellgröße und Einbettungsleistung. Auf dem MTEB-English-Leaderboard belegt F2LLM-4B den 2. Platz unter den Modellen mit etwa 4B Parametern und den 7. Platz insgesamt, während F2LLM-1,7B den 1. Platz unter den Modellen im Bereich von 1B-2B einnimmt. Um zukünftige Forschung in diesem Bereich zu fördern, veröffentlichen wir die Modelle, den Trainingsdatensatz und den Code und positionieren F2LLM als eine starke, reproduzierbare und kostengünstige Baseline für zukünftige Arbeiten.
Das traditionelle Training von neuronalen Netzen folgt in der Regel festgelegten, vordefinierten Optimierungsabläufen und verfügt nicht über die Flexibilität, dynamisch auf Instabilitäten oder auftretende Trainingsprobleme zu reagieren. In diesem Artikel stellen wir Interactive Training vor, ein Open-Source-Framework, das eine Echtzeit-Intervention durch menschliche Experten oder automatisierte KI-Agenten während des Trainings neuronaler Netze ermöglicht. Kern des Interactive Training ist ein Kontrollserver, der die Kommunikation zwischen Benutzern oder Agenten und dem laufenden Trainingsprozess vermittelt. Dadurch können Benutzer dynamisch Hyperparameter des Optimierers, Trainingsdaten und Modell-Checkpoints anpassen. Anhand von drei Fallstudien zeigen wir, dass Interactive Training eine überlegene Trainingsstabilität, eine reduzierte Empfindlichkeit gegenüber initialen Hyperparametern und eine verbesserte Anpassungsfähigkeit an sich entwickelnde Benutzeranforderungen erreicht. Dies ebnet den Weg für ein zukünftiges Trainingsparadigma, in dem KI-Agenten Trainingsprotokolle autonom überwachen, proaktiv Instabilitäten beheben und die Trainingsdynamik optimieren.
Das dominante Paradigma für das Training großer Reasoning-Modelle beginnt mit einem Pre-Training unter Verwendung eines Next-Token-Prediction-Loss auf riesigen Datenmengen. Reinforcement Learning, obwohl leistungsstark bei der Skalierung von Reasoning, wird erst in der allerletzten Phase des Post-Trainings eingeführt, nachdem ein überwachtes Fine-Tuning stattgefunden hat. Doch ist dies wirklich der optimale Trainingsansatz? In diesem Artikel stellen wir RLP vor, ein informationsgetriebenes Reinforcement-Pretraining-Ziel, das den Kerngeist des Reinforcement Learning – Exploration – in die letzte Phase des Pre-Trainings bringt. Die zentrale Idee besteht darin, Chain-of-Thought als explorative Aktion zu behandeln, wobei Belohnungen basierend auf dem Informationsgewinn berechnet werden, den sie für die Vorhersage zukünftiger Tokens liefert. Dieses Trainingsziel ermutigt das Modell im Wesentlichen dazu, selbstständig zu denken, bevor es vorhersagt, was als Nächstes kommt, und lehrt somit ein unabhängiges Denkverhalten bereits früher im Pre-Training. Konkret misst das Belohnungssignal den Anstieg der Log-Likelihood des nächsten Tokens, wenn sowohl auf den Kontext als auch auf eine gesampelte Reasoning-Kette konditioniert wird, im Vergleich zur Konditionierung allein auf den Kontext. Dieser Ansatz liefert ein verifikatorfreies, dichtes Belohnungssignal, das ein effizientes Training für den gesamten Dokumentenstrom während des Pre-Trainings ermöglicht. Insbesondere reformuliert RLP Reinforcement Learning für Reasoning als ein Pre-Training-Ziel auf gewöhnlichem Text und schließt so die Lücke zwischen Next-Token-Prediction und der Entstehung nützlicher Chain-of-Thought-Reasoning. Das Pre-Training mit RLP auf Qwen3-1.7B-Base steigert den Gesamtdurchschnitt über eine acht Benchmark umfassende Mathematik- und Wissenschaftssuite um 19%. Bei identischem Post-Training verstärken sich die Gewinne, wobei die größten Verbesserungen bei reasoning-lastigen Aufgaben wie AIME25 und MMLU-Pro zu verzeichnen sind. Die Anwendung von RLP auf das hybride Nemotron-Nano-12B-v2 erhöht den Gesamtdurchschnitt von 42,81% auf 61,32% und steigert den Durchschnitt beim wissenschaftlichen Reasoning um 23%, was die Skalierbarkeit über Architekturen und Modellgrößen hinweg demonstriert.
Multimodale Embedding-Modelle gewinnen zunehmend an Bedeutung, insbesondere für die Dokumentenrecherche als effiziente Alternative zu rein textbasierten Pipelines. Diese Modelle werden typischerweise durch das Feinabstimmen großer Vision-Language-Decoder (VLMs) mit kontrastiven Verlustfunktionen auf Text-Bild-Paaren entwickelt. In dieser Arbeit zeigen wir, dass dieser Ansatz der Wiederverwendung, obwohl kosteneffizient, oft die Retrieval-Leistung begrenzt. Durch kontrollierte Experimente etablieren wir ein fundiertes Rezept zur Verbesserung von visuellen Dokumentenretrieval-Modellen. Insbesondere messen wir den Einfluss von Attention-Masking, Bildauflösung, Modalitätsausrichtungsdatenregimen und kontrastiven Zielen mit späten Interaktionen, die sich als zentrale Leistungsfaktoren herausstellen. Aufbauend auf diesen Erkenntnissen veröffentlichen wir ModernVBERT, einen kompakten Vision-Language-Encoder mit 250 Millionen Parametern, der Modelle, die bis zu 10-mal größer sind, bei der Feinabstimmung auf Dokumentenretrieval-Aufgaben übertrifft. Modelle und Code sind unter https://huggingface.co/ModernVBERT verfügbar.
Trotz der jüngsten rasanten Fortschritte in der KI-Sicherheit bleiben aktuelle große Sprachmodelle anfällig für adversariale Angriffe in Mehrfachinteraktionsszenarien, bei denen Angreifer ihre Eingaben strategisch über mehrere Gesprächsrunden hinweg anpassen und somit eine kritischere und realistischere Herausforderung darstellen. Bestehende Ansätze zur Identifizierung von Sicherheitslücken stützen sich entweder auf manuelles Red-Teaming mit menschlichen Experten oder verwenden automatisierte Methoden mit vordefinierten Vorlagen und von Menschen kuratierten Angriffsdaten, wobei sich die meisten auf Einzelrundenangriffe konzentrieren. Diese Methoden haben jedoch den umfangreichen Raum möglicher Mehrfachrundenangriffe nicht erkundet und dabei neuartige Angriffspfade, die sich aus komplexen Dialogdynamiken und strategischer Gesprächsplanung ergeben, nicht berücksichtigt. Diese Lücke ist besonders kritisch, da jüngste Erkenntnisse zeigen, dass Sprachmodelle signifikant anfälliger für Mehrfachrundenangriffe sind als für Einzelrundenangriffe. Wir schlagen DialTree-RPO vor, ein On-Policy-Reinforcement-Learning-Framework, das mit einer Baumsuche integriert ist und autonom vielfältige Mehrfachrundenangriffsstrategien entdeckt, indem es den Dialog als sequenzielles Entscheidungsproblem behandelt und eine systematische Erkundung ohne manuell kuratierte Daten ermöglicht. Durch umfangreiche Experimente erreicht unser Ansatz nicht nur eine um mehr als 25,9 % höhere Angriffserfolgsrate (ASR) über 10 Zielmodelle hinweg im Vergleich zu bisherigen State-of-the-Art-Ansätzen, sondern deckt auch effektiv neue Angriffsstrategien auf, indem er optimale Dialogstrategien erlernt, die den Angriffserfolg über mehrere Runden hinweg maximieren.
Die Audio-Video-Generierung hat sich oft auf komplexe mehrstufige Architekturen oder die sequentielle Synthese von Ton und Bildern verlassen. Wir stellen Ovi vor, ein einheitliches Paradigma für die Audio-Video-Generierung, das die beiden Modalitäten als einen einzigen generativen Prozess modelliert. Durch die blockweise cross-modale Fusion von Twin-DiT-Modulen erreicht Ovi eine natürliche Synchronisation und eliminiert die Notwendigkeit separater Pipelines oder nachträglicher Ausrichtung. Um die feinkörnige multimodale Fusionsmodellierung zu erleichtern, initialisieren wir einen Audio-Turm mit einer Architektur, die der eines stark vortrainierten Video-Modells entspricht. Der Audio-Turm, der von Grund auf mit hunderttausenden Stunden Rohaudio trainiert wird, lernt, realistische Soundeffekte sowie Sprache zu erzeugen, die reiche Sprecheridentität und Emotionen vermittelt. Die Fusion wird durch das gemeinsame Training der identischen Video- und Audio-Türme mittels blockweisem Austausch von Timing (über skalierte RoPE-Embeddings) und Semantik (durch bidirektionale Cross-Attention) auf einem umfangreichen Videokorpus erreicht. Unser Modell ermöglicht filmisches Storytelling mit natürlicher Sprache und präzisen, kontextbezogenen Soundeffekten und produziert videoclips in Kinofilmqualität. Alle Demos, Code und Modellgewichte sind unter https://aaxwaz.github.io/Ovi veröffentlicht.
Große Sprachmodell-Agenten (LLM-Agenten) entwickeln sich schnell zu leistungsstarken Systemen für die Automatisierung von Aufgaben in verschiedenen Bereichen. Dennoch wird der Fortschritt in der Open-Source-Community durch den Mangel an hochwertigen, frei lizenzierten Trainingsdaten für Tool-Agenten eingeschränkt. Bestehende Datensätze sind oft in Bezug auf Vielfalt, Realismus und Komplexität begrenzt, insbesondere bei Multi-Tool- und Multi-Turn-Interaktionen. Um diese Lücke zu schließen, stellen wir Toucan vor, den bisher größten öffentlich verfügbaren Tool-Agenten-Datensatz, der 1,5 Millionen Trajektorien enthält, die aus fast 500 realen Model Context Protocols (MCPs) synthetisiert wurden. Im Gegensatz zu früheren Arbeiten nutzt Toucan authentische MCP-Umgebungen, um vielfältige, realistische und anspruchsvolle Aufgaben mit Trajektorien zu generieren, die die tatsächliche Ausführung von Tools beinhalten. Unsere Pipeline erzeugt zunächst ein breites Spektrum von Tool-Nutzungsanfragen mithilfe von fünf verschiedenen Modellen, wendet modellbasierte Qualitätsfilterung an und generiert dann agentische Trajektorien mit drei Lehrer-Modellen unter Verwendung von zwei agentischen Frameworks. Strenge regelbasierte und modellbasierte Validierung sorgt für hochwertige Ausgaben. Wir führen außerdem drei Erweiterungsmechanismen ein, um Aufgaben weiter zu diversifizieren und Multi-Turn-Gespräche zu simulieren. Modelle, die auf Toucan feinabgestimmt wurden, übertreffen größere Closed-Source-Modelle auf dem BFCL V3-Benchmark und verschieben die Pareto-Front auf dem MCP-Universe-Bench weiter nach vorne.
Computer-Use-Agenten (CUAs) versprechen, alltägliche digitale Aufgaben zu automatisieren, doch ihre Unzuverlässigkeit und hohe Varianz behindern ihre Anwendung bei langfristigen, komplexen Aufgaben. Wir stellen Behavior Best-of-N (bBoN) vor, eine Methode, die über Agenten skaliert, indem sie mehrere Rollouts generiert und unter ihnen mithilfe von Verhaltensnarrativen auswählt, die die Rollouts der Agenten beschreiben. Dies ermöglicht sowohl breite Exploration als auch prinzipielle Trajektorienauswahl und verbessert die Robustheit und Erfolgsraten erheblich. Auf OSWorld etabliert unsere bBoN-Skalierungsmethode einen neuen State of the Art (SoTA) bei 69,9 %, übertrifft damit deutlich frühere Methoden und nähert sich der menschlichen Leistung von 72 %, wobei umfassende Ablationen die zentralen Designentscheidungen validieren. Wir demonstrieren weiterhin starke Generalisierungsergebnisse auf verschiedenen Betriebssystemen in WindowsAgentArena und AndroidWorld. Entscheidend ist, dass unsere Ergebnisse die unvernünftige Effektivität der Skalierung von CUAs hervorheben, wenn sie richtig durchgeführt wird: Effektive Skalierung erfordert strukturiertes Verständnis und Auswahl von Trajektorien, und bBoN bietet einen praktischen Rahmen, um dies zu erreichen.
Die Bewertung der Qualität von Ausgaben großer Sprachmodelle (Large Language Models, LLMs) stellt eine kritische Herausforderung dar. Bisherige Methoden stützen sich entweder auf textbasierte Informationen (z. B. Belohnungsmodelle, Mehrheitsabstimmungen), die sich an oberflächlichen Hinweisen überanpassen können, oder auf kalibrierte Konfidenzwerte aus Token-Wahrscheinlichkeiten, die bei weniger kalibrierten Modellen versagen. Beide Signale sind jedoch tatsächlich Teilprojektionen einer reicheren Informationsquelle: den internen verborgenen Zuständen des Modells. Frühe Schichten, die näher an den Token-Einbettungen liegen, bewahren semantische und lexikalische Merkmale, die textbasierte Urteile untermauern, während spätere Schichten zunehmend mit den Ausgabe-Logits übereinstimmen und konfidenzbezogene Informationen einbetten. Dieses Papier untersucht verborgene Zustände direkt als einheitliche Grundlage für die Verifikation. Wir zeigen, dass die Korrektheit einer Lösung als geometrisch trennbares Merkmal innerhalb der Trajektorie der verborgenen Aktivierungen kodiert ist. Um dies zu validieren, präsentieren wir Clue (Clustering and Experience-based Verification), einen bewusst minimalistischen, nicht-parametrischen Verifizierer. Ohne trainierbare Parameter fasst CLUE jeden Denkpfad lediglich durch eine Delta-Differenz der verborgenen Zustände zusammen und klassifiziert die Korrektheit anhand der nächstgelegenen Zentroid-Distanz zu „Erfolgs“- und „Misserfolgs“-Clustern, die aus vergangenen Erfahrungen gebildet werden. Die Einfachheit dieser Methode unterstreicht die Stärke des zugrunde liegenden Signals. Empirisch übertrifft CLUE konsistent LLM-as-a-Judge-Baselines und erreicht oder übertrifft moderne konfidenzbasierte Methoden bei der Neubewertung von Kandidaten, wodurch sowohl die Top-1- als auch die Mehrheitsabstimmungsgenauigkeit über AIME 24/25 und GPQA verbessert wird. Als Höhepunkt steigert CLUE auf AIME 24 mit einem 1,5B-Modell die Genauigkeit von 56,7 % (Mehrheit@64) auf 70,0 % (Top-Maj@16).
Aktivierungssteuerung ist eine vielversprechende Technik zur Kontrolle des Verhaltens von LLMs, bei der semantisch bedeutungsvolle Vektoren direkt in die verborgenen Zustände eines Modells während der Inferenz eingefügt werden. Sie wird oft als präzise, interpretierbare und potenziell sicherere Alternative zum Fine-Tuning betrachtet. Wir zeigen das Gegenteil: Die Steuerung untergräbt systematisch die Sicherheitsvorkehrungen der Modellausrichtung und führt dazu, dass das Modell schädliche Anfragen erfüllt. Durch umfangreiche Experimente mit verschiedenen Modellfamilien demonstrieren wir, dass selbst die Steuerung in eine zufällige Richtung die Wahrscheinlichkeit schädlicher Compliance von 0 % auf 2–27 % erhöhen kann. Besorgniserregend ist, dass die Steuerung benigner Merkmale aus einem sparsamen Autoencoder (SAE), einer häufigen Quelle interpretierbarer Richtungen, diese Raten um weitere 2–4 % steigert. Schließlich zeigen wir, dass die Kombination von 20 zufällig ausgewählten Vektoren, die eine einzelne Eingabeaufforderung „jailbreaken“, einen universellen Angriff erzeugt, der die schädliche Compliance bei unbekannten Anfragen signifikant erhöht. Diese Ergebnisse stellen das Paradigma der Sicherheit durch Interpretierbarkeit in Frage und zeigen, dass präzise Kontrolle über die internen Modellzustände keine präzise Kontrolle über das Modellverhalten garantiert.
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) verbessert das logische Denken in großen Sprachmodellen (LLMs), hat jedoch Schwierigkeiten mit der Exploration, ein Problem, das auch bei multimodalen LLMs (MLLMs) weiterhin besteht. Aktuelle Methoden behandeln den visuellen Input als eine feste, deterministische Bedingung, wodurch eine kritische Quelle von Mehrdeutigkeit übersehen wird und robuste Strategien gegenüber plausiblen visuellen Variationen schwer zu entwickeln sind. Wir stellen VOGUE (Visual Uncertainty Guided Exploration) vor, eine neuartige Methode, die die Exploration vom Ausgabe- (Text) in den Eingabe- (visuellen) Raum verlagert. Indem das Bild als stochastischer Kontext behandelt wird, quantifiziert VOGUE die Empfindlichkeit der Strategie gegenüber visuellen Störungen mithilfe der symmetrischen KL-Divergenz zwischen einem „rohen“ und einem „verrauschten“ Zweig, wodurch ein direktes Signal für unsicherheitsbewusste Exploration erzeugt wird. Dieses Signal formt das Lernziel über einen unsicherheitsproportionalen Bonus, der, kombiniert mit einem Token-Entropie-Bonus und einem abgestuften Sampling-Zeitplan, effektiv Exploration und Ausnutzung ausbalanciert. Implementiert innerhalb von GRPO auf zwei Modellgrößen (Qwen2.5-VL-3B/7B), steigert VOGUE die pass@1-Genauigkeit im Durchschnitt um 2,6 % bei drei visuellen Mathematik-Benchmarks und um 3,7 % bei drei allgemeinen Denk-Benchmarks, während gleichzeitig die pass@4-Leistung verbessert und der bei RL-Feintuning häufig beobachtete Explorationsverfall gemildert wird. Unsere Arbeit zeigt, dass die Verankerung der Exploration in der inhärenten Unsicherheit visueller Inputs eine effektive Strategie zur Verbesserung des multimodalen Denkens ist.
Künstliche Intelligenz durchläuft einen Paradigmenwechsel von geschlossenen Sprachmodellen hin zu vernetzten Agentensystemen, die in der Lage sind, externe Wahrnehmungen und Informationsintegration zu realisieren. Als repräsentative Verkörperung zeigen Deep Research Agents (DRAs) systematisch Fähigkeiten zur Aufgabenzerlegung, quellenübergreifenden Recherche, mehrstufigen Argumentation und strukturierten Ausgabe, was die Leistung bei komplexen und offenen Aufgaben deutlich verbessert. Bestehende Benchmarks sind jedoch in Bezug auf Bewertungsdimensionen, Antwortformatierung und Bewertungsmechanismen unzureichend, was ihre Fähigkeit zur effektiven Bewertung solcher Systeme einschränkt. Dieses Papier stellt einen rigorosen Benchmark und ein multidimensionales Bewertungsrahmenwerk vor, das speziell auf DRAs und berichtsartige Antworten zugeschnitten ist. Der Benchmark umfasst 214 von Experten kuratierte anspruchsvolle Anfragen, die über 10 breite thematische Domänen verteilt sind, wobei jede Anfrage von manuell erstellten Referenzbündeln begleitet wird, um eine zusammengesetzte Bewertung zu unterstützen. Das Rahmenwerk ermöglicht eine umfassende Bewertung von langen Berichten, die von DRAs generiert werden, und integriert Bewertungsmetriken für semantische Qualität, thematische Fokussierung und Vertrauenswürdigkeit der Recherche. Umfangreiche Experimente bestätigen die überlegene Leistung von Mainstream-DRAs gegenüber mit Web-Such-Tools erweiterten Argumentationsmodellen, zeigen jedoch auch erheblichen Spielraum für weitere Verbesserungen auf. Diese Studie bietet eine robuste Grundlage für die Fähigkeitsbewertung, architektonische Verfeinerung und Paradigmenfortschritt in DRA-Systemen.
Große Sprachmodelle (LLMs) erzeugen häufig Halluzinationen – nicht belegte Inhalte, die die Zuverlässigkeit untergraben. Während die meisten bisherigen Arbeiten die Erkennung von Halluzinationen als binäre Aufgabe betrachten, erfordern viele reale Anwendungen die Identifizierung von halluzinierten Textabschnitten, was einen mehrstufigen Entscheidungsprozess darstellt. Dies wirft die Frage auf, ob explizites Schlussfolgern bei der komplexen Aufgabe der Erkennung von Halluzinationsabschnitten helfen kann. Um diese Frage zu beantworten, evaluieren wir zunächst vortrainierte Modelle mit und ohne Chain-of-Thought (CoT)-Schlussfolgern und zeigen, dass CoT-Schlussfolgern das Potenzial hat, bei mehrfacher Stichprobenziehung mindestens eine korrekte Antwort zu generieren. Motiviert durch diese Erkenntnis schlagen wir RL4HS vor, ein Reinforcement-Learning-Framework, das das Schlussfolgern mit einer belohnungsbasierten Funktion auf Abschnittsebene fördert. RL4HS baut auf der Group Relative Policy Optimization auf und führt die Class-Aware Policy Optimization ein, um das Problem der Belohnungsungleichheit zu mildern. Experimente auf dem RAGTruth-Benchmark (Zusammenfassung, Fragebeantwortung, Daten-zu-Text) zeigen, dass RL4HS vortrainierte Schlussfolgermodelle und überwachtes Feinabstimmen übertrifft, was die Notwendigkeit von Reinforcement Learning mit belohnungsbasierten Funktionen auf Abschnittsebene für die Erkennung von Halluzinationsabschnitten demonstriert.
Fein granulierte visuelle Argumentation bleibt eine zentrale Herausforderung für multimodale große Sprachmodelle (MLLMs). Das kürzlich eingeführte ReasonMap verdeutlicht diese Lücke, indem es zeigt, dass selbst fortschrittliche MLLMs mit räumlicher Argumentation in strukturierten und informationsreichen Umgebungen wie U-Bahn-Plänen zu kämpfen haben – eine Aufgabe von klarer praktischer und wissenschaftlicher Bedeutung. Allerdings wird das Standard-Reinforcement-Learning (RL) bei solchen Aufgaben durch spärliche Belohnungen und instabile Optimierung behindert. Um dies zu adressieren, konstruieren wir zunächst ReasonMap-Plus, einen erweiterten Datensatz, der dichte Belohnungssignale durch Visual Question Answering (VQA)-Aufgaben einführt und so ein effektives Kaltstart-Training für fein granulierte visuelle Verständnisfähigkeiten ermöglicht. Anschließend schlagen wir RewardMap vor, ein mehrstufiges RL-Framework, das darauf abzielt, sowohl das visuelle Verständnis als auch die Argumentationsfähigkeiten von MLLMs zu verbessern. RewardMap integriert zwei Schlüsseldesigns. Erstens führen wir ein schwierigkeitsbewusstes Belohnungsdesign ein, das Detailbelohnungen beinhaltet und so direkt die spärlichen Belohnungen angeht, während es gleichzeitig eine reichhaltigere Überwachung bietet. Zweitens schlagen wir ein mehrstufiges RL-Schema vor, das das Training von einfacher Wahrnehmung zu komplexen Argumentationsaufgaben bootstrappt und damit eine effektivere Kaltstart-Strategie als das konventionelle Supervised Fine-Tuning (SFT) bietet. Experimente auf ReasonMap und ReasonMap-Plus zeigen, dass jede Komponente von RewardMap zu konsistenten Leistungssteigerungen beiträgt, während ihre Kombination die besten Ergebnisse liefert. Darüber hinaus erreichen Modelle, die mit RewardMap trainiert wurden, eine durchschnittliche Verbesserung von 3,47 % über 6 Benchmarks hinweg, die räumliche Argumentation, fein granulierte visuelle Argumentation und allgemeine Aufgaben über U-Bahn-Pläne hinaus abdecken, was die verbesserten visuellen Verständnis- und Argumentationsfähigkeiten unterstreicht.
Wir stellen Aristoteles vor, ein KI-System, das formale Verifikation mit informellem Schließen kombiniert und dabei eine Goldmedaillen-äquivalente Leistung bei den Aufgaben der Internationalen Mathematik-Olympiade 2025 erzielt. Aristoteles integriert drei Hauptkomponenten: ein Lean-Beweissuchsystem, ein informelles Schließsystem, das Lemmata generiert und formalisiert, sowie einen spezialisierten Geometrielöser. Unser System demonstriert Spitzenleistungen mit vorteilhaften Skalierungseigenschaften für das automatisierte Beweisen von Theoremen.
Drag-basiertes Bildbearbeitung litt lange unter Verzerrungen im Zielbereich, hauptsächlich weil die Priors der früheren Basismodelle, wie Stable Diffusion, nicht ausreichend waren, um optimierte Latents zurück auf die natürliche Bildmannigfaltigkeit zu projizieren. Mit dem Wechsel von UNet-basierten DDPMs zu skalierbareren DiTs mit Flow-Matching (z. B. SD3.5, FLUX) sind die generativen Priors deutlich stärker geworden, was Fortschritte in diversen Bearbeitungsaufgaben ermöglicht. Dennoch hat die drag-basierte Bearbeitung noch nicht von diesen stärkeren Priors profitiert. Diese Arbeit schlägt das erste Framework vor, das den reichen Prior von FLUX effektiv für die drag-basierte Bearbeitung nutzt, genannt DragFlow, und erzielt dabei erhebliche Verbesserungen gegenüber den Baselines. Wir zeigen zunächst, dass die direkte Anwendung von punktbasierter Drag-Bearbeitung auf DiTs schlecht abschneidet: Im Gegensatz zu den stark komprimierten Merkmalen von UNets sind die Merkmale von DiTs unzureichend strukturiert, um eine zuverlässige Führung für punktweise Bewegungsüberwachung zu bieten. Um diese Einschränkung zu überwinden, führt DragFlow ein regionsbasiertes Bearbeitungsparadigma ein, bei dem affine Transformationen eine reichere und konsistentere Merkmalsüberwachung ermöglichen. Zusätzlich integrieren wir vortrainierte Open-Domain-Personalisierungsadapter (z. B. IP-Adapter), um die Subjektkonsistenz zu verbessern, während die Hintergrundtreue durch gradientenmaskenbasierte harte Einschränkungen bewahrt wird. Multimodale große Sprachmodelle (MLLMs) werden weiterhin eingesetzt, um Aufgabenmehrdeutigkeiten zu lösen. Für die Bewertung kuratieren wir einen neuartigen regionsbasierten Drag-Benchmark (ReD Bench) mit regionsbasierten Drag-Anweisungen. Umfangreiche Experimente auf DragBench-DR und ReD Bench zeigen, dass DragFlow sowohl punktbasierte als auch regionsbasierte Baselines übertrifft und einen neuen State-of-the-Art in der drag-basierten Bildbearbeitung setzt. Code und Datensätze werden nach der Veröffentlichung öffentlich zugänglich sein.
Die Transformer-Architektur, die auf dem Multi-Head Attention (MHA)-Mechanismus basiert, hat sich zum de-facto-Standard für state-of-the-art Modelle in der künstlichen Intelligenz entwickelt. Die quadratische Rechenkomplexität von MHA in Bezug auf die Sequenzlänge stellt jedoch ein erhebliches Hindernis für die Skalierbarkeit dar, insbesondere bei Anwendungen mit langen Kontexten. Vorherrschende Lösungen wie Multi-Query Attention (MQA) und Grouped-Query Attention (GQA) haben den Engpass des Speicherbandbreitenproblems, der die Latenz bei autoregressiven Inferenzen dominiert, effektiv angegangen, indem sie Key- und Value-Projektionen gemeinsam nutzen. Obwohl diese Methoden sehr erfolgreich sind, reduzieren sie nicht die grundlegende Anzahl der für die Berechnung der Aufmerksamkeitswerte erforderlichen Gleitkommaoperationen (FLOPs), die weiterhin ein kritischer Engpass für das Training und die Verarbeitung vollständiger Sequenzen bleibt. Dieses Papier stellt Sparse Query Attention (SQA) vor, eine neuartige Aufmerksamkeitsarchitektur, die einen alternativen und komplementären Optimierungspfad verfolgt. Anstatt die Anzahl der Key/Value-Köpfe zu reduzieren, verringert SQA die Anzahl der Query-Köpfe. Diese architektonische Modifikation reduziert die Rechenkomplexität des Aufmerksamkeitsmechanismus direkt um einen Faktor, der proportional zur Reduzierung der Query-Köpfe ist, und senkt somit die Gesamtanzahl der FLOPs. Diese Arbeit präsentiert die theoretischen Grundlagen von SQA, ihre mathematische Formulierung und eine Familie von architektonischen Varianten. Empirische Benchmarks an langen Sequenzen (32k-200k Tokens) zeigen, dass SQA in rechenintensiven Szenarien wie dem Vortraining, Feinabstimmung und encoderbasierten Aufgaben signifikante Durchsatzsteigerungen von bis zu 3x erreichen kann, wobei in vorläufigen kleinskaligen Experimenten nur ein minimaler Einfluss auf die Modellqualität festgestellt wurde. SQA wurde zufällig während der Entwicklung der kommenden Reactive Transformer-Architektur entdeckt, was auf sein Potenzial als leistungsfähiges Werkzeug für den Aufbau effizienterer und skalierbarer Modelle hindeutet.
Obwohl aktuelle große Vision-Language-Modelle (VLMs) Fortschritte im multimodalen Verständnis und in der Argumentation gemacht haben, bleiben ihre grundlegenden Wahrnehmungs- und Argumentationsfähigkeiten begrenzt. Insbesondere zeigen bestehende VLMs selbst bei einfachen Puzzle-Aufgaben nahezu zufällige Leistungen, was Defizite in den Kernfähigkeiten der Wahrnehmung und des logischen Denkens offenbart. Während hochwertige visuell-sprachliche Daten diese Fähigkeiten verbessern können, stellen deren Knappheit und begrenzte Skalierbarkeit erhebliche Einschränkungen dar. Um dies zu adressieren, schlagen wir AGILE vor, ein agentenbasiertes Puzzle-Interaktionslernen zur Verbesserung der visuellen Wahrnehmung und des logischen Denkens in VLMs. AGILE formuliert das Lösen von Puzzles als einen interaktiven Prozess, der es dem Modell ermöglicht, schrittweise mit der Umgebung zu interagieren. In jedem Schritt generiert das Modell ausführbaren Code, um eine Aktion basierend auf dem aktuellen Zustand auszuführen, während die Umgebung detailliertes visuelles Feedback liefert, um die Aufgabenbewältigung zu unterstützen. Durch diesen iterativen Zyklus von Beobachtung und Interaktion verbessert das Modell schrittweise seine Wahrnehmungs- und Argumentationsfähigkeiten durch Exploration und Feedback. Experimentelle Ergebnisse zeigen, dass AGILE nicht nur die Leistung bei Puzzle-Aufgaben unterschiedlicher Komplexität erheblich steigert (z. B. eine Steigerung der Genauigkeit von 9,5 % auf 82,8 % unter der 2-mal-2-Einstellung), sondern auch eine starke Generalisierung über 9 allgemeine visuelle Aufgaben demonstriert, mit einer durchschnittlichen Verbesserung von 3,1 %. Diese Ergebnisse deuten auf bemerkenswerte Verbesserungen sowohl in den Wahrnehmungs- als auch in den Argumentationsfähigkeiten hin. Diese Arbeit eröffnet einen neuen Weg zur Förderung des logischen Denkens und der Generalisierung in multimodalen Modellen und bietet eine effiziente, skalierbare Lösung für die Knappheit von multimodalen Verstärkungslern-Daten. Der Code und die Datensätze sind unter https://github.com/yuzeng0-0/AGILE verfügbar.
Kontextbezogene Halluzinationen sind Fälle, in denen Modellausgaben Informationen enthalten, die nicht anhand des Quelltextes überprüfbar sind. Wir untersuchen die Anwendbarkeit von LLMs (Large Language Models) zur Lokalisierung solcher Halluzinationen als praktischere Alternative zu bestehenden komplexen Evaluierungspipelines. Da es keine etablierten Benchmarks für die Meta-Evaluierung der Lokalisierung von Halluzinationen gibt, erstellen wir einen speziell auf LLMs zugeschnittenen Benchmark, der eine anspruchsvolle menschliche Annotation von über 1.000 Beispielen umfasst. Wir ergänzen den Benchmark mit einem LLM-basierten Evaluierungsprotokoll und überprüfen dessen Qualität in einer menschlichen Evaluation. Da bestehende Darstellungen von Halluzinationen die Arten von Fehlern, die ausgedrückt werden können, einschränken, schlagen wir eine neue Darstellung basierend auf freien textuellen Beschreibungen vor, die die gesamte Bandbreite möglicher Fehler erfasst. Wir führen eine umfassende Studie durch, in der wir vier großskalige LLMs evaluieren, die die Schwierigkeit des Benchmarks verdeutlicht, da das beste Modell nur einen F1-Score von 0,67 erreicht. Durch sorgfältige Analysen bieten wir Einblicke in optimale Prompting-Strategien für die Aufgabe und identifizieren die Hauptfaktoren, die sie für LLMs herausfordernd machen: (1) eine Tendenz, fehlende Details fälschlicherweise als inkonsistent zu kennzeichnen, obwohl angewiesen wurde, nur Fakten in der Ausgabe zu überprüfen; und (2) Schwierigkeiten mit Ausgaben, die faktisch korrekte Informationen enthalten, die im Quelltext nicht vorhanden – und somit nicht überprüfbar – sind, da sie mit dem parametrischen Wissen des Modells übereinstimmen.
Das Verständnis von Videos in multimodalen Sprachmodellen bleibt durch die Kontextlänge eingeschränkt: Modelle übersehen oft wichtige Übergangsbilder und haben Schwierigkeiten, die Kohärenz über lange Zeiträume aufrechtzuerhalten. Um dies zu adressieren, passen wir Native Sparse Attention (NSA) für Video-Sprachmodelle an. Unsere Methode, VideoNSA, adaptiert Qwen2.5-VL durch End-to-End-Training auf einem 216K Video-Instruktionsdatensatz. Wir verwenden einen hardwarebewussten hybriden Ansatz für die Aufmerksamkeit, bei dem dichte Aufmerksamkeit für Text beibehalten wird, während NSA für Videos eingesetzt wird. Im Vergleich zu Token-Kompressions- und trainingsfreien spärlichen Baselines erzielt VideoNSA verbesserte Leistungen beim Verständnis langer Videos, bei zeitlichem Schließen und räumlichen Benchmarks. Weitere Ablationsanalysen ergeben vier zentrale Erkenntnisse: (1) zuverlässige Skalierbarkeit auf 128K Tokens; (2) eine optimale globale-lokale Aufmerksamkeitsverteilung bei festem Budget; (3) aufgabenabhängige Nutzungsmuster der Zweige; und (4) die lernbare kombinierte spärliche Aufmerksamkeit hilft, dynamische Aufmerksamkeitssenken zu induzieren.
Multi-Agent System (MAS), das durch Visual Language Models (VLMs) betrieben wird, ermöglicht anspruchsvolle Aufgaben, leidet jedoch unter einem neuartigen Fehlerterm, dem Multi-Agent Visual Hallucination Snowballing, bei dem Halluzinationen in einem einzelnen Agenten initiiert und durch nachfolgende Agenten verstärkt werden, da zu stark auf den Textfluss zur Übermittlung visueller Informationen vertraut wird. Durch turn-, layer- und tokenweise Aufmerksamkeitsanalysen liefern wir detaillierte Einblicke in das Wesen des Hallucination Snowballing in Bezug auf die Reduzierung der Zuweisung visueller Aufmerksamkeit. Dies führt uns zur Identifizierung einer Teilmenge von Vision-Tokens mit einem unimodalen Aufmerksamkeitspeak in mittleren Schichten, die visuelle Beweise am besten bewahren, jedoch in tieferen Agenten-Durchgängen allmählich abnehmen, was das visuelle Hallucination Snowballing in MAS verursacht. Daher schlagen wir ViF vor, ein leichtgewichtiges, Plug-and-Play-Minderungsparadigma, das interagente Nachrichten mit Visual Flow übermittelt, der durch die ausgewählten visuellen Relay-Tokens angetrieben wird, und eine Aufmerksamkeitsneuverteilung anwendet, um dieses Muster zu verstärken. Die experimentellen Ergebnisse zeigen, dass unsere Methode das Hallucination Snowballing deutlich reduziert und die Leistung über acht Benchmarks basierend auf vier gängigen MAS-Strukturen und zehn Basismodellen konsistent verbessert. Der Quellcode wird verfügbar sein unter: https://github.com/YU-deep/ViF.git.
Test-time Scaling (TTS) hat bemerkenswerte Erfolge bei der Verbesserung großer Sprachmodelle gezeigt, doch seine Anwendung auf die Next-Token-Prediction (NTP) in der autoregressiven (AR) Bildgenerierung bleibt weitgehend unerforscht. Bestehende TTS-Ansätze für visuelle AR (VAR), die auf häufiger partieller Dekodierung und externen Belohnungsmodellen basieren, sind für die NTP-basierte Bildgenerierung aufgrund der inhärenten Unvollständigkeit von Zwischendekodierungsergebnissen ungeeignet. Um diese Lücke zu schließen, führen wir ScalingAR ein, das erste TTS-Framework, das speziell für die NTP-basierte AR-Bildgenerierung entwickelt wurde und auf frühe Dekodierung oder zusätzliche Belohnungen verzichtet. ScalingAR nutzt die Token-Entropie als neuartiges Signal in der visuellen Token-Generierung und operiert auf zwei komplementären Skalierungsebenen: (i) Profilebene, die einen kalibrierten Konfidenzzustand durch die Fusion intrinsischer und konditionaler Signale streamt; und (ii) Policyebene, die diesen Zustand nutzt, um niedrige Konfidenzpfade adaptiv zu beenden und die Führung für eine phasenangemessene Konditionierungsstärke dynamisch zu planen. Experimente auf allgemeinen und kompositionellen Benchmarks zeigen, dass ScalingAR (1) Basismodelle um 12,5 % auf GenEval und 15,2 % auf TIIF-Bench verbessert, (2) den visuellen Token-Verbrauch effizient um 62,0 % reduziert, während es die Baselines übertrifft, und (3) die Robustheit erfolgreich steigert und Leistungseinbrüche in anspruchsvollen Szenarien um 26,0 % mildert.
Schlussfolgern erfordert, über Mustererkennung oder das Auswendiglernen von Lösungen hinauszugehen, um „algorithmische Verfahren“ zu identifizieren und umzusetzen, die zur Ableitung von Antworten auf schwierige Probleme verwendet werden können. Dies erfordert das Erkennen der relevantesten Grundbausteine, Zwischenergebnisse oder gemeinsamen Verfahren und den Aufbau darauf. Während das Reinforcement Learning (RL) nach dem Training auf langen Gedankenketten letztendlich darauf abzielt, dieses algorithmische Verhalten zu entdecken, gelingt es den meisten von großen Modellen erlernten Schlussfolgerungspfaden nicht, Verfahren konsistent zu erfassen oder wiederzuverwenden, sondern sie verfallen in ausufernde und degenerierte Exploration. Um effektiveres Schlussfolgern zu ermöglichen, führen wir Abstraktionen des Schlussfolgerns ein: prägnante Beschreibungen in natürlicher Sprache von prozeduralem und faktischem Wissen, die das Modell dazu anleiten, erfolgreiches Schlussfolgern zu erlernen. Wir trainieren Modelle so, dass sie in der Lage sind, mehrere Abstraktionen zu einem Problem vorzuschlagen, gefolgt von RL, das den Aufbau einer Lösung unter Verwendung der durch diese Abstraktionen bereitgestellten Informationen fördert. Dies führt zu einem Zwei-Spieler-RL-Trainingsparadigma, abgekürzt als RLAD, das gemeinsam einen Abstraktionsgenerator und einen Lösungsgenerator trainiert. Dieser Aufbau ermöglicht effektiv strukturierte Exploration, entkoppelt die Lernsignale der Abstraktionsvorschläge und der Lösungsgenerierung und verbessert die Generalisierung auf schwierigere Probleme. Wir zeigen auch, dass die Zuweisung von mehr Rechenleistung zur Generierung von Abstraktionen während der Testphase vorteilhafter für die Leistung ist als die Generierung weiterer Lösungen bei großen Testbudgets, was die Rolle von Abstraktionen bei der Lenkung sinnvoller Exploration verdeutlicht.
Vision-Language-Action (VLA)-Modelle zielen darauf ab, Wahrnehmung, Sprachverständnis und Handlungsgenerierung zu vereinen und bieten eine starke Generalisierung über Aufgaben und Szenarien hinweg, was weitreichende Auswirkungen auf die verkörperte KI hat. Allerdings mangelt es aktuellen VLA-Modellen oft an expliziter schrittweiser Argumentation, da sie stattdessen finale Aktionen ausgeben, ohne Affordance-Beschränkungen oder geometrische Beziehungen zu berücksichtigen. Ihre Post-Training-Pipelines verstärken zudem selten die Qualität der Argumentation, da sie sich hauptsächlich auf überwachtes Feintuning mit schwacher Belohnungsgestaltung verlassen. Um diese Herausforderungen zu bewältigen, präsentieren wir VLA-R1, ein argumentationsgestärktes VLA-Modell, das Reinforcement Learning from Verifiable Rewards (RLVR) mit Group Relative Policy Optimization (GRPO) integriert, um sowohl die Argumentation als auch die Ausführung systematisch zu optimieren. Konkret entwerfen wir eine RLVR-basierte Post-Training-Strategie mit überprüfbaren Belohnungen für Bereichsausrichtung, Trajektorienkonsistenz und Ausgabeformatierung, wodurch die Robustheit der Argumentation und die Genauigkeit der Ausführung gestärkt werden. Darüber hinaus entwickeln wir VLA-CoT-13K, einen hochwertigen Datensatz, der eine explizit mit Affordance- und Trajektorienannotationen abgestimmte Ketten-der-Gedanken-Supervision bietet. Weiterhin zeigen umfangreiche Evaluierungen auf in-domain, out-of-domain, Simulations- und Echtzeit-Roboterplattformen, dass VLA-R1 eine überlegene Generalisierung und reale Leistungsfähigkeit im Vergleich zu früheren VLA-Methoden erreicht. Wir planen, das Modell, den Code und den Datensatz nach der Veröffentlichung dieser Arbeit freizugeben. Code: https://github.com/GigaAI-research/VLA-R1. Website: https://gigaai-research.github.io/VLA-R1.
Die automatisierte Erstellung strukturierter Radiologieberichte (SRRG) aus Röntgenaufnahmen des Brustkorbs bietet erhebliches Potenzial, die Arbeitsbelastung von Radiologen zu verringern, indem Berichte in strukturierten Formaten erstellt werden, die Klarheit, Konsistenz und die Einhaltung klinischer Berichtsstandards gewährleisten. Während Radiologen verfügbare klinische Kontexte effektiv in ihre diagnostische Argumentation einbeziehen, übersehen bestehende SRRG-Systeme diese wesentlichen Elemente. Diese grundlegende Lücke führt zu kritischen Problemen, einschließlich zeitlicher Halluzinationen, wenn auf nicht existierende klinische Kontexte Bezug genommen wird. Um diese Einschränkungen zu überwinden, schlagen wir kontextualisierte SRRG (C-SRRG) vor, die umfassend reiche klinische Kontexte für SRRG integriert. Wir erstellen den C-SRRG-Datensatz durch die Integration umfassender klinischer Kontexte, die 1) Mehrbild-Röntgenaufnahmen, 2) klinische Indikationen, 3) Bildgebungstechniken und 4) vorherige Studien mit entsprechenden Vergleichen basierend auf der Patientenhistorie umfassen. Durch umfangreiche Benchmarking-Tests mit modernsten multimodalen großen Sprachmodellen zeigen wir, dass die Einbeziehung klinischer Kontexte mit dem vorgeschlagenen C-SRRG die Qualität der Berichterstellung signifikant verbessert. Wir veröffentlichen den Datensatz, den Code und die Checkpoints, um zukünftige Forschungen zur klinisch ausgerichteten automatisierten RRG zu fördern, unter https://github.com/vuno/contextualized-srrg.
Graph Neural Networks (GNNs) sind die dominierende Architektur für molekulares maschinelles Lernen, insbesondere für die Vorhersage molekularer Eigenschaften und maschinelle Lernverfahren für interatomare Potentiale (MLIPs). GNNs führen Message Passing auf vordefinierten Graphen durch, die oft durch einen festen Radius-Cutoff oder ein k-Nächste-Nachbarn-Schema erzeugt werden. Während dieses Design mit der Lokalität vieler molekularer Aufgaben übereinstimmt, kann ein fest kodierter Graph die Ausdrucksfähigkeit aufgrund des festen rezeptiven Feldes einschränken und die Inferenz durch spärliche Graphoperationen verlangsamen. In dieser Arbeit untersuchen wir, ob reine, unveränderte Transformers, die direkt auf kartesischen Koordinaten trainiert werden – ohne vordefinierte Graphen oder physikalische Prioritäten – molekulare Energien und Kräfte approximieren können. Als Ausgangspunkt unserer Analyse zeigen wir, wie ein Transformer mit einem vergleichbaren Trainingsrechenbudget wettbewerbsfähige mittlere absolute Fehler bei Energie und Kräften erreichen kann, verglichen mit einem state-of-the-art äquivarianten GNN auf dem OMol25-Datensatz. Wir entdecken, dass der Transformer physikalisch konsistente Muster lernt – wie beispielsweise Aufmerksamkeitsgewichte, die umgekehrt mit dem interatomaren Abstand abnehmen – und diese flexibel an verschiedene molekulare Umgebungen anpasst, da keine fest kodierten Verzerrungen vorhanden sind. Die Verwendung eines Standard-Transformers ermöglicht auch vorhersehbare Verbesserungen in Bezug auf die Skalierung von Trainingsressourcen, was mit empirischen Skalierungsgesetzen übereinstimmt, die in anderen Domänen beobachtet wurden. Unsere Ergebnisse zeigen, dass viele vorteilhafte Eigenschaften von GNNs adaptiv in Transformern entstehen können, was die Notwendigkeit fest kodierter graphinduktiver Verzerrungen in Frage stellt und auf standardisierte, skalierbare Architekturen für die molekulare Modellierung hinweist.
Computer-Use Agents (CUAs) sind eine zunehmend eingesetzte Klasse von Agenten, die Aktionen auf grafischen Benutzeroberflächen (GUIs) ausführen, um Benutzerziele zu erreichen. In diesem Artikel zeigen wir, dass CUAs konsequent eine Blind Goal-Directedness (BGD) aufweisen: eine Tendenz, Ziele unabhängig von Machbarkeit, Sicherheit, Zuverlässigkeit oder Kontext zu verfolgen. Wir charakterisieren drei verbreitete Muster von BGD: (i) mangelnde kontextuelle Argumentation, (ii) Annahmen und Entscheidungen unter Unklarheit sowie (iii) widersprüchliche oder unmögliche Ziele. Wir entwickeln BLIND-ACT, einen Benchmark mit 90 Aufgaben, die diese drei Muster erfassen. Basierend auf OSWorld bietet BLIND-ACT realistische Umgebungen und setzt LLM-basierte Bewerter ein, um das Agentenverhalten zu evaluieren, wobei eine Übereinstimmung von 93,75 % mit menschlichen Annotationen erreicht wird. Wir verwenden BLIND-ACT, um neun führende Modelle zu bewerten, darunter Claude Sonnet und Opus 4, Computer-Use-Preview und GPT-5, und beobachten hohe durchschnittliche BGD-Raten (80,8 %) bei diesen Modellen. Wir zeigen, dass BGD subtile Risiken offenlegt, die selbst dann entstehen, wenn die Eingaben nicht direkt schädlich sind. Während prompt-basierte Interventionen die BGD-Niveaus senken, bleibt ein erhebliches Risiko bestehen, was die Notwendigkeit stärkerer Trainings- oder Inferenzzeit-Interventionen unterstreicht. Qualitative Analysen zeigen beobachtete Fehlermodi: Execution-First-Bias (Fokus darauf, wie gehandelt wird, anstatt ob gehandelt werden sollte), Denken-Handeln-Diskrepanz (Ausführung weicht von der Argumentation ab) und Request-Primacy (Rechtfertigung von Aktionen aufgrund von Benutzeranfragen). Die Identifizierung von BGD und die Einführung von BLIND-ACT schaffen eine Grundlage für zukünftige Forschung zur Untersuchung und Minderung dieses grundlegenden Risikos sowie zur Sicherstellung eines sicheren Einsatzes von CUAs.
Multimodale Repräsentationslernmodelle haben sich bei komplexen Aufgaben als erfolgreich erwiesen, und die Integration von Vision-Sprache-Modellen (VLMs) hat es ermöglicht, Embedding-Modelle mit Befolgung von Anweisungen auszustatten. Allerdings fehlen bestehenden Embedding-Modellen visuell-interaktive Fähigkeiten, um Benutzerinteressenbereiche (z. B. Punkt, Begrenzungsrahmen, Maske) zu spezifizieren, die in generativen Modellen erforscht wurden, um deren menschlich-interaktive Anwendbarkeit zu erweitern. Die Ausstattung von Embedding-Modellen mit visuellen Interaktionen würde nicht nur neue Anwendungen mit lokalisierter Verankerung von Benutzerabsichten freischalten, die bisher unerforscht geblieben sind, sondern es den Modellen auch ermöglichen, Entitätsinformationen innerhalb von Bildern zu lernen, um ihre globalen Repräsentationen für konventionelle Embedding-Aufgaben zu ergänzen. In diesem Artikel schlagen wir einen neuartigen Visual-InteRactive Text-Image Universal Embedder (VIRTUE) vor, der die Fähigkeiten des Segmentierungsmodells und des Vision-Sprache-Modells auf den Bereich des Repräsentationslernens ausdehnt. In VIRTUE kann das Segmentierungsmodell visuelle Eingaben verarbeiten, die spezifische Bereiche innerhalb eines Bilds kennzeichnen, wodurch der Embedder komplexe und mehrdeutige Szenarien präziser handhaben kann. Um die visuell-interaktive Fähigkeit von VIRTUE zu bewerten, führen wir einen groß angelegten Segmentation-and-Scene Caption Retrieval (SCaR) Benchmark ein, der 1M Proben umfasst und darauf abzielt, die Textbeschreibung durch gemeinsame Berücksichtigung der Entität mit einem spezifischen Objekt und Bildszene abzurufen. VIRTUE erzielt durchweg eine state-of-the-art Leistung mit signifikanten Verbesserungen über 36 universelle MMEB (3,1%-8,5%) und fünf visuell-interaktive SCaR (15,2%-20,3%) Aufgaben hinweg.
Off-Policy Reinforcement Learning (RL) für große Sprachmodelle (LLMs) gewinnt zunehmend an Interesse, angetrieben durch praktische Einschränkungen in realen Anwendungen, die Komplexität der LLM-RL-Infrastruktur und die Notwendigkeit weiterer Innovationen in RL-Methoden. Während klassisches REINFORCE und seine modernen Varianten wie Group Relative Policy Optimization (GRPO) typischerweise als On-Policy-Algorithmen mit begrenzter Toleranz gegenüber Off-Policy-Verhalten betrachtet werden, präsentieren wir in dieser Arbeit eine grundlegende Herleitung für gruppenrelatives REINFORCE ohne Annahme einer spezifischen Trainingsdatenverteilung, die zeigt, dass es eine native Off-Policy-Interpretation zulässt. Diese Perspektive führt zu zwei allgemeinen Prinzipien für die Anpassung von REINFORCE an Off-Policy-Szenarien: Regularisierung von Policy-Updates und aktive Gestaltung der Datenverteilung. Unsere Analyse entmystifiziert einige Mythen über die Rollen von Importance Sampling und Clipping in GRPO, vereinheitlicht und reinterpretiert zwei aktuelle Algorithmen – Online Policy Mirror Descent (OPMD) und Asymmetric REINFORCE (AsymRE) – als regularisierte Formen des REINFORCE-Verlusts und bietet eine theoretische Rechtfertigung für scheinbar heuristische Datengewichtungsstrategien. Unsere Erkenntnisse führen zu umsetzbaren Einsichten, die durch umfangreiche empirische Studien validiert werden, und eröffnen neue Möglichkeiten für prinzipielle Algorithmusgestaltung im Off-Policy-RL für LLMs. Der Quellcode für diese Arbeit ist verfügbar unter https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k.
Text-to-Image (T2I)-Modelle glänzen bei Einzelobjekt-Prompts, haben jedoch Schwierigkeiten mit Mehrfachsubjekt-Beschreibungen, was oft zu Attributverlust, Identitätsverflechtung und Subjektauslassungen führt. Wir stellen das erste theoretische Framework mit einem prinzipiellen, optimierbaren Ziel vor, um die Sampling-Dynamik in Richtung Mehrfachsubjekt-Treue zu steuern. Indem wir Flow Matching (FM) durch stochastische optimale Steuerung (SOC) betrachten, formulieren wir die Subjektentflechtung als Steuerung eines trainierten FM-Samplers. Dies führt zu zwei architekturunabhängigen Algorithmen: (i) einen trainingsfreien Testzeit-Controller, der die Basisgeschwindigkeit mit einem Single-Pass-Update stört, und (ii) Adjoint Matching, eine leichtgewichtige Feinabstimmungsregel, die ein Steuernetzwerk auf ein rückwärtiges Adjungiertensignal regressiert, während die Fähigkeiten des Basismodells erhalten bleiben. Dieselbe Formulierung vereinheitlicht frühere Aufmerksamkeitsheuristiken, erweitert sich auf Diffusionsmodelle über eine Flow-Diffusion-Korrespondenz und bietet den ersten Feinabstimmungspfad, der explizit für Mehrfachsubjekt-Treue entwickelt wurde. Empirisch verbessern beide Algorithmen auf Stable Diffusion 3.5, FLUX und Stable Diffusion XL konsistent die Mehrfachsubjekt-Ausrichtung, während der Stil des Basismodells beibehalten wird. Der Testzeit-Controller läuft effizient auf handelsüblichen GPUs, und feinabgestimmte Controller, die mit begrenzten Prompts trainiert wurden, generalisieren auf unbekannte Prompts. Wir heben außerdem FOCUS (Flow Optimal Control for Unentangled Subjects) hervor, das eine state-of-the-art Mehrfachsubjekt-Treue über Modelle hinweg erreicht.
Zeitreihenvorhersage ist von zentraler Bedeutung für die Entscheidungsfindung in so unterschiedlichen Bereichen wie Energie, Finanzen, Klima und öffentliche Gesundheit. In der Praxis sehen sich Prognostiker mit Tausenden von kurzen, verrauschten Reihen konfrontiert, die sich in Frequenz, Qualität und Horizont unterscheiden, wobei die dominierenden Kosten nicht in der Modellanpassung, sondern in der arbeitsintensiven Vorverarbeitung, Validierung und Ensemble-Bildung liegen, die erforderlich sind, um zuverlässige Vorhersagen zu erhalten. Vorherrschende statistische und Deep-Learning-Modelle sind auf spezifische Datensätze oder Domänen zugeschnitten und generalisieren schlecht. Ein allgemeines, domänenunabhängiges Framework, das den menschlichen Eingriff minimiert, wird dringend benötigt. In diesem Artikel stellen wir TimeSeriesScientist (TSci) vor, das erste LLM-gestützte agentenbasierte Framework für allgemeine Zeitreihenvorhersagen. Das Framework besteht aus vier spezialisierten Agenten: Der Kurator führt LLM-gestützte Diagnosen durch, die durch externe Tools ergänzt werden, die über Datenstatistiken nachdenken, um gezielte Vorverarbeitung auszuwählen; der Planer verengt den Hypothesenraum der Modellauswahl durch die Nutzung multimodaler Diagnosen und Selbstplanung über die Eingabe; der Prognostiker führt Modellanpassung und Validierung durch und wählt basierend auf den Ergebnissen adaptiv die beste Modellkonfiguration sowie die Ensemble-Strategie aus, um endgültige Vorhersagen zu treffen; und der Berichterstatter fasst den gesamten Prozess in einem umfassenden, transparenten Bericht zusammen. Mit transparenten, natürlichen Sprachbegründungen und umfassenden Berichten verwandelt TSci den Prognoseprozess in ein White-Box-System, das sowohl interpretierbar als auch über Aufgaben hinweg erweiterbar ist. Empirische Ergebnisse auf acht etablierten Benchmarks zeigen, dass TSci sowohl statistische als auch LLM-basierte Baselines konsequent übertrifft und den Prognosefehler im Durchschnitt um 10,4 % bzw. 38,2 % reduziert. Darüber hinaus erstellt TSci einen klaren und rigorosen Bericht, der den Prognoseprozess transparenter und interpretierbarer macht.
Das Skalieren von parallelen LLM-Inferenzen beinhaltet das Sampling einer Menge von N>1 Antworten für einen einzelnen Eingabe-Prompt. Diese N parallelen Antworten werden jedoch tendenziell unabhängig voneinander generiert, wodurch die Rechenressourcen aufgeteilt werden und potenziell nützliche Informationen in einer Generierung von anderen ungenutzt bleiben. Dies steht im Gegensatz zur Skalierung der Antwortlänge, bei der vergangene Berechnungen in allen zukünftigen Schritten verwendet werden. Um qualitativ hochwertigere Antworten und Antwortmengen zu erzielen, schlagen wir Bridge vor, um interdependente Antworten parallel zu generieren, indem wir gebündelte LLM-Zustände als ganzheitliche Tensoren betrachten und nicht als unabhängige Segmente. Mit nur einer geringen Menge (2,8%-5,1%) neuer Parameter verbessert Bridge die relativen mittleren Genauigkeitsgewinne durch Verstärkungslernen mit überprüfbaren Belohnungen um bis zu 50% und steigert die Konsistenz korrekter Antworten. Einmal trainiert, skaliert Bridge auf jede Generierungsbreite, alles mit besserer Leistung als unabhängige Generierungen, und ermöglicht einen allgemeineren Modus der parallelen Skalierung, der effektiv Informationen zwischen Sequenzen nutzt und mit jeder Post-Generierungs-Aggregationstechnik kompatibel ist.
Reasoning-Training motiviert LLMs dazu, lange Gedankenketten (long CoT) zu erzeugen, was es ihnen unter anderem ermöglicht, Lösungsstrategien mit Selbstüberprüfung zu erkunden. Dies führt zu einer höheren Genauigkeit, erhöht jedoch die Kontextlänge, die Token-/Rechenkosten und die Antwortlatenz. Wir fragen: Können aktuelle Modelle ihre Metakognition nutzen, um andere Kombinationen auf dieser Pareto-Grenze zu bieten, z. B. eine bessere Genauigkeit bei geringerer Kontextlänge und/oder Latenz? Abstrakt betrachten wir das Modell als einen Verbesserungsoperator für seine eigenen „Gedanken“ mit einem Kontinuum möglicher Strategien. Wir identifizieren eine interessante Inferenzfamilie, Parallel-Distill-Refine (PDR), die folgendes durchführt: (i) Erzeugung diverser Entwürfe parallel; (ii) Destillation dieser in einen begrenzten, textuellen Arbeitsbereich; und (iii) Verfeinerung basierend auf diesem Arbeitsbereich, wodurch ein Ausgabe erzeugt wird, die die nächste Runde initiiert. Wichtig ist, dass die Kontextlänge (und damit die Rechenkosten) über den Grad der Parallelität steuerbar ist und nicht mehr mit der Gesamtzahl der generierten Token verwechselt wird. Wir berichten über PDR-Instanzen aktueller Modelle, die eine bessere Genauigkeit als long CoT bieten, während sie eine geringere Latenz verursachen. Die Einstellung des Parallelitätsgrads auf 1 ergibt einen interessanten Unterfall, Sequential Refinement (SR) (iterative Verbesserung einer einzelnen Kandidatenantwort), der eine überlegene Leistung gegenüber long CoT bietet. Der Erfolg solcher Modell-Orchestrierungen wirft die Frage auf, ob weiteres Training die Pareto-Grenze verschieben könnte. Zu diesem Zweck trainieren wir ein 8B-Denkmodell mit Reinforcement Learning (RL), um es mit PDR als Inferenzmethode konsistent zu machen. Bei mathematischen Aufgaben mit überprüfbaren Antworten übertreffen iterative Pipelines Einzel-Durchlauf-Baselines bei gleichen sequenziellen Budgets, wobei PDR die größten Gewinne liefert (z. B. +11 % bei AIME 2024 und +9 % bei AIME 2025).
Supervised Fine-Tuning (SFT) ist die vorherrschende Methode zur Anpassung großer Sprachmodelle (LLMs), zeigt jedoch im Vergleich zum Reinforcement Learning (RL) oft Schwächen in der Generalisierung. In dieser Arbeit stellen wir die These auf, dass diese Leistungsunterschiede nicht nur auf die Verlustfunktion zurückzuführen sind, sondern auf einen grundlegenderen Unterschied: SFT lernt aus einem festen, vorab gesammelten Datensatz, während RL On-Policy-Daten nutzt, die aus der aktuellen Policy stammen. Basierend auf dieser Hypothese führen wir One-Token Rollout (OTR) ein, einen neuartigen Fine-Tuning-Algorithmus, der SFT mit der Policy-Gradient-Methode kombiniert. OTR reformuliert den autoregressiven Lernprozess, indem es die Generierung jedes Tokens als einen einstufigen Reinforcement-Learning-Pfad betrachtet. In jedem Schritt führt es einen Monte-Carlo-„Rollout“ durch, indem es mehrere Kandidatentokens aus der Verteilung der aktuellen Policy sampelt. Das Ground-Truth-Token aus den überwachten Daten wird dann verwendet, um ein Belohnungssignal für diese Samples zu liefern. Durch die Anleitung des Policy-Gradient-Algorithmus wandelt unsere Methode statische, Off-Policy-Daten in ein dynamisches, On-Policy-Signal auf Token-Ebene um und nutzt so die Vorteile der Generalisierung durch On-Policy-Lernen, ohne den aufwändigen Overhead der vollständigen Satzgenerierung zu benötigen. Durch umfangreiche Experimente auf einer vielfältigen Reihe anspruchsvoller Benchmarks, die mathematisches Denken, Code-Generierung und allgemeines Domänenverständnis abdecken, zeigen wir, dass OTR durchweg besser abschneidet als Standard-SFT. Unsere Ergebnisse etablieren OTR als eine leistungsstarke und praktische Alternative für das Fine-Tuning von LLMs und liefern überzeugende Beweise dafür, dass die On-Policy-Natur der Daten ein entscheidender Faktor für die Generalisierung ist. Dies eröffnet eine vielversprechende neue Richtung für das Fine-Tuning von LLMs.
Während große visuell-sprachliche Modelle (Large Vision-Language Models, LVLMs) erhebliche Fortschritte im Bereich des Videoverständnisses erzielt haben, wird ihre Anwendung auf die Langzeit-Videoanalyse durch gleichmäßige Bildabtastung und statische textbasierte Schlussfolgerungen behindert, die ineffizient sind und Schwierigkeiten haben, visuell anspruchsvolle Videoaufgaben zu bewältigen. Um diese Herausforderungen zu überwinden, führen wir in diesem Artikel das Konzept des Denkens mit langen Videos ein und schlagen ein neuartiges Framework namens FrameThinker vor. Innerhalb dieses Frameworks sind LVLMs in der Lage, den Videoinhalt iterativ zu hinterfragen. Die Entwicklung solcher Videoanalysefähigkeiten in LVLMs stellt bemerkenswerte Herausforderungen dar, insbesondere bei der Anpassung des Modells an neue Videoaktionen (z. B. Bildauswahl) und bei der Gestaltung von Belohnungsfunktionen, um LVLMs dazu zu bringen, die neu eingeführten Aktionen zu übernehmen. Um diese Herausforderungen zu lösen, schlagen wir eine zweiphasige Trainingsstrategie vor, bei der zunächst Supervised Fine-Tuning (SFT) eingesetzt wird, um grundlegende Aktionsfähigkeiten zu vermitteln, gefolgt von Reinforcement Learning (RL), um eine strategische Entscheidungsfindung zu optimieren. Besonders in dieser RL-Phase führen wir eine tiefgehende und umfassende Untersuchung der Belohnungsgestaltung für jede Aktion und Formatbelohnung durch. Umfangreiche Experimente auf Analyse-Benchmarks wie Video-Holmes, LongVideo-Reason und Langzeit-Video-Verständnis-Benchmarks wie LongVideoBench, MLVU, VideoMME und LVBench zeigen, dass FrameThinker eine signifikante durchschnittliche Verbesserung von +10,4 % gegenüber den Baselines erzielt, während gleichzeitig die Anzahl der verarbeiteten Bilder drastisch reduziert wird. Besonders bemerkenswert ist, dass unser 7B-Modell FrameThinker einen neuen State-of-the-Art auf LongVideo-Reason erreicht, mit einer Genauigkeit von 76,1 % bei durchschnittlich nur 20,6 Bildern. Dies übertrifft nicht nur den konkurrierenden LongVILA-R1 (72,0 %), sondern tut dies auch mit über 20-mal weniger Bildern (vs. 512), was eine beispiellose Effizienz und Wirksamkeit demonstriert.
Bei der Arena-basierten Bewertung von großen Sprachmodellen (LLMs) antworten zwei LLMs auf eine Benutzeranfrage, und der Benutzer wählt die gewinnende Antwort aus oder erklärt den „Kampf“ für unentschieden, was zu einer Anpassung der Bewertungen beider Modelle führt. Der vorherrschende Ansatz zur Modellierung dieser Bewertungsdynamik besteht darin, Kämpfe als Zwei-Spieler-Spiele, wie im Schach, zu betrachten und das Elo-Bewertungssystem sowie dessen Ableitungen anzuwenden. In diesem Papier untersuchen wir dieses Paradigma kritisch. Insbesondere stellen wir die Frage, ob ein Unentschieden tatsächlich bedeutet, dass die beiden Modelle gleichwertig sind und somit ihre Bewertungen angeglichen werden sollten. Stattdessen vermuten wir, dass Unentschieden eher auf die Schwierigkeit der Anfrage hinweisen: Wenn die Anfrage zu einfach ist, ist es wahrscheinlicher, dass beide Modelle gleichermaßen erfolgreich sind. Anhand von drei realen Arena-Datensätzen zeigen wir, dass das Ignorieren von Bewertungsaktualisierungen bei Unentschieden zu einer relativen Steigerung der Vorhersagegenauigkeit von Kampfergebnissen (einschließlich Unentschieden) um 1-3 % bei allen vier untersuchten Bewertungssystemen führt. Weitere Analysen deuten darauf hin, dass Unentschieden häufiger bei Anfragen auftreten, die als sehr einfach und als stark objektiv bewertet werden, mit Risikoverhältnissen von 1,37 bzw. 1,35. Wir empfehlen zukünftigen Bewertungssystemen, die bestehende Semantik von Unentschieden zu überdenken und die Eigenschaften der Anfragen bei Bewertungsaktualisierungen zu berücksichtigen.
Jüngste Fortschritte im Bereich des Reinforcement Post-Trainings (RPT) haben die Fähigkeiten von Large Reasoning Models (LRMs) erheblich verbessert und das Interesse an der Generalisierung des RL-basierten Denkens verstärkt. Während sich bestehende Arbeiten hauptsächlich auf die Untersuchung der Generalisierung über Aufgaben oder Modalitäten konzentriert haben, schlägt diese Studie eine neuartige sprachübergreifende Perspektive vor, um die Generalisierung des Denkens zu untersuchen. Dies wirft eine entscheidende Frage auf: Überträgt sich die durch englischsprachiges RPT erreichte Denkfähigkeit effektiv auf andere Sprachen? Wir gehen dieser Frage nach, indem wir englischzentrierte LRMs systematisch auf mehrsprachigen Denkbenchmarks evaluieren und eine Metrik zur Quantifizierung der sprachübergreifenden Übertragbarkeit einführen. Unsere Ergebnisse zeigen, dass die sprachübergreifende Übertragbarkeit stark vom Ausgangsmodell, der Zielsprache und dem Trainingsparadigma abhängt. Durch Interventionsstudien stellen wir fest, dass Modelle mit stärkeren anfänglichen Englischfähigkeiten dazu neigen, sich übermäßig auf englischspezifische Muster zu verlassen, was zu einer verringerten sprachübergreifenden Generalisierung führt. Um dies zu adressieren, führen wir eine umfassende Parallel-Trainingsstudie durch. Die experimentellen Ergebnisse liefern drei zentrale Erkenntnisse: den First-Parallel Leap, einen erheblichen Leistungssprung beim Übergang von monolingualem zu nur einem parallelen Sprachtraining, und ein vorhersehbares Parallel Scaling Law, das zeigt, dass die sprachübergreifende Denkübertragung einem Potenzgesetz mit der Anzahl der trainierten parallelen Sprachen folgt. Darüber hinaus identifizieren wir die Diskrepanz zwischen der tatsächlichen monolingualen Leistung und der Potenzgesetz-Vorhersage als Monolingual Generalization Gap, was darauf hinweist, dass englischzentrierte LRMs nicht vollständig über Sprachen hinweg generalisieren. Unsere Studie stellt die Annahme in Frage, dass das Denken von LRMs der menschlichen Kognition entspricht, und liefert wichtige Erkenntnisse für die Entwicklung sprachunabhängigerer LRMs.
Multilayer-Perceptrons (MLPs) folgen konventionell einem schmal-breit-schmal-Design, bei dem Skip-Verbindungen auf den Ein- und Ausgabedimensionen operieren, während die Verarbeitung in erweiterten verborgenen Räumen stattfindet. Wir stellen diese Konvention in Frage, indem wir breit-schmal-breit (Hourglass) MLP-Blöcke vorschlagen, bei denen Skip-Verbindungen in erweiterten Dimensionen operieren, während der Rest der Berechnung durch schmale Engpässe fließt. Diese Umkehrung nutzt höherdimensionale Räume für inkrementelle Verfeinerungen, während sie durch parameterangepasste Designs die Recheneffizienz beibehält. Die Implementierung von Hourglass-MLPs erfordert eine anfängliche Projektion, um Eingangssignale in erweiterte Dimensionen zu heben. Wir schlagen vor, dass diese Projektion während des gesamten Trainings auf einer zufälligen Initialisierung fixiert bleiben kann, was effiziente Trainings- und Inferenzimplementierungen ermöglicht. Wir bewerten beide Architekturen anhand generativer Aufgaben über gängige Bilddatensätze und charakterisieren Performance-Parameter-Pareto-Grenzen durch systematische Architektursuche. Die Ergebnisse zeigen, dass Hourglass-Architekturen durchweg überlegene Pareto-Grenzen im Vergleich zu konventionellen Designs erreichen. Mit zunehmenden Parameterbudgets bevorzugen optimale Hourglass-Konfigurationen tiefere Netzwerke mit breiteren Skip-Verbindungen und schmaleren Engpässen – ein Skalierungsmuster, das sich von konventionellen MLPs unterscheidet. Unsere Ergebnisse legen nahe, die Platzierung von Skip-Verbindungen in modernen Architekturen zu überdenken, mit potenziellen Anwendungen, die sich auf Transformer und andere Residualnetzwerke erstrecken.
Große Sprachmodelle (LLMs) zeigen mittlerweile starke Leistungen in vielen öffentlichen Mathematik-Tests, doch die Spitzenunterscheidung innerhalb der Mathematik leidet zunehmend unter Deckeneffekten. Wir präsentieren zwei komplementäre Benchmarks: SKYLENAGE-ReasoningMATH, einen 100-Punkte umfassenden, strukturorientierten Diagnosesatz mit Metadaten zu Länge, numerischer Dichte und symbolischer Komplexität pro Aufgabe; und SKYLENAGE-MATH, einen 150-Punkte umfassenden Wettbewerbsstil-Test, der vier Stufen von der Oberstufe bis zur Promotion unter einer siebenfachen Fachsystematik abdeckt. Wir bewerten fünfzehn aktuelle LLM-Varianten unter einem einheitlichen Setup und analysieren die Leistung nach Fach x Modell und Klassenstufe x Modell. Im Wettbewerbs-Test erreicht das stärkste Modell 44 %, während der Zweitplatzierte 37 % erreicht; die Genauigkeit nimmt von der Oberstufe bis zur Promotion ab, und die besten Systeme zeigen eine Promotions-zu-Oberstufe-Retention von nahezu 79 %. Im Reasoning-Test erreicht das beste Modell insgesamt 81 %, und die Ergebnisse der schwierigsten Aufgaben zeigen deutliche Robustheitslücken zwischen den Spitzenreitern und der Mittelklasse. Zusammenfassend veröffentlichen wir SKYLENAGE-ReasoningMATH und berichten aggregierte Ergebnisse für SKYLENAGE-MATH; zusammen bietet SKYLENAGE einen anspruchsvollen, reasoning-zentrierten und breit gefächerten Mathematik-Benchmark mit kalibrierter Schwierigkeit und umfangreichen Metadaten, der als Referenzbenchmark für zukünftige Bewertungen mathematischen Denkens dient.
Die Bewertung der medizinischen Bildqualität (Medical Image Quality Assessment, IQA) fungiert als erste Sicherheitsbarriere für klinische KI-Systeme. Dennoch bleiben bestehende Ansätze durch skalare, punktbasierte Metriken eingeschränkt und spiegeln nicht den beschreibenden, menschenähnlichen Denkprozess wider, der für die Expertenbewertung zentral ist. Um diese Lücke zu schließen, stellen wir MedQ-Bench vor, einen umfassenden Benchmark, der ein Wahrnehmungs-Denk-Paradigma für die sprachbasierte Bewertung der medizinischen Bildqualität mit Multi-modalen Großen Sprachmodellen (MLLMs) etabliert. MedQ-Bench definiert zwei komplementäre Aufgaben: (1) MedQ-Perception, das die Fähigkeit zur Wahrnehmung auf niedriger Ebene durch von Menschen kuratierte Fragen zu grundlegenden visuellen Attributen untersucht; und (2) MedQ-Reasoning, das sowohl Referenz-freie als auch vergleichende Denkaufgaben umfasst und die Modellbewertung mit menschenähnlichem Denken zur Bildqualität in Einklang bringt. Der Benchmark umfasst fünf Bildgebungsmodalitäten und über vierzig Qualitätsattribute, insgesamt 2.600 Wahrnehmungsfragen und 708 Denkbewertungen, die verschiedene Bildquellen abdecken, darunter authentische klinische Aufnahmen, Bilder mit simulierten Verschlechterungen durch physikbasierte Rekonstruktionen und KI-generierte Bilder. Um die Denkfähigkeit zu bewerten, schlagen wir ein mehrdimensionales Bewertungsprotokoll vor, das Modellausgaben entlang vier komplementärer Achsen beurteilt. Darüber hinaus führen wir eine rigorose Validierung der Mensch-KI-Ausrichtung durch, indem wir die auf LLMs basierenden Urteile mit denen von Radiologen vergleichen. Unsere Bewertung von 14 modernsten MLLMs zeigt, dass Modelle zwar vorläufige, aber instabile Wahrnehmungs- und Denkfähigkeiten aufweisen, deren Genauigkeit für eine zuverlässige klinische Anwendung jedoch nicht ausreicht. Diese Ergebnisse unterstreichen die Notwendigkeit einer gezielten Optimierung von MLLMs in der medizinischen IQA. Wir hoffen, dass MedQ-Bench weitere Explorationen anstoßen und das ungenutzte Potenzial von MLLMs für die Bewertung der medizinischen Bildqualität freisetzen wird.
Dual-Encoder-Retriever basieren auf dem Prinzip, dass relevante Dokumente für eine gegebene Anfrage höher bewertet werden sollten als irrelevante. Dennoch optimiert das vorherrschende Noise Contrastive Estimation (NCE)-Ziel, das dem Contrastive Loss zugrunde liegt, ein abgeschwächtes Ranking-Surrogat, das, wie wir rigoros beweisen, grundsätzlich unempfindlich gegenüber der Qualität der Bewertungstrennung ist und keinen Bezug zur AUC (Area under the ROC Curve) hat. Diese Diskrepanz führt zu einer schlechten Kalibrierung und suboptimaler Leistung bei nachgelagerten Aufgaben wie retrieval-augmentierter Generierung (RAG). Um diese grundlegende Einschränkung zu überwinden, führen wir den MW-Loss ein, ein neues Trainingsziel, das die Mann-Whitney-U-Statistik maximiert, die mathematisch äquivalent zur AUC ist. Der MW-Loss fördert die korrekte Rangfolge jedes positiven-negativen Paares, indem er die binäre Kreuzentropie über Bewertungsdifferenzen minimiert. Wir liefern theoretische Garantien, dass der MW-Loss die AoC (Area under the Curve) direkt nach oben begrenzt und somit die Optimierung besser mit den Zielen des Retrievals in Einklang bringt. Weiterhin befürworten wir ROC-Kurven und AUC als natürliche, schwellenwertfreie Diagnosewerkzeuge zur Bewertung der Kalibrierung und Ranking-Qualität von Retrievern. Empirisch übertreffen Retriever, die mit dem MW-Loss trainiert wurden, ihre auf Contrastive Loss basierenden Gegenstücke konsistent in Bezug auf AUC und standardmäßige Retrieval-Metriken. Unsere Experimente zeigen, dass der MW-Loss eine empirisch überlegene Alternative zum Contrastive Loss darstellt und besser kalibrierte sowie diskriminativere Retriever für anspruchsvolle Anwendungen wie RAG liefert.
Textanonymisierung ist entscheidend für die verantwortungsvolle Entwicklung und den Einsatz von KI in hochsensiblen Bereichen wie dem Gesundheitswesen, sozialen Diensten und dem Recht. In dieser Arbeit schlagen wir eine neuartige Methodik zur privatsphäreschützenden synthetischen Texterzeugung vor, die die Prinzipien der De-Identifikation und die Theorie des „Hiding In Plain Sight“ (HIPS) nutzt. Unser Ansatz führt entitätsbezogene Steuercodes ein, um eine kontrollierte Generierung entweder durch In-Context-Learning (ICL) oder durch Präfix-Tuning zu ermöglichen. Die ICL-Variante gewährleistet ein Datenschutzniveau, das mit dem zugrunde liegenden De-Identifikationssystem übereinstimmt, während die Präfix-Tuning-Variante eine benutzerdefinierte Maskierungsstrategie und Verlustfunktion integriert, um skalierbare und qualitativ hochwertige Generierung zu unterstützen. Experimente mit juristischen und klinischen Datensätzen zeigen, dass unsere Methode eine starke Balance zwischen Datenschutz und Nutzen erreicht und somit eine praktische und effektive Lösung für die synthetische Texterzeugung in sensiblen Bereichen bietet.
Die Integration von Large Language Models (LLMs) mit Internet-of-Things (IoT)-Systemen steht vor erheblichen Herausforderungen in Bezug auf Hardware-Heterogenität und Steuerungskomplexität. Das Model Context Protocol (MCP) erweist sich als entscheidender Enabler, das eine standardisierte Kommunikation zwischen LLMs und physischen Geräten ermöglicht. Wir stellen IoT-MCP vor, ein neuartiges Framework, das MCP über Edge-basierte Server implementiert, um LLMs und IoT-Ökosysteme zu verbinden. Um eine rigorose Evaluierung zu unterstützen, führen wir IoT-MCP Bench ein, den ersten Benchmark, der 114 einfache Aufgaben (z. B. „Wie hoch ist die aktuelle Temperatur?“) und 1.140 komplexe Aufgaben (z. B. „Mir ist so heiß, hast du irgendwelche Ideen?“) für IoT-fähige LLMs enthält. Die experimentelle Validierung über 22 Sensortypen und 6 Mikrocontroller-Einheiten zeigt, dass IoT-MCP eine 100%ige Erfolgsquote bei der Generierung von Tool-Aufrufen erreicht, die vollständig den Erwartungen entsprechen und vollkommen genaue Ergebnisse liefern, eine durchschnittliche Antwortzeit von 205 ms und einen maximalen Speicherbedarf von 74 KB. Diese Arbeit liefert sowohl ein Open-Source-Integrationsframework (https://github.com/Duke-CEI-Center/IoT-MCP-Servers) als auch eine standardisierte Evaluierungsmethodik für LLM-IoT-Systeme.
Während große Sprachmodelle (LLMs) an Größe zunehmen, stellt sich nicht nur die Frage, wie groß sie werden, sondern auch, wie viel ihrer Kapazität effektiv genutzt wird. Bisherige Skalierungsgesetze beziehen die Modellgröße auf den Verlust, übersehen jedoch, wie Komponenten ihren latenten Raum nutzen. Wir untersuchen Feed-Forward-Netzwerke (FFNs) und formulieren die Breitenauswahl als Problem der spektralen Nutzung. Mit einem leichtgewichtigen Diagnosetool – Hard Rank (Partizipationsverhältnis), Soft Rank (Shannon-Rang), Spektrale Konzentration und dem zusammengesetzten Spektralen Nutzungsindex (SUI) – quantifizieren wir, wie viele latente Richtungen in den Modellfamilien LLaMA, GPT-2 und nGPT sinnvoll aktiviert werden. Unsere zentrale Erkenntnis ist ein asymmetrisches spektrales Skalierungsgesetz: Der Soft Rank folgt einem nahezu perfekten Potenzgesetz in Bezug auf die FFN-Breite, während der Hard Rank nur sublinear und mit hoher Varianz wächst. Diese Asymmetrie deutet darauf hin, dass die Erweiterung von FFNs hauptsächlich Richtungen mit niedriger Energie hinzufügt, während die dominanten Modus-Unterräume früh gesättigt werden. Darüber hinaus kollabiert bei größeren Breiten die Varianz weiter in einen engen Unterraum, wodurch ein Großteil des latenten Raums ungenutzt bleibt. Diese Ergebnisse formulieren die FFN-Breitenauswahl als prinzipiellen Kompromiss zwischen Kapazität im Randbereich und Kapazität im dominanten Modus und bieten konkrete Leitlinien für inferenzeffizientes LLM-Design.
Composed Image Retrieval (CIR) zielt darauf ab, Zielbilder abzurufen, die den visuellen Inhalt eines Referenzbildes bewahren, während gleichzeitig benutzerspezifische textuelle Modifikationen integriert werden. Trainingsfreie Zero-Shot-CIR (ZS-CIR)-Ansätze, die keine aufgabenbezogenen Trainingsdaten oder annotierte Daten erfordern, sind äußerst wünschenswert, doch die präzise Erfassung der Benutzerintention bleibt eine Herausforderung. In diesem Artikel stellen wir SQUARE vor, ein neuartiges zweistufiges, trainingsfreies Framework, das Multimodale Large Language Models (MLLMs) nutzt, um ZS-CIR zu verbessern. In der Semantic Query-Augmented Fusion (SQAF)-Stufe bereichern wir die Abfrageeinbettung, die aus einem Vision-Language-Modell (VLM) wie CLIP abgeleitet wird, mit MLLM-generierten Beschreibungen des Zielbildes. Diese Beschreibungen bieten eine hochrangige semantische Führung, wodurch die Abfrage die Intention des Benutzers besser erfassen und die globale Retrieval-Qualität verbessern kann. In der Efficient Batch Reranking (EBR)-Stufe werden die bestplatzierten Kandidaten als Bildraster mit visuellen Markierungen dem MLLM präsentiert, das eine gemeinsame visuell-semantische Analyse über alle Kandidaten hinweg durchführt. Unsere Reranking-Strategie arbeitet in einem einzigen Durchgang und liefert genauere Rangfolgen. Experimente zeigen, dass SQUARE mit seiner Einfachheit und Effektivität eine starke Leistung auf vier standardmäßigen CIR-Benchmarks erzielt. Bemerkenswerterweise behält es auch mit leichtgewichtigen vortrainierten Modellen eine hohe Leistung bei, was sein potenzielles Anwendungspotenzial unterstreicht.
Aktuelle Denkmodelle lösen komplexe Aufgaben durch die Skalierung der Rechenleistung zur Testzeit, doch diese Skalierung muss in Abhängigkeit von der Aufgabenschwierigkeit erfolgen. Einerseits führt kurzes Denken (Unterdenken) zu Fehlern bei schwierigeren Problemen, die ausgedehnte Denkschritte erfordern; andererseits kann übermäßig langes Denken (Überdenken) token-ineffizient sein, da unnötige Schritte generiert werden, selbst nachdem eine korrekte Zwischenlösung erreicht wurde. Wir bezeichnen dies als Unteradaptivität, bei der das Modell nicht in der Lage ist, die Länge seiner Antwort angemessen an die unterschiedliche Schwierigkeit der Probleme anzupassen. Um die Unteradaptivität zu beheben und ein Gleichgewicht zwischen Unter- und Überdenken zu erreichen, schlagen wir TRAAC (Think Right with Adaptive, Attentive Compression) vor, eine Online-Nachtrainingsmethode mit Verstärkungslernen (RL), die die Selbstaufmerksamkeit des Modells über einen langen Denkpfad nutzt, um wichtige Schritte zu identifizieren und redundante zu entfernen. TRAAC schätzt zudem die Schwierigkeit und integriert sie in die Trainingsbelohnungen, wodurch es lernt, das Denkbudget entsprechend der Schwierigkeit der Beispiele zuzuteilen. Unser Ansatz verbessert die Genauigkeit, reduziert die Anzahl der Denkschritte und ermöglicht adaptives Denken im Vergleich zu Basismodellen und anderen RL-Baselines. Über eine Vielzahl von Aufgaben (AIME, AMC, GPQA-D, BBEH) erzielt TRAAC (Qwen3-4B) einen durchschnittlichen absoluten Genauigkeitsgewinn von 8,4 % bei einer relativen Reduktion der Denklänge von 36,8 % im Vergleich zum Basismodell sowie einen Genauigkeitsgewinn von 7,9 % bei einer Reduktion der Länge um 29,4 % im Vergleich zur besten RL-Baseline. TRAAC zeigt auch eine starke Generalisierungsfähigkeit: Obwohl unsere Modelle auf mathematischen Datensätzen trainiert wurden, zeigen sie Genauigkeits- und Effizienzgewinne bei außerhalb der Verteilung liegenden nicht-mathematischen Datensätzen wie GPQA-D, BBEH und OptimalThinkingBench. Unsere Analyse bestätigt weiterhin, dass TRAAC fein abgestimmte Anpassungen des Denkbudgets basierend auf der Schwierigkeit vornimmt und dass eine Kombination aus Schwierigkeitskalibrierung und aufmerksamkeitsbasierter Kompression Gewinne über diverse Aufgaben hinweg erzielt.
Das Entwerfen von Sequenzen, die mehrere, oft widersprüchliche Ziele erfüllen, ist eine zentrale Herausforderung in der therapeutischen und biomolekularen Technik. Bestehende generative Frameworks arbeiten weitgehend in kontinuierlichen Räumen mit Einzelzielvorgaben, während diskrete Ansätze keine Garantien für die Pareto-Optimalität bei mehreren Zielen bieten. Wir stellen AReUReDi (Annealed Rectified Updates for Refining Discrete Flows) vor, einen diskreten Optimierungsalgorithmus mit theoretischen Garantien für die Konvergenz zur Pareto-Front. Aufbauend auf Rectified Discrete Flows (ReDi) kombiniert AReUReDi Tchebycheff-Skalarisierung, lokal ausgewogene Vorschläge und temperierte Metropolis-Hastings-Updates, um die Stichprobenziehung in Richtung Pareto-optimaler Zustände zu lenken, während die Verteilungsinvarianz erhalten bleibt. Angewendet auf das Design von Peptid- und SMILES-Sequenzen optimiert AReUReDi gleichzeitig bis zu fünf therapeutische Eigenschaften (einschließlich Affinität, Löslichkeit, Hämolyse, Halbwertszeit und Anti-Fouling) und übertrifft sowohl evolutionäre als auch diffusionsbasierte Vergleichsverfahren. Diese Ergebnisse etablieren AReUReDi als ein leistungsstarkes, sequenzbasiertes Framework für die Erzeugung von Biomolekülen mit mehreren Eigenschaften.