Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Obwohl sich Diffusions-Sprachmodelle (DLMs) schnell weiterentwickeln, konvergieren viele aktuelle Modelle auf einen Satz gemeinsamer Komponenten. Diese Komponenten sind jedoch über ad-hoc Forschungs-Codebasen verteilt oder verfügen nicht über transparente Implementierungen, was ihre Reproduktion oder Erweiterung erschwert. Da das Feld an Geschwindigkeit gewinnt, besteht ein klarer Bedarf an einem einheitlichen Framework, das diese gemeinsamen Komponenten standardisiert, während es flexibel genug bleibt, um neue Methoden und Architekturen zu unterstützen. Um diese Lücke zu schließen, stellen wir dLLM vor, ein Open-Source-Framework, das die Kernkomponenten der Diffusion-Sprachmodellierung – Training, Inferenz und Evaluation – vereinheitlicht und ihre Anpassung für neue Designs erleichtert. Mit dLLM können Nutzer Open-Source-Großmodelle wie LLaDA und Dream über eine standardisierte Pipeline reproduzieren, feinabstimmen, bereitstellen und bewerten. Das Framework bietet zudem minimale, reproduzierbare Rezepte, um kleine DLMs von Grund auf mit zugänglicher Rechenleistung zu entwickeln, einschließlich der Konvertierung beliebiger BERT-artiger Encoder oder autoregressiver Sprachmodelle in ein DLM. Wir veröffentlichen auch die Checkpoints dieser kleinen DLMs, um DLMs zugänglicher zu machen und die zukünftige Forschung zu beschleunigen.
Die Optimierung von GPU-Kerneln ist grundlegend für modernes Deep Learning, bleibt jedoch eine hochspezialisierte Aufgabe, die tiefgehende Hardware-Expertise erfordert. Trotz starker Leistungen im allgemeinen Programmieren können große Sprachmodelle (LLMs) bei der CUDA-Kernel-Generierung nicht mit compilerbasierten Systemen wie torch.compile konkurrieren. Bestehende Ansätze zur CUDA-Code-Generierung setzen entweder auf trainierungsfreie Verfeinerung oder finetunen Modelle innerhalb festgelegter Mehr-Runden-Ausführungs-Feedback-Schleifen. Beide Paradigmen verbessern jedoch nicht grundlegend die intrinsische CUDA-Optimierungsfähigkeit des Modells, was zu begrenzten Leistungssteigerungen führt. Wir stellen CUDA Agent vor, ein groß angelegtes agentenbasiertes Verstärkungslernsystem, das CUDA-Kernel-Expertise durch drei Komponenten entwickelt: eine skalierbare Daten-Synthese-Pipeline, eine um Fähigkeiten erweiterte CUDA-Entwicklungsumgebung mit automatischer Verifikation und Profiling zur Bereitstellung zuverlässiger Belohnungssignale sowie Algorithmen des Verstärkungslernens, die stabiles Training ermöglichen. CUDA Agent erzielt state-of-the-art Ergebnisse auf KernelBench und erreicht auf den KernelBench Level-1-, Level-2- und Level-3-Teilbereichen eine um 100 %, 100 % bzw. 92 % höhere Geschwindigkeit als torch.compile. Im anspruchsvollsten Level-3-Setting übertrifft es die stärksten proprietären Modelle wie Claude Opus 4.5 und Gemini 3 Pro um etwa 40 %.
Jüngste Fortschritte in der Text-zu-Bild-Generierung haben die visuelle Qualität und Kreativität erheblich vorangetrieben, stellen jedoch auch höhere Anforderungen an die Komplexität der Eingabeaufforderungen – insbesondere bei der Kodierung komplexer räumlicher Beziehungen. In solchen Fällen sind oft mehrere Versuche mit unterschiedlichen Stichproben erforderlich, um zufriedenstellende Ergebnisse zu erzielen. Um diese Herausforderung zu bewältigen, stellen wir eine neuartige Methode vor, die das räumliche Verständnis aktueller Bildgenerierungsmodelle stärkt. Zuerst konstruieren wir den SpatialReward-Datensatz mit über 80.000 Präferenzpaaren. Aufbauend auf diesem Datensatz entwickeln wir SpatialScore, ein Bewertungsmodell, das darauf ausgelegt ist, die Genauigkeit räumlicher Beziehungen in der Text-zu-Bild-Generierung zu bewerten und dabei eine Leistung erzielt, die sogar führende proprietäre Modelle bei der räumlichen Bewertung übertrifft. Wir zeigen weiterhin, dass dieses Bewertungsmodell effektiv Online-Verstärkungslernen für die komplexe räumliche Generierung ermöglicht. Umfangreiche Experimente über mehrere Benchmarks hinweg zeigen, dass unser spezialisiertes Bewertungsmodell signifikante und konsistente Verbesserungen im räumlichen Verständnis für die Bildgenerierung bewirkt.
Die Zuverlässigkeit der Evaluierung mehrsprachiger Large Language Models (LLMs) wird derzeit durch die inkonsistente Qualität übersetzter Benchmarks beeinträchtigt. Bestehende Ressourcen leiden häufig unter semantischer Drift und Kontextverlust, was zu irreführenden Leistungskennzahlen führen kann. In dieser Arbeit stellen wir ein vollständig automatisiertes Framework vor, das diese Herausforderungen adressiert, indem es skalierbare, hochwertige Übersetzungen von Datensätzen und Benchmarks ermöglicht. Wir zeigen, dass die Anpassung von Skalierungsstrategien für Testzeit-Berechnungen, insbesondere Universal Self-Improvement (USI) und unsere vorgeschlagene Multi-Round-Ranking-Methode T-RANK, deutlich höherwertige Ergebnisse im Vergleich zu traditionellen Pipelines liefert. Unser Framework stellt sicher, dass Benchmarks ihre ursprüngliche Aufgabenstruktur und linguistischen Nuancen während der Lokalisierung bewahren. Wir wenden diesen Ansatz an, um populäre Benchmarks und Datensätze in acht osteuropäische und südeuropäische Sprachen zu übersetzen (Ukrainisch, Bulgarisch, Slowakisch, Rumänisch, Litauisch, Estnisch, Türkisch, Griechisch). Evaluationen mittels referenzbasierter Metriken und LLM-as-a-Judge zeigen, dass unsere Übersetzungen bestehende Ressourcen übertreffen und zu einer genaueren Bewertung nachgelagerter Modelle führen. Wir veröffentlichen sowohl das Framework als auch die verbesserten Benchmarks, um eine robuste und reproduzierbare mehrsprachige KI-Entwicklung zu fördern.
Die Skalierung der Videogenerierung von Sekunden auf Minuten stößt auf ein entscheidendes Hindernis: Während Daten für kurze Videos reichlich vorhanden und hochwertig sind, sind kohärente Langform-Daten knapp und auf enge Domänen beschränkt. Um dies zu lösen, schlagen wir ein Trainingsparadigma vor, bei dem Mode Seeking auf Mean Seeking trifft, um lokale Detailtreue von langfristiger Kohärenz auf Basis einer einheitlichen Repräsentation mittels eines Decoupled Diffusion Transformers zu entkoppeln. Unser Ansatz nutzt einen globalen Flow-Matching-Kopf, der durch überwachtes Lernen an langen Videos trainiert wird, um die narrative Struktur zu erfassen, während gleichzeitig ein lokaler Distribution-Matching-Kopf eingesetzt wird, der gleitende Fenster über eine modus-suchende reverse-KL-Divergenz an einen eingefrorenen Kurzvideo-Lehrer anpasst. Diese Strategie ermöglicht die Synthese von minutenlangen Videos, die langreichweitige Kohärenz und Bewegungen aus begrenzten Langvideos durch überwachtes Flow Matching erlernen, während sie lokale Realitätstreue erbt, indem jedes gleitende Fenstersegment des Schülers an einen eingefrorenen Kurzvideo-Lehrer angeglichen wird. Das Ergebnis ist ein schneller Langvideo-Generator mit wenigen Schritten. Evaluationen zeigen, dass unsere Methode die Fidelity-Horizon-Lücke effektiv schließt, indem sie gleichzeitig lokale Schärfe, Bewegung und langreichweitige Konsistenz verbessert. Projektwebsite: https://primecai.github.io/mmm/.
Spekulatives Decoding beschleunigt die autoregressive Inferenz großer Sprachmodelle (LLM), indem ein leichtgewichtiges Draft-Modell Kandidaten-Tokens vorschlägt, die dann parallel vom Zielmodell verifiziert werden. Die Beschleunigung wird maßgeblich von der Akzeptanzrate bestimmt, doch das Standardtraining minimiert die Kullback-Leibler-Divergenz (KL-Divergenz) als Stellvertreterziel. Obwohl KL-Divergenz und Akzeptanzrate das gleiche globale Optimum teilen, konvergieren kleine Draft-Modelle mit begrenzter Kapazität typischerweise zu suboptimalen Lösungen, bei denen die Minimierung der KL-Divergenz nicht die Maximierung der Akzeptanzrate garantiert. Um dieses Problem zu adressieren, schlagen wir LK-Losses vor, spezielle Trainingsziele, die direkt auf die Akzeptanzrate abzielen. Umfassende Experimente mit vier Draft-Architekturen und sechs Zielmodellen mit Parametern zwischen 8B und 685B zeigen durchweg Verbesserungen in den Akzeptanzmetriken über alle Konfigurationen hinweg im Vergleich zum standardmäßigen KL-basierten Training. Wir evaluieren unseren Ansatz in den Bereichen Allgemeinwissen, Programmierung und Mathematik und verzeichnen Steigerungen der durchschnittlichen Akzeptanzlänge von bis zu 8-10 %. LK-Losses sind einfach zu implementieren, verursachen keinen zusätzlichen Rechenaufwand und können direkt in jedes bestehende Framework für das Training von Draft-Modellen integriert werden, was sie zu einer überzeugenden Alternative zu den bestehenden Trainingszielen macht.
Wissenschaftliche Forschung ist auf präzise Zitiertechnik angewiesen, um Urheberschaft und Integrität zu gewährleisten. Große Sprachmodelle (LLMs) bergen jedoch ein neues Risiko: fabrizierte Referenzen, die plausibel erscheinen, aber mit keiner realen Publikation übereinstimmen. Solche halluzinierten Zitate wurden bereits in Einreichungen und akzeptierten Artikeln auf bedeutenden Konferenzen für maschinelles Lernen beobachtet und offenbaren Schwachstellen im Peer-Review-Verfahren. Gleichzeitig macht das rapide Wachstum von Literaturverzeichnissen manuelle Überprüfung unpraktikabel, und bestehende automatisierte Tools sind anfällig für verrauschte und heterogene Zitierformate und entbehren einer standardisierten Evaluation. Wir präsentieren den ersten umfassenden Benchmark und ein Detektionsframework für halluzinierte Zitate in wissenschaftlichen Texten. Unsere Multi-Agenten-Verifikationspipeline zerlegt die Zitatprüfung in Behauptungsextraktion, Evidenzrecherche, Textpassagenabgleich, logisches Schließen und kalibrierte Urteilsbildung, um zu bewerten, ob eine zitierte Quelle ihre Behauptung tatsächlich stützt. Wir konstruieren einen großangelegten, humanvalidierten Datensatz über verschiedene Domänen hinweg und definieren einheitliche Metriken für Zitat-Treue und Evidenzabstimmung. Experimente mit state-of-the-art LLMs zeigen erhebliche Zitierfehler auf und demonstrieren, dass unser Framework frühere Methoden sowohl in Genauigkeit als auch Interpretierbarkeit signifikant übertrifft. Diese Arbeit bietet die erste skalierbare Infrastruktur zur Zitatauditierung im Zeitalter der LLMs und praktische Werkzeuge zur Verbesserung der Vertrauenswürdigkeit wissenschaftlicher Referenzen.
Kompositionelle Generalisierung, die Fähigkeit, vertraute Bestandteile in neuartigen Kontexten zu erkennen, ist eine definierende Eigenschaft intelligenter Systeme. Obwohl moderne Modelle mit massiven Datensätzen trainiert werden, decken sie nur einen winzigen Bruchteil des kombinatorischen Raums möglicher Eingaben ab. Dies wirft die Frage auf, welche Struktur Repräsentationen haben müssen, um Generalisierung auf ungesehene Kombinationen zu unterstützen. Wir formalisieren drei Anforderungen für kompositionelle Generalisierung unter Standardtraining (Teilbarkeit, Übertragbarkeit, Stabilität) und zeigen, dass diese notwendige geometrische Einschränkungen auferlegen: Repräsentationen müssen sich linear in per-Konzept-Komponenten zerlegen lassen, und diese Komponenten müssen über Konzepte hinweg orthogonal zueinander sein. Dies liefert eine theoretische Grundlage für die Lineare Repräsentationshypothese: Die weitverbreitet beobachtete lineare Struktur in neuronalen Repräsentationen ist eine notwendige Konsequenz kompositioneller Generalisierung. Wir leiten weiterhin Dimensionsschranken ab, die die Anzahl der komponierbaren Konzepte mit der Einbettungsgeometrie verknüpfen. Empirisch evaluieren wir diese Vorhersagen an modernen Vision-Modellen (CLIP, SigLIP, DINO) und stellen fest, dass Repräsentationen eine partielle lineare Faktorisierung mit niedrigrangigen, nahezu orthogonalen Faktoren pro Konzept aufweisen und dass der Grad dieser Struktur mit der kompositionellen Generalisierung bei ungesehenen Kombinationen korreliert. Wenn Modelle weiter skaliert werden, sagen diese Bedingungen die repräsentationale Geometrie voraus, zu der sie konvergieren könnten. Code ist verfügbar unter https://github.com/oshapio/necessary-compositionality.
Bildmemorabilität, also wie wahrscheinlich ein Bild im Gedächtnis bleibt, wurde in der Computer Vision traditionell entweder als passive Vorhersageaufgabe untersucht, bei der Modelle einen skalaren Score regressieren, oder mit generativen Methoden, die den visuellen Input verändern, um die Wahrscheinlichkeit des Behaltens zu erhöhen. Keines dieser Paradigmen unterstützt jedoch Nutzer zum Aufnahmezeitpunkt, wenn die entscheidende Frage ist, wie die Memorabilität eines Fotos verbessert werden kann. Wir führen die Aufgabe des Memorability-Feedbacks (MemFeed) ein, bei der ein automatisiertes Modell handlungsorientierte, für Menschen interpretierbare Anleitungen liefern soll, mit dem Ziel, die spätere Erinnerung an ein Bild zu steigern. Wir stellen zudem MemCoach vor, den ersten Ansatz, der konkrete Verbesserungsvorschläge in natürlicher Sprache zur Steigerung der Memorabilität liefert (z.B. "Betonen Sie den Gesichtsausdruck", "Platzieren Sie das Motiv weiter vorne"). Unsere Methode, die auf Multimodalen Großsprachmodellen (MLLMs) basiert, kommt ohne Training aus und nutzt eine Teacher-Student-Steuerungsstrategie, bei der die internen Aktivierungen des Modells hin zu merkfähigeren Mustern ausgerichtet werden, die von einem Teacher-Modell gelernt wurden, das sich entlang einer Progression von weniger zu mehr memorablen Beispielen bewegt. Um eine systematische Evaluation dieser neuartigen Aufgabe zu ermöglichen, führen wir außerdem MemBench ein, einen neuen Benchmark mit sequenziell ausgerichteten Fotoserien und annotierten Memorabilitäts-Scores. Unsere Experimente, die mehrere MLLMs berücksichtigen, demonstrieren die Wirksamkeit von MemCoach und zeigen eine konsistent verbesserte Leistung gegenüber mehreren Zero-Shot-Modellen. Die Ergebnisse deuten darauf hin, dass Memorabilität nicht nur vorhergesagt, sondern auch vermittelt und angeleitet werden kann, was den Fokus von der bloßen Vorhersage auf handlungsorientiertes Feedback für menschliche Gestalter verschiebt.
Kontrastives Lernen hat sich zu einem Grundpfeiler des modernen Repräsentationslernens entwickelt, da es das Training mit massiven unmarkierten Daten sowohl für aufgabenspezifische als auch für allgemeine (Foundation-)Modelle ermöglicht. Ein prototypischer Loss im kontrastiven Training ist InfoNCE und seine Varianten. In dieser Arbeit zeigen wir, dass das InfoNCE-Ziel eine Gaußsche Struktur in den Repräsentationen induziert, die aus dem kontrastiven Training hervorgehen. Wir belegen dieses Ergebnis in zwei komplementären Regimen. Zunächst zeigen wir, dass unter bestimmten Annahmen zur Alignment und Konzentration die Projektionen der hochdimensionalen Repräsentation asymptotisch einer multivariaten Gaußverteilung zustreben. Darauf aufbauend zeigen wir unter weniger strengen Annahmen, dass das Hinzufügen eines kleinen, asymptotisch verschwindenden Regularisierungsterms, der eine niedrige Feature-Norm und hohe Feature-Entropie fördert, zu ähnlichen asymptotischen Ergebnissen führt. Wir untermauern unsere Analyse mit Experimenten auf synthetischen und CIFAR-10-Datensätzen über mehrere Encoder-Architekturen und -Größen hinweg, die konsistentes Gaußsches Verhalten demonstrieren. Diese Perspektive liefert eine prinzipielle Erklärung für die häufig beobachtete Gauß-Normalität in kontrastiven Repräsentationen. Das resultierende Gaußsche Modell ermöglicht eine prinzipielle analytische Behandlung der gelernten Repräsentationen und wird voraussichtlich eine breite Palette von Anwendungen im kontrastiven Lernen unterstützen.
Die Referenzausdrucksverständnis (Referring Expression Comprehension, REC) verknüpft Sprache mit der visuellen Wahrnehmung auf Regionenebene. Standard-Benchmarks (RefCOCO, RefCOCO+, RefCOCOg) haben sich mit multimodalen LLMs zwar rasch weiterentwickelt, stellen jedoch nach wie vor schwache Tests für visuelles Reasoning und Grounding dar: (i) viele Ausdrücke sind sehr kurz und erfordern kaum Reasoning; (ii) Bilder enthalten oft wenige Ablenkobjekte, was die Zielfindung vereinfacht; und (iii) redundante Deskriptoren ermöglichen Abkürzungslösungen, die echtes Textverständnis und visuelles Reasoning umgehen. Wir stellen Ref-Adv vor, einen modernen REC-Benchmark, der Abkürzungen unterdrückt, indem er sprachlich anspruchsvolle Ausdrücke nur mit den zur eindeutigen Identifikation des Ziels notwendigen Informationen kombiniert. Der Datensatz enthält Referenzausdrücke für reale Bilder, die mit schwierigen Ablenkobjekten kuratiert und mit Reasoning-Aspekten wie Negation annotiert sind. Wir führen umfassende Ablationstudien (Wortstellungsvariationen und Deskriptor-Entfernungs-Tests) durch, um zu zeigen, dass das Lösen von Ref-Adv Reasoning über einfache Hinweise hinaus erfordert, und evaluieren eine breite Palette moderner multimodaler LLMs auf Ref-Adv. Trotz starker Ergebnisse auf RefCOCO, RefCOCO+ und RefCOCOg fallen die Modelle auf Ref-Adv deutlich ab, was ihre Abhängigkeit von Abkürzungen und Lücken im visuellen Reasoning und Grounding offenbart. Wir liefern eine detaillierte Fehleranalyse und möchten mit Ref-Adv zukünftige Arbeiten zu visuellem Reasoning und Grounding in MLLMs leiten.
Diese Arbeit befasst sich mit der kritischen und bislang wenig erforschten Herausforderung des Verständnisses langer Videos mit geringem Rechenaufwand. Wir stellen LongVideo-R1 vor, einen aktiven, mit Reasoning-Fähigkeiten ausgestatteten multimodalen Large Language Model (MLLM)-Agenten, der für eine effiziente Navigation im Videokontext entwickelt wurde und die Redundanz einer exhaustiven Suche vermeidet. Im Kern von LongVideo-R1 liegt ein Reasoning-Modul, das hochlevelige visuelle Hinweise nutzt, um den informativsten Videoclip für die weitere Verarbeitung abzuleiten. Während der Inferenz initiiert der Agent den Durchlauf von Top-Level-Visualisierungszusammenfassungen und verfeinert seinen Fokus iterativ, wobei der Erkundungsprozess sofort angehalten wird, sobald ausreichend Wissen zur Beantwortung der Anfrage erlangt wurde. Um das Training zu ermöglichen, extrahieren wir zunächst hierarchische Videobeschriftungen aus CGBench, einem Videokorpus mit Grounding-Annotationen, und lenken GPT-5 an, 33.000 hochwertige Chain-of-Thought-with-Tool-Trajektorien zu generieren. Der LongVideo-R1-Agent wird auf dem Qwen-3-8B-Modell durch ein zweistufiges Paradigma feinabgestimmt: überwachtes Feintuning (SFT), gefolgt von bestärkendem Lernen (RL), wobei RL eine speziell entwickelte Belohnungsfunktion einsetzt, um eine selektive und effiziente Clip-Navigation zu maximieren. Experimente auf mehreren Benchmarks für lange Videos validieren die Wirksamkeit des Ansatzes, der eine überlegene Balance zwischen QA-Genauigkeit und Effizienz erreicht. Alle aufbereiteten Daten und der Quellcode sind im ergänzenden Material enthalten und werden öffentlich zugänglich gemacht. Code und Daten sind verfügbar unter: https://github.com/qiujihao19/LongVideo-R1
Masked Image Generation Models (MIGMs) haben große Erfolge erzielt, doch ihre Effizienz wird durch die mehrstufige bidirektionale Aufmerksamkeit beeinträchtigt. Tatsächlich besteht eine bemerkenswerte Redundanz in ihrer Berechnung: Beim Abtasten diskreter Token gehen die reichhaltigen Semantiken, die in den kontinuierlichen Merkmalen enthalten sind, verloren. Einige bestehende Arbeiten versuchen, die Merkmale zwischenzuspeichern, um zukünftige Merkmale anzunähern. Allerdings weisen sie unter aggressiven Beschleunigungsraten beträchtliche Approximationsfehler auf. Wir führen dies auf ihre begrenzte Ausdrucksfähigkeit und das Versäumnis zurück, Abtastinformationen zu berücksichtigen. Um diese Lücke zu schließen, schlagen wir vor, ein leichtgewichtiges Modell zu lernen, das sowohl vorherige Merkmale als auch abgetastete Token einbezieht und das durchschnittliche Geschwindigkeitsfeld der Merkmalsentwicklung regressiert. Das Modell hat eine moderate Komplexität, die ausreicht, um die subtile Dynamik zu erfassen, während es im Vergleich zum ursprünglichen Basismodell leichtgewichtig bleibt. Wir wenden unsere Methode, MIGM-Shortcut, auf zwei repräsentative MIGM-Architekturen und Aufgaben an. Insbesondere beim state-of-the-art Modell Lumina-DiMOO erreicht es eine über 4-fache Beschleunigung der Text-zu-Bild-Generierung bei gleichbleibender Qualität und verschiebt damit die Pareto-Front der maskierten Bildgenerierung erheblich. Der Code und die Modellgewichte sind unter https://github.com/Kaiwen-Zhu/MIGM-Shortcut verfügbar.
Diffusionsmodelle erreichen die beste Qualität bei der Videogenerierung, doch ihr Inferenzprozess bleibt aufgrund der großen Anzahl sequenzieller Denoising-Schritte rechenintensiv. Dies hat eine wachsende Forschungsrichtung zur Beschleunigung der Diffusion-Inferenz motiviert. Unter den trainierungsfreien Beschleunigungsmethoden reduziert Caching den Rechenaufwand, indem zuvor berechnete Modellausgaben über Zeitschritte hinweg wiederverwendet werden. Bisherige Caching-Methoden basieren auf heuristischen Kriterien zur Auswahl von Cache-/Wiederverwendungs-Zeitschritten und erfordern umfangreiche Anpassungen. Wir beheben diese Einschränkung durch ein prinzipienbasiertes, sensibilitätsbewusstes Caching-Framework. Konkret formalisieren wir den Caching-Fehler durch eine Analyse der Sensitivität der Modellausgabe gegenüber Störungen in den Denoising-Eingaben – d.h. dem verrauschten Latent-Zustand und dem Zeitschritt – und zeigen, dass diese Sensitivität ein entscheidender Indikator für den Caching-Fehler ist. Basierend auf dieser Analyse schlagen wir Sensitivity-Aware Caching (SenCache) vor, eine dynamische Caching-Strategie, die pro Sample adaptiv Caching-Zeitschritte auswählt. Unser Framework bietet eine theoretische Grundlage für adaptives Caching, erklärt, warum frühere empirische Heuristiken teilweise effektiv sein können, und erweitert diese zu einem dynamischen, samplespezifischen Ansatz. Experimente mit Wan 2.1, CogVideoX und LTX-Video zeigen, dass SenCache bei ähnlichem Rechenbudget eine bessere visuelle Qualität als bestehende Caching-Methoden erzielt.
Transformer haben sich als de-facto Grundbausteine für die meisten jüngsten Fortschritte im Bereich der Sequenzmodellierung etabliert, hauptsächlich aufgrund ihrer wachsenden Speicherkapazität, die mit der Kontextlänge skaliert. Obwohl dies für Retrieval-Aufgaben plausibel ist, führt es zu quadratischer Komplexität und hat daher neuere Studien motiviert, praktikable subquadratische rekurrente Alternativen zu erforschen. Trotz vielversprechender vorläufiger Ergebnisse in verschiedenen Domänen, schneiden solche rekurrenten Architekturen bei recall-intensiven Aufgaben schlechter ab als Transformer, was oft auf ihren Speicher mit fester Größe zurückgeführt wird. In dieser Arbeit stellen wir Memory Caching (MC) vor, eine einfache, aber effektive Technik, die rekurrente Modelle verbessert, indem Checkpoints ihrer Speicherzustände (auch bekannt als versteckte Zustände) zwischengespeichert werden. Memory Caching ermöglicht es, dass die effektive Speicherkapazität von RNNs mit der Sequenzlänge wächst, und bietet einen flexiblen Kompromiss, der zwischen dem festen Speicher (d.h. O(L)-Komplexität) von RNNs und dem wachsenden Speicher (d.h. O(L²)-Komplexität) von Transformern interpoliert. Wir schlagen vier Varianten von MC vor, einschließlich gegatterter Aggregation und sparsamer selektiver Mechanismen, und diskutieren ihre Auswirkungen sowohl auf lineare als auch auf tiefe Speichermodule. Unsere experimentellen Ergebnisse zu Sprachmodellierung und Aufgaben zum Verständnis langer Kontexte zeigen, dass MC die Leistung rekurrenter Modelle verbessert und seine Wirksamkeit bestätigt. Die Ergebnisse von In-Context-Recall-Aufgaben deuten darauf hin, dass während Transformer die beste Genauigkeit erreichen, unsere MC-Varianten eine wettbewerbsfähige Leistung zeigen, die Lücke zu Transformern verkleinern und besser abschneiden als state-of-the-art rekurrente Modelle.
Große Sprachmodelle (LLMs) konvergieren zunehmend zu einem singulären künstlichen Schwarmbewusstsein, bei dem gemeinsame Natur (A-priori-Annahmen aus dem Vortraining) zu einem tiefgreifenden Kollaps der Verteilungsvielfalt führen und damit die distincten Perspektiven einschränken, die für kreative Exploration und wissenschaftliche Entdeckung notwendig sind. Um dies zu adressieren, schlagen wir vor, Modelle mit Inferenzzeit-basierter Nurture (individualisierten epistemischen Trajektorien) mittels des Paradigmas der Epistemischen Evolution auszustatten, die Phasen der Exploration, Internalisierung und Expression durchläuft. Wir instanziieren dies durch PRISM (Pluralistisches Schließen durch In-context-Strukturmodellierung), ein modellagnostisches System, das LLMs mit dynamischen On-the-fly-Epistemischen Graphen erweitert. Auf drei Kreativitäts-Benchmarks erzielt PRISM state-of-the-art Neuheitswerte und erweitert die Verteilungsvielfalt signifikant. Darüber hinaus evaluieren wir den praktischen Nutzen anhand eines anspruchsvollen Benchmarks zur Diagnose seltener Krankheiten. Die Ergebnisse zeigen, dass PRISM erfolgreich korrekte Diagnosen aus dem Long-Tail identifiziert, die Standard-LLMs übersehen, was bestätigt, dass seine Divergenz von bedeutungsvoller Exploration und nicht von inkohärentem Rauschen herrührt. Insgesamt etabliert diese Arbeit ein neues Paradigma für Pluralistische KI, das sich über einen monolithischen Konsens hinaus hin zu einem diversen Ökosystem einzigartiger kognitiver Individuen bewegt, die zu kollektiver, multiperspektivischer Entdeckung befähigt sind.
Generatives Retrieval hat sich als leistungsstarkes Paradigma für LLM-basierte Empfehlungssysteme etabliert. Industrielle Empfehlungssysteme profitieren jedoch oft davon, den Ausgaberaum auf eine eingeschränkte Teilmenge von Elementen basierend auf Geschäftslogik zu beschränken (z.B. zur Durchsetzung von Inhaltsaktualität oder Produktkategorien), was standardmäßiges autoregressives Decodieren von Haus aus nicht unterstützt. Darüber hinaus verursachen bestehende Methoden für eingeschränktes Decodieren, die Präfixbäume (Tries) verwenden, erhebliche Latenznachteile auf Hardwarebeschleunigern (TPUs/GPUs). In dieser Arbeit stellen wir STATIC (Sparse Transition Matrix-Accelerated Trie Index for Constrained Decoding) vor, eine effiziente und skalierbare Technik für eingeschränktes Decodieren, die speziell für hochdurchsatzfähiges, LLM-basiertes generatives Retrieval auf TPUs/GPUs entwickelt wurde. Indem wir den Präfixbaum in eine statische, komprimierte Sparse-Row-Matrix (CSR) abflachen, verwandeln wir unregelmäßige Baumdurchläufe in vollständig vektorisierte Sparse-Matrix-Operationen und erzielen damit massive Effizienzgewinne auf Hardwarebeschleunigern. Wir setzen STATIC auf einer groß angelegten industriellen Video-Empfehlungsplattform ein, die Milliarden von Nutzern bedient. STATIC erzielt signifikante Auswirkungen auf Produktmetriken mit minimalem Latenzoverhead (0,033 ms pro Schritt und 0,25 % der Inferenzzeit), erreicht eine 948-fache Beschleunigung gegenüber einer CPU-Trie-Implementierung und eine 47- bis 1033-fache Beschleunigung gegenüber einer hardwarebeschleunigten Binary-Search-Baseline. Darüber hinaus bleibt der Laufzeitoverhead von STATIC über eine breite Palette praktischer Konfigurationen extrem niedrig. Nach unserem besten Wissen ermöglicht STATIC den ersten produktionsreifen Einsatz von streng eingeschränktem generativem Retrieval. Zusätzlich zeigt die Auswertung akademischer Benchmarks, dass STATIC die Cold-Start-Leistung für generatives Retrieval erheblich verbessern kann. Unser Code ist verfügbar unter https://github.com/youtube/static-constraint-decoding.
Vision-Language-Modelle (VLMs) haben bemerkenswerte multimodale Verständnis- und Reasoning-Fähigkeiten erreicht, bleiben jedoch aufgrund dichter visueller Tokenisierung rechenintensiv. Bestehende Effizienzansätze fusionieren entweder redundante visuelle Tokens oder verwerfen sie schrittweise im Sprach-Backbone, was oft Genauigkeit gegen Geschwindigkeit eintauscht. In dieser Arbeit schlagen wir DUET-VLM vor, ein vielseitiges Plug-and-Play-Dualkompressionsframework, das aus (a) einer rein visuellen, redundanzbewussten Kompression der Ausgabe des Vision-Encoders in erhaltende Tokens besteht, gefolgt von (b) einem schichtweisen, salienten textgeführten Verwerfen visueller Tokens innerhalb des Sprach-Backbones, um weniger informative Tokens progressiv zu beschneiden. Dieses koordinierte Token-Management ermöglicht eine aggressive Kompression bei Beibehaltung kritischer Semantik. Bei LLaVA-1.5-7B bewahrt unser Ansatz über 99 % der Baseline-Genauigkeit mit 67 % weniger Tokens und behält selbst bei 89 % Reduktion >97 %. Mit dieser zweistufigen Kompression während des Trainings erreicht es 99,7 % Genauigkeit bei 67 % und 97,6 % bei 89 % Reduktion und übertrifft damit bisherige State-of-the-Art-Methoden zur visuellen Token-Reduktion in mehreren Benchmarks. Bei Integration in Video-LLaVA-7B übertrifft es sogar die Baseline – es erreicht >100 % Genauigkeit bei einer deutlichen Reduktion um 53,1 % und behält 97,6 % Genauigkeit unter einer extremen Reduktion von 93,4 %. Diese Ergebnisse unterstreichen das End-to-End-Training mit DUET-VLM, das eine robuste Anpassung an reduzierte visuelle (Bild-/Video-)Eingaben ohne Genauigkeitsverlust ermöglicht und kompakte, aber semantisch reiche Repräsentationen innerhalb desselben Rechenbudgets erzeugt. Unser Code ist verfügbar unter https://github.com/AMD-AGI/DUET-VLM.
Im Bereich der instruktionsbasierter Bildbearbeitungsmodelle (IIEMs) wurden bedeutende Fortschritte erzielt. Allerdings ist die Fähigkeit dieser Modelle, kleine Objekte zu bearbeiten, trotz ihrer Bedeutung für präzise lokale Bearbeitungen und die Verfeinerung von Details in realen und generierten Bildern bisher wenig erforscht, obwohl sie auf aktuellen Benchmarks eine plausible Befolgung von Anweisungen und starke Reasoning-Fähigkeiten demonstrieren. In diesem Artikel stellen wir DeepLookEditBench (DLEBench) vor, den ersten Benchmark, der speziell zur Bewertung der Fähigkeiten von IIEMs bei der Bearbeitung kleinformatiger Objekte entwickelt wurde. Konkret konstruieren wir eine anspruchsvolle Testumgebung, die 1889 Stichproben über sieben Anweisungstypen hinweg umfasst. In diesen Stichproben nehmen die Zielobjekte nur 1 % bis 10 % der Bildfläche ein und decken komplexe Szenarien wie partielle Verdeckung und Mehrfachobjekt-Bearbeitung ab. Um eine robuste Auswertung auf diesem Benchmark zu gewährleisten, schlagen wir ein Evaluationsprotokoll mit verfeinerten Bewertungsrastern vor, um Subjektivität und Unklarheiten bei zwei Kriterien zu minimieren: Anweisungsbefolgung und visuelle Konsistenz. Dieses Protokoll führt zudem einen dualen Evaluationsrahmen (werkzeuggestützter und oracle-gestützter Modus) ein, der die Diskrepanz zwischen LMM-als-Bewerter und menschlichen Urteilen auf DLEBench adressiert. Empirische Ergebnisse von 10 IIEMs zeigen erhebliche Leistungsunterschiede bei der Bearbeitung kleinformatiger Objekte auf und unterstreichen die Notwendigkeit spezialisierter Benchmarks, um diese Fähigkeit voranzutreiben.
Kontext-Engineering hat sich als zentrales Paradigma etabliert, um das Potenzial von Large Language Models (LLMs) für Aufgaben der Softwareentwicklung (Software Engineering, SE) zu erschließen und Leistungssteigerungen zur Testzeit ohne Feinabstimmung der Modelle zu ermöglichen. Trotz dieser Erfolge fehlt es in der bestehenden Forschung an einer systematischen Taxonomie SE-spezifischer Kontexttypen und einem dedizierten Benchmark, um die heterogenen Effekte verschiedener Kontexte in zentralen SE-Workflows zu quantifizieren. Um diese Lücke zu schließen, schlagen wir CL4SE (Context Learning for Software Engineering) vor, einen umfassenden Benchmark mit einer feingranularen Taxonomie von vier SE-orientierten Kontexttypen (interpretierbare Beispiele, projektspezifischer Kontext, prozeduraler Entscheidungsfindungskontext sowie positiver und negativer Kontext), die jeweils einer repräsentativen Aufgabe zugeordnet sind (Code-Generierung, Code-Zusammenfassung, Code-Review und Bewertung der Patch-Korrektheit). Wir erstellen hochwertige Datensätze mit über 13.000 Beispielen aus mehr als 30 Open-Source-Projekten und evaluieren fünf verbreitete LLMs anhand von neun Metriken. Umfangreiche Experimente zeigen, dass Context Learning durchschnittlich zu einer Leistungssteigerung von 24,7 % über alle Aufgaben hinweg führt. Konkret steigert prozeduraler Kontext die Leistung beim Code-Review um bis zu 33 % (Qwen3-Max), gemischter positiver-negativer Kontext verbessert die Patch-Bewertung um 30 % (DeepSeek-V3), projektspezifischer Kontext erhöht den BLEU-Wert für Code-Zusammenfassung um 14,78 % (GPT-Oss-120B), und interpretierbare Beispiele steigern PASS@1 für die Code-Generierung um 5,72 % (DeepSeek-V3). CL4SE etabliert den ersten standardisierten Evaluierungsrahmen für SE-Kontextlernen, liefert handlungsorientierte empirische Einblicke in die aufgabenspezifische Kontextgestaltung und stellt einen großvolumigen Datensatz zur Förderung reproduzierbarer Forschung in diesem Bereich bereit.
Verstärkendes Lernen (RL) nach dem Training hat kürzlich bedeutende Fortschritte bei Large Language Models (LLMs) mit langen Denkketten erzielt, doch die hohen Inferenzkosten solcher Modelle motivieren die Distillation in kleinere Studentenmodelle. Die meisten bestehenden Wissensdistillationsmethoden (KD) sind für überwachtes Feinjustieren (SFT) konzipiert und stützen sich auf feste Lehrer-Traces oder auf Kullback-Leibler (KL)-Divergenz basierende Regularisierung zwischen Lehrer und Student. In Kombination mit RL leiden diese Ansätze oft unter Verteilungsinkongruenz und Zielkonflikt: Die Lehrer-Aufsicht stimmt möglicherweise nicht mit der sich entwickelnden Rollout-Verteilung des Studenten überein, und der KL-Regularisierer kann mit der Belohnungsmaximierung konkurrieren und erfordert eine sorgfältige Loss-Balance. Um diese Probleme zu adressieren, schlagen wir RL-bewusste Distillation (RLAD) vor, die selektive Imitation während des RL durchführt – sie lenkt den Studenten nur dann in Richtung des Lehrers, wenn dies die aktuelle Policy-Aktualisierung verbessert. Unsere Kernkomponente, Trust Region Ratio Distillation (TRRD), ersetzt den KL-Regularisierer zwischen Lehrer und Student durch ein PPO/GRPO-artiges Likelihood-Ratio-Ziel, das an einer Mischung aus Lehrer- und alter Policy verankert ist. Dies ermöglicht vorteilsbewusste, durch eine Trust Region begrenzte Distillation auf Studenten-Rollouts und balanciert Exploration, Exploitation und Imitation natürlich aus. Über diverse Logik- und Mathematik-Benchmarks hinweg übertrifft RLAD konsistent Offline-Distillation, Standard-GRPO und auf KL basierende On-Policy-Lehrer-Studenten-Wissensdistillation.
Während moderne große Sprachmodelle (LLMs) zunehmend leistungsfähig in Isolation sind, gibt es noch viele schwierige Probleme, die jenseits der Fähigkeiten eines einzelnen LLMs liegen. Für solche Aufgaben besteht weiterhin Ungewissheit darüber, wie man mehrere LLMs am besten als Teile auffasst und zu einem größeren Ganzen kombiniert. Dieses Positionspapier argumentiert, dass potielle Blaupausen für den Entwurf solcher modularer Sprachagenten in der bestehenden Literatur zu kognitiven Modellen und Algorithmen der künstlichen Intelligenz (KI) zu finden sind. Um diesen Punkt zu verdeutlichen, formalisieren wir die Idee einer Agentenvorlage, die Rollen für einzelne LLMs festlegt und beschreibt, wie ihre Funktionalitäten zusammengesetzt werden sollten. Anschließend untersuchen wir eine Vielzahl bestehender Sprachagenten in der Literatur und heben ihre zugrundeliegenden Vorlagen hervor, die direkt von kognitiven Modellen oder KI-Algorithmen abgeleitet sind. Indem wir diese Entwürfe hervorheben, möchten wir die Aufmerksamkeit auf Agentenvorlagen lenken, die von der Kognitionswissenschaft und KI inspiriert sind, als wirksames Werkzeug zur Entwicklung effektiver, interpretierbarer Sprachagenten.