papers.description
Wir präsentieren Qwen-Image, ein Bildgenerierungs-Grundmodell der Qwen-Serie, das bedeutende Fortschritte in der komplexen Textdarstellung und präzisen Bildbearbeitung erzielt. Um die Herausforderungen der komplexen Textdarstellung zu bewältigen, entwickeln wir einen umfassenden Datenpipeline, der groß angelegte Datensammlung, Filterung, Annotation, Synthese und Ausbalancierung umfasst. Darüber hinaus verwenden wir eine progressive Trainingsstrategie, die mit nicht-textbasierter Textdarstellung beginnt, sich von einfachen zu komplexen textuellen Eingaben entwickelt und schrittweise auf Absatzbeschreibungen hochskaliert. Dieser Curriculum-Learning-Ansatz verbessert die native Textdarstellungsfähigkeit des Modells erheblich. Infolgedessen zeigt Qwen-Image nicht nur eine außergewöhnliche Leistung bei alphabetischen Sprachen wie Englisch, sondern erzielt auch bemerkenswerte Fortschritte bei anspruchsvolleren logografischen Sprachen wie Chinesisch. Um die Konsistenz der Bildbearbeitung zu verbessern, führen wir ein verbessertes Multi-Task-Trainingsparadigma ein, das nicht nur traditionelle Text-zu-Bild (T2I) und Text-Bild-zu-Bild (TI2I) Aufgaben, sondern auch Bild-zu-Bild (I2I) Rekonstruktion umfasst und effektiv die latenten Repräsentationen zwischen Qwen2.5-VL und MMDiT ausrichtet. Darüber hinaus speisen wir das Originalbild separat in Qwen2.5-VL und den VAE-Encoder ein, um semantische und rekonstruktive Repräsentationen zu erhalten. Dieser Dual-Encoding-Mechanismus ermöglicht es dem Bearbeitungsmodul, ein Gleichgewicht zwischen der Bewahrung semantischer Konsistenz und der Wahrung visueller Treue zu finden. Qwen-Image erreicht state-of-the-art Leistungen und demonstriert seine starken Fähigkeiten in der Bildgenerierung und -bearbeitung über mehrere Benchmarks hinweg.
Die retrieval-augmentierte Generierung (RAG) über lange Dokumente beinhaltet typischerweise die Aufteilung des Textes in kleinere Abschnitte, die als Basiseinheiten für den Abruf dienen. Aufgrund von Abhängigkeiten innerhalb des ursprünglichen Dokuments ist jedoch häufig kontextuelle Information entscheidend, um jeden Abschnitt genau zu interpretieren. Um dies zu adressieren, haben frühere Arbeiten die Kodierung längerer Kontextfenster untersucht, um Einbettungen für längere Abschnitte zu erzeugen. Trotz dieser Bemühungen bleiben die Verbesserungen beim Abruf und in nachgelagerten Aufgaben begrenzt. Dies liegt daran, dass (1) längere Abschnitte die Kapazität von Einbettungsmodellen aufgrund der erhöhten Informationsmenge, die sie kodieren müssen, überfordern, und (2) viele reale Anwendungen aufgrund von Einschränkungen in der Modell- oder menschlichen Bandbreite weiterhin lokalisiertes Beweismaterial erfordern. Wir schlagen einen alternativen Ansatz zur Bewältigung dieser Herausforderung vor, indem wir kurze Abschnitte auf eine Weise darstellen, die auf einem breiteren Kontextfenster basiert, um die Abrufleistung zu verbessern – d.h., die Bedeutung eines Abschnitts innerhalb seines Kontexts zu verorten. Wir zeigen weiterhin, dass bestehende Einbettungsmodelle nicht gut geeignet sind, einen solchen verorteten Kontext effektiv zu kodieren, und führen daher ein neues Trainingsparadigma ein und entwickeln die verorteten Einbettungsmodelle (SitEmb). Um unsere Methode zu evaluieren, haben wir einen Buchplot-Abrufdatensatz erstellt, der speziell darauf ausgelegt ist, die Fähigkeiten zum verorteten Abruf zu bewerten. Auf diesem Benchmark übertrifft unser SitEmb-v1-Modell, basierend auf BGE-M3, deutlich state-of-the-art Einbettungsmodelle, einschließlich mehrerer Modelle mit bis zu 7-8B Parametern, mit nur 1B Parametern. Unser 8B SitEmb-v1.5-Modell verbessert die Leistung weiter um über 10 % und zeigt starke Ergebnisse über verschiedene Sprachen und mehrere nachgelagerte Anwendungen hinweg.
Die Modellierung virtueller Zellen stellt eine aufstrebende Grenzdisziplin an der Schnittstelle von künstlicher Intelligenz und Biologie dar, die darauf abzielt, Größen wie Reaktionen auf verschiedene Störungen quantitativ vorherzusagen. Die autonome Erstellung von Computermodellen für virtuelle Zellen ist jedoch aufgrund der Komplexität biologischer Systeme, der Heterogenität der Datenmodalitäten und der Notwendigkeit domänenspezifischer Expertise über mehrere Disziplinen hinweg eine Herausforderung. Hier stellen wir CellForge vor, ein agentenbasiertes System, das einen Multi-Agenten-Rahmen nutzt, um präsentierte biologische Datensätze und Forschungsziele direkt in optimierte Computermodelle für virtuelle Zellen umzuwandeln. Genauer gesagt gibt CellForge, wenn nur Rohdaten aus Einzelzell-Multi-Omics und Aufgabenbeschreibungen als Eingabe vorliegen, sowohl eine optimierte Modellarchitektur als auch ausführbaren Code für das Training von Modellen virtueller Zellen und die Inferenz aus. Das Framework integriert drei Kernmodule: Aufgabenanalyse zur Charakterisierung des präsentierten Datensatzes und zur Recherche relevanter Literatur, Methodendesign, bei dem spezialisierte Agenten gemeinsam optimierte Modellierungsstrategien entwickeln, und Experimentdurchführung für die automatische Generierung von Code. Die Agenten im Design-Modul sind in Experten mit unterschiedlichen Perspektiven und einen zentralen Moderator unterteilt und müssen gemeinsam Lösungen austauschen, bis sie einen vernünftigen Konsens erreichen. Wir demonstrieren die Fähigkeiten von CellForge in der Vorhersage von Einzelzellstörungen unter Verwendung von sechs verschiedenen Datensätzen, die Gen-Knockouts, Medikamentenbehandlungen und Zytokinstimulationen über mehrere Modalitäten hinweg umfassen. CellForge übertrifft durchweg aufgabenbezogene State-of-the-Art-Methoden. Insgesamt zeigt CellForge, wie iterative Interaktionen zwischen LLM-Agenten mit unterschiedlichen Perspektiven bessere Lösungen bieten als die direkte Bewältigung einer Modellierungsherausforderung. Unser Code ist öffentlich verfügbar unter https://github.com/gersteinlab/CellForge.
Vernunftmodelle zeichnen sich in der Lösung komplexer Probleme aus, zeigen jedoch einen besorgniserregenden Kompromiss zwischen ihren Fähigkeiten zur logischen Schlussfolgerung und der Befolgung von Anweisungen. Bestehende Ansätze zur Verbesserung der Anweisungsbefolgung stützen sich auf stärkere externe Modelle, was methodische Engpässe und praktische Einschränkungen wie erhöhte Kosten und Zugänglichkeitsprobleme mit sich bringt. Wir schlagen ein selbstüberwachtes RL-Framework (Reinforcement Learning) vor, das die internen Signale der Vernunftmodelle nutzt, um die Fähigkeit zur Anweisungsbefolgung ohne externe Überwachung zu verbessern. Umfangreiche Experimente zeigen, dass unser Framework die Fähigkeit zur Anweisungsbefolgung signifikant steigert, während die logische Schlussfolgerungsleistung erhalten bleibt. Dies bietet einen skalierbaren und kosteneffizienten Ansatz zur Verbesserung der Anweisungsbefolgung in Vernunftmodellen. Die Daten und der Code sind öffentlich unter https://github.com/Rainier-rq/verl-if verfügbar.
Große Sprachmodelle (LLMs) haben in vielen Bereichen bemerkenswerte Erfolge gezeigt, doch ihre Integration in Cybersicherheitsanwendungen bleibt aufgrund des Mangels an allgemeinen Cybersicherheitsdaten, der repräsentativen Komplexität sowie Sicherheits- und regulatorischen Bedenken begrenzt. Um diese Lücke zu schließen, haben wir zuvor Foundation-Sec-8B eingeführt, ein auf Cybersicherheit spezialisiertes LLM, das für das Feinabstimmen auf nachgelagerte Aufgaben geeignet ist. Dieses Modell war jedoch nicht für Chat-artige Interaktionen oder das Befolgen von Anweisungen konzipiert. In diesem Bericht stellen wir Foundation-Sec-8B-Instruct vor: ein Modell, das speziell für allgemeine Cybersicherheitsdialoge trainiert wurde. Basierend auf Foundation-Sec-8B kombiniert es domänenspezifisches Wissen mit der Fähigkeit, Anweisungen zu befolgen, Konversationsfähigkeiten und der Ausrichtung an menschlichen Präferenzen, um hochwertige, relevante Antworten zu generieren. Umfassende Evaluierungen zeigen, dass Foundation-Sec-8B-Instruct Llama 3.1-8B-Instruct bei einer Reihe von Cybersicherheitsaufgaben übertrifft, während es dessen Leistung beim Befolgen von Anweisungen erreicht. Es ist auch mit GPT-4o-mini bei Aufgaben der Cyber-Bedrohungsintelligenz und dem Befolgen von Anweisungen konkurrenzfähig. Wir sehen Foundation-Sec-8B-Instruct als unverzichtbaren Assistenten in den täglichen Arbeitsabläufen von Cybersicherheitsfachleuten. Das Modell wird öffentlich unter https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Instruct veröffentlicht.
Die meisten menschlichen Proteine bleiben ungenutzt, über 96 % der menschlichen Proteine werden von zugelassenen Therapeutika nicht erschlossen. Während das strukturbasierte virtuelle Screening das Potenzial hat, das druggable Proteom zu erweitern, mangelt es bestehenden Methoden an atomarer Präzision, und sie versagen bei der Vorhersage der Bindungsaffinität, was ihre translationale Wirkung einschränkt. Wir präsentieren AuroBind, ein skalierbares virtuelles Screening-Framework, das ein maßgeschneidertes atomares Strukturmodell auf millionenfachen chemogenomischen Daten feinabstimmt. AuroBind integriert direkte Präferenzoptimierung, Selbst-Distillation aus hochvertrauenswürdigen Komplexen und eine Lehrer-Schüler-Beschleunigungsstrategie, um gleichzeitig liganden-gebundene Strukturen und Bindungsaffinität vorherzusagen. Die vorgeschlagenen Modelle übertreffen state-of-the-art Modelle in strukturellen und funktionellen Benchmarks und ermöglichen ein 100.000-fach schnelleres Screening über ultra-große Verbindungsbibliotheken. In einem prospektiven Screening über zehn krankheitsrelevante Ziele erreichte AuroBind experimentelle Trefferraten von 7–69 %, wobei die besten Verbindungen sub-nanomolare bis pikomolare Potenz erreichten. Für die orphan GPCRs GPR151 und GPR160 identifizierte AuroBind sowohl Agonisten als auch Antagonisten mit Erfolgsraten von 16–30 %, und funktionelle Assays bestätigten die Modulation von GPR160 in Leber- und Prostatakrebsmodellen. AuroBind bietet ein generalisierbares Framework für Struktur-Funktions-Lernen und Hochdurchsatz-Molekülscreening und schließt die Lücke zwischen Strukturvorhersage und therapeutischer Entdeckung.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben beeindruckende Fortschritte im omni-modalen Verständnis und der Generierung vorangetrieben. Das Training omni-modaler LLMs bleibt jedoch eine erhebliche Herausforderung, da heterogene Modellarchitekturen erforderlich sind, um verschiedene Modalitäten zu verarbeiten, was eine ausgeklügelte Systemgestaltung für ein effizientes Training in großem Maßstab erfordert. Bestehende Frameworks verknüpfen typischerweise die Modelldefinition mit paralleler Logik, was zu begrenzter Skalierbarkeit und erheblichem technischen Aufwand für das end-to-end omni-modale Training führt. % Wir stellen \veomni vor, ein modulares und effizientes Trainingsframework, das die Entwicklung omni-modaler LLMs beschleunigt. \veomni führt modellzentrierte verteilte Rezepte ein, die die Kommunikation von der Berechnung entkoppeln und eine effiziente 3D-Parallelität bei omni-modalen LLMs ermöglichen. \veomni verfügt außerdem über eine flexible Konfigurationsschnittstelle, die die nahtlose Integration neuer Modalitäten mit minimalen Codeänderungen unterstützt. % Mit \veomni kann ein omni-modales Mixture-of-Experts (MoE)-Modell mit 30B Parametern mit einem Durchsatz von über 2.800 Tokens/Sekunde/GPU trainiert und über 3D-Parallelität auf 128 GPUs auf Kontextlängen von 160K skaliert werden, was seine überlegene Effizienz und Skalierbarkeit für das Training großer omni-modaler LLMs unterstreicht.
Um effektiv in der realen Welt zu agieren, müssen Roboter multimodales Denken mit präziser Aktionsgenerierung integrieren. Bisherige Vision-Language-Action (VLA)-Modelle opfern jedoch oft eines zugunsten des anderen, beschränken ihre Fähigkeiten auf aufgabenbezogene Manipulationsdaten und leiden unter katastrophalem Vergessen von vortrainierten Vision-Language-Fähigkeiten. Um diese Lücke zu schließen, stellen wir InstructVLA vor, ein end-to-end VLA-Modell, das das flexible Denken großer Vision-Language-Modelle (VLMs) bewahrt und gleichzeitig führende Manipulationsleistung liefert. InstructVLA führt ein neuartiges Trainingsparadigma ein, das Vision-Language-Action Instruction Tuning (VLA-IT), das multimodales Training mit Mixture-of-Experts-Adaptation nutzt, um textbasiertes Denken und Aktionsgenerierung sowohl auf Standard-VLM-Korpora als auch auf einem kuratierten 650K-Beispiele umfassenden VLA-IT-Datensatz gemeinsam zu optimieren. Bei in-domain SimplerEnv-Aufgaben erzielt InstructVLA eine 30,5%ige Verbesserung gegenüber SpatialVLA. Um die Generalisierung zu bewerten, führen wir SimplerEnv-Instruct ein, einen Benchmark mit 80 Aufgaben, der geschlossene Regelkreise und das Verständnis hochrangiger Anweisungen erfordert, wo es einen feinabgestimmten OpenVLA um 92% und einen von GPT-4o unterstützten Aktionsspezialisten um 29% übertrifft. Zusätzlich übertrifft InstructVLA Baseline-VLMs bei multimodalen Aufgaben und zeigt Inferenzzeit-Skalierung, indem es textbasiertes Denken nutzt, um die Manipulationsleistung sowohl in simulierten als auch in realen Umgebungen zu steigern. Diese Ergebnisse demonstrieren das Potenzial von InstructVLA, intuitive und steuerbare Mensch-Roboter-Interaktion mit effizientem Policy-Lernen zu verbinden.
Große Datensätze sind grundlegend für Forschung und Entwicklung in der natürlichen Sprachverarbeitung. Aktuelle Ansätze stehen jedoch vor drei zentralen Herausforderungen: (1) die Abhängigkeit von Quellen mit unklaren Lizenzbedingungen, die Nutzung, Weitergabe und abgeleitete Werke einschränken; (2) statische Veröffentlichungen von Datensätzen, die Gemeinschaftsbeiträge verhindern und die Langlebigkeit beeinträchtigen; und (3) Qualitätssicherungsprozesse, die auf die veröffentlichenden Teams beschränkt sind, anstatt die Expertise der Gemeinschaft zu nutzen. Um diese Einschränkungen zu überwinden, stellen wir zwei Beiträge vor: den Dynaword-Ansatz und Danish Dynaword. Der Dynaword-Ansatz ist ein Rahmenwerk zur Erstellung groß angelegter, offener Datensätze, die durch Gemeinschaftszusammenarbeit kontinuierlich aktualisiert werden können. Danish Dynaword ist eine konkrete Implementierung, die diesen Ansatz validiert und sein Potenzial demonstriert. Danish Dynaword enthält mehr als viermal so viele Tokens wie vergleichbare Veröffentlichungen, ist ausschließlich offen lizenziert und hat zahlreiche Beiträge aus Industrie und Forschung erhalten. Das Repository umfasst leichtgewichtige Tests, um Datenformatierung, Qualität und Dokumentation sicherzustellen, und etabliert so ein nachhaltiges Rahmenwerk für fortlaufende Gemeinschaftsbeiträge und die Weiterentwicklung des Datensatzes.
Die Kompression visueller Tokens ist entscheidend für Large Vision-Language Models (LVLMs), um hochauflösende Eingaben effizient zu verarbeiten. Bestehende Methoden, die typischerweise feste Kompressionsverhältnisse verwenden, können sich nicht an Szenen unterschiedlicher Komplexität anpassen. Dies führt oft zu unpräzisem Beschneiden, bei dem informative visuelle Tokens verworfen werden, was die Modellleistung beeinträchtigt. Um dieses Problem zu lösen, stellen wir ein dynamisches Beschneidungsframework namens GlimpsePrune vor, das von der menschlichen Kognition inspiriert ist. Es nimmt einen datengesteuerten „Blick“ und beschneidet irrelevante visuelle Tokens in einem einzigen Vorwärtsdurchlauf vor der Antwortgenerierung. Dieser Ansatz beschneidet 92,6 % der visuellen Tokens, während die Baseline-Leistung bei freiform VQA-Aufgaben im Durchschnitt vollständig erhalten bleibt. Die reduzierte Rechenkosten ermöglichen auch eine effektivere Feinabstimmung: Eine verbesserte Version, GlimpsePrune+, erreicht 110 % der Baseline-Leistung bei gleichbleibend hoher Beschneidungsrate. Unsere Arbeit ebnet einen neuen Weg für die Entwicklung leistungsstärkerer und effizienterer LVLMs.
Diffusion Large Language Models (dLLMs) ermöglichen Durchbrüche in der logischen Schlussfolgerung und im parallelen Decodieren, leiden jedoch unter einer prohibitiv quadratischen Rechenkomplexität und einem hohen Speicherbedarf während der Inferenz. Aktuelle Caching-Techniken beschleunigen das Decodieren durch die Speicherung vollständiger Schichtzustände, führen jedoch zu einem erheblichen Speicherverbrauch, der Anwendungen mit langen Kontexten einschränkt. Unsere Analyse der Aufmerksamkeitsmuster in dLLMs zeigt eine persistente spärliche Verteilung über die Schichten hinweg, wobei entscheidende Token über Decodierschritte hinweg relevant bleiben und Token mit geringer Relevanz unwichtig bleiben, was eine selektive Cache-Entfernung motiviert. Wir schlagen Sparse-dLLM vor, das erste trainingsfreie Framework, das dynamische Cache-Entfernung mit spärlicher Aufmerksamkeit durch verzögertes bidirektionales spärliches Caching integriert. Durch die Nutzung der Stabilität der Token-Relevanz über Schritte hinweg behält es kritische Token bei und entfernt dynamisch unwichtige Präfix-/Suffix-Einträge mithilfe einer aufmerksamkeitsgesteuerten Strategie. Umfangreiche Experimente mit der LLaDA- und Dream-Serie zeigen, dass Sparse-dLLM einen bis zu 10-mal höheren Durchsatz als herkömmliche dLLMs erreicht, bei vergleichbarer Leistung und ähnlichen Spitzenspeicherkosten, und damit bisherige Methoden in Effizienz und Effektivität übertrifft.
Wir präsentieren Voxlect, einen neuartigen Benchmark zur Modellierung von Dialekten und regionalen Sprachen weltweit unter Verwendung von Sprach-Foundation-Modellen. Insbesondere berichten wir umfassende Benchmark-Evaluierungen für Dialekte und regionale Sprachvarianten in Englisch, Arabisch, Mandarin und Kantonesisch, Tibetisch, indischen Sprachen, Thai, Spanisch, Französisch, Deutsch, Brasilianisch-Portugiesisch und Italienisch. Unsere Studie nutzte über 2 Millionen Trainingsäußerungen aus 30 öffentlich verfügbaren Sprachkorpora, die mit dialektalen Informationen versehen sind. Wir evaluieren die Leistung mehrerer weit verbreiteter Sprach-Foundation-Modelle bei der Klassifizierung von Sprachdialekten. Wir bewerten die Robustheit der dialektalen Modelle unter verrauschten Bedingungen und präsentieren eine Fehleranalyse, die Modellierungsergebnisse aufzeigt, die mit geografischer Kontinuität übereinstimmen. Neben der Benchmarking der Dialektklassifizierung demonstrieren wir mehrere Downstream-Anwendungen, die durch Voxlect ermöglicht werden. Insbesondere zeigen wir, dass Voxlect verwendet werden kann, um bestehende Spracherkennungsdatensätze mit Dialektinformationen zu erweitern, was eine detailliertere Analyse der ASR-Leistung über dialektale Variationen hinweg ermöglicht. Voxlect wird auch als Werkzeug zur Bewertung der Leistung von Sprachgenerierungssystemen eingesetzt. Voxlect ist öffentlich verfügbar unter der Lizenz der RAIL-Familie unter: https://github.com/tiantiaf0627/voxlect.
Die Zuschreibung von Kunstwerken im Allgemeinen und von Gemälden im Besonderen war in der Kunst schon immer ein Thema. Das Aufkommen leistungsstarker künstlicher Intelligenz (KI)-Modelle, die Bilder generieren und analysieren können, stellt neue Herausforderungen für die Zuschreibung von Gemälden dar. Einerseits können KI-Modelle Bilder erzeugen, die den Stil eines Malers nachahmen, was beispielsweise von anderen KI-Modellen fälschlicherweise zugeschrieben werden könnte. Andererseits können KI-Modelle möglicherweise nicht korrekt den Künstler echter Gemälde identifizieren, was dazu führt, dass Nutzer Gemälde falsch zuschreiben. In dieser Arbeit werden beide Probleme experimentell untersucht, indem state-of-the-art KI-Modelle zur Bildgenerierung und -analyse auf einem großen Datensatz mit fast 40.000 Gemälden von 128 Künstlern eingesetzt werden. Die Ergebnisse zeigen, dass Vision-Language-Modelle (VLMs) nur begrenzte Fähigkeiten besitzen, um: 1) die Zuschreibung von Leinwänden durchzuführen und 2) KI-generierte Bilder zu identifizieren. Da Nutzer zunehmend auf Anfragen an KI-Modelle zurückgreifen, um Informationen zu erhalten, verdeutlichen diese Ergebnisse die Notwendigkeit, die Fähigkeiten von VLMs zu verbessern, um Künstlerzuschreibungen und die Erkennung von KI-generierten Bildern zuverlässig durchführen zu können, um die Verbreitung falscher Informationen zu verhindern.
Text-to-Image-Diffusionsmodelle haben die Erzeugung visueller Inhalte revolutioniert, doch die derzeitigen Sicherheitsmechanismen wenden einheitliche Standards an, die oft die individuellen Benutzerpräferenzen nicht berücksichtigen. Diese Modelle übersehen die vielfältigen Sicherheitsgrenzen, die durch Faktoren wie Alter, psychische Gesundheit und persönliche Überzeugungen geprägt werden. Um dies zu adressieren, schlagen wir Personalized Safety Alignment (PSA) vor, ein Framework, das eine benutzerspezifische Kontrolle über das Sicherheitsverhalten in generativen Modellen ermöglicht. PSA integriert personalisierte Benutzerprofile in den Diffusionsprozess und passt das Verhalten des Modells an individuelle Sicherheitspräferenzen an, während die Bildqualität erhalten bleibt. Wir stellen einen neuen Datensatz, Sage, vor, der benutzerspezifische Sicherheitspräferenzen erfasst und diese Profile durch einen Cross-Attention-Mechanismus einbindet. Experimente zeigen, dass PSA bestehende Methoden in der Unterdrückung schädlicher Inhalte übertrifft und generierte Inhalte besser mit Benutzerbeschränkungen in Einklang bringt, wobei höhere Win Rate- und Pass Rate-Werte erzielt werden. Unser Code, Daten und Modelle sind öffentlich verfügbar unter https://torpedo2648.github.io/PSAlign/.
Wir präsentieren RoboMemory, ein hirninspiriertes Multi-Speicher-Framework für lebenslanges Lernen in physisch verkörperten Systemen, das kritische Herausforderungen in realen Umgebungen adressiert: kontinuierliches Lernen, Latenzzeit in Multi-Modul-Speichern, Erfassung von Aufgabenkorrelationen und Vermeidung von Endlosschleifen in der geschlossenen Schleifenplanung. Basierend auf der kognitiven Neurowissenschaft integriert es vier Kernmodule: den Informationsvorprozessor (thalamusähnlich), das Lebenslange Verkörperte Speichersystem (hippocampusähnlich), das Modul für Geschlossene Schleifenplanung (präfrontallappenähnlich) und den Niedrigstufigen Ausführer (kleinhirnähnlich), um langfristige Planung und kumulatives Lernen zu ermöglichen. Das Lebenslange Verkörperte Speichersystem, das zentrale Element des Frameworks, löst Geschwindigkeitsprobleme bei der Inferenz in komplexen Speicherframeworks durch parallelisierte Aktualisierungen/Abrufe über räumliche, zeitliche, episodische und semantische Submodule. Es integriert ein dynamisches Wissensgraph (KG) und ein konsistentes Architekturdesign, um die Speicherkonsistenz und Skalierbarkeit zu verbessern. Bewertungen auf EmbodiedBench zeigen, dass RoboMemory die Open-Source-Baseline (Qwen2.5-VL-72B-Ins) um 25 % in der durchschnittlichen Erfolgsrate übertrifft und die Closed-Source State-of-the-Art (SOTA) (Claude3.5-Sonnet) um 5 % übertrifft, wodurch ein neuer SOTA etabliert wird. Ablationsstudien validieren Schlüsselkomponenten (Kritiker, räumlicher Speicher, Langzeitspeicher), während der Einsatz in der realen Welt seine Fähigkeit zum lebenslangen Lernen mit deutlich verbesserten Erfolgsraten über wiederholte Aufgaben bestätigt. RoboMemory mildert Herausforderungen durch hohe Latenzzeiten mit Skalierbarkeit und dient als grundlegende Referenz für die Integration von multimodalen Speichersystemen in physischen Robotern.
Große Sprachmodelle (LLMs) haben bemerkenswerte Erfolge bei Softwareentwicklungsaufgaben erzielt, wenn sie mit ausführbaren Laufzeitumgebungen trainiert wurden, insbesondere bei der Lösung von GitHub-Issues. Solche Laufzeitumgebungen sind jedoch in anderen Domänen, insbesondere in der Cybersicherheit, oft nicht verfügbar, da Challenge-Konfigurationen und Ausführungskontexte flüchtig oder eingeschränkt sind. Wir stellen Cyber-Zero vor, das erste laufzeitfreie Framework zur Synthese hochwertiger Agenten-Trajektorien für das Training von Cybersicherheits-LLMs. Cyber-Zero nutzt öffentlich verfügbare CTF-Writeups und setzt persona-gesteuerte LLM-Simulation ein, um Laufzeitverhalten zu rekonstruieren und realistische, langfristige Interaktionssequenzen ohne tatsächliche Umgebungen zu generieren. Mit den von Cyber-Zero synthetisierten Trajektorien trainieren wir LLM-basierte Agenten, die auf drei prominenten CTF-Benchmarks – InterCode-CTF, NYU CTF Bench und Cybench – absolute Leistungssteigerungen von bis zu 13,1 % gegenüber Baseline-Modellen erzielen. Unser bestes Modell, Cyber-Zero-32B, etabliert eine neue State-of-the-Art-Leistung unter Open-Weight-Modellen und erreicht die Fähigkeiten proprietärer Systeme wie DeepSeek-V3-0324 und Claude-3.5-Sonnet, bietet dabei jedoch eine überlegene Kosteneffizienz und zeigt, dass die laufzeitfreie Trajektoriensynthese die Entwicklung von State-of-the-Art-Cybersicherheitsagenten effektiv demokratisieren kann.
Jüngste Fortschritte in der dichten 3D-Rekonstruktion haben zu bedeutenden Fortschritten geführt, doch die präzise einheitliche geometrische Vorhersage bleibt eine große Herausforderung. Die meisten bestehenden Methoden beschränken sich darauf, eine einzelne geometrische Größe aus Eingabebildern vorherzusagen. Geometrische Größen wie Tiefe, Oberflächennormalen und Punktkarten sind jedoch inhärent miteinander verknüpft, und ihre isolierte Schätzung gewährleistet oft keine Konsistenz, was sowohl die Genauigkeit als auch die praktische Anwendbarkeit einschränkt. Dies motiviert uns, ein einheitliches Framework zu erforschen, das die strukturelle Kopplung zwischen verschiedenen geometrischen Eigenschaften explizit modelliert, um eine gemeinsame Regression zu ermöglichen. In diesem Artikel stellen wir Dens3R vor, ein 3D-Foundation-Modell, das für die gemeinsame dichte geometrische Vorhersage entwickelt wurde und sich an eine Vielzahl von Downstream-Aufgaben anpassen lässt. Dens3R verwendet ein zweistufiges Trainingsframework, um schrittweise eine Punktkartendarstellung zu erstellen, die sowohl verallgemeinerbar als auch intrinsisch invariant ist. Insbesondere entwerfen wir ein leichtgewichtiges, gemeinsam genutztes Encoder-Decoder-Backbone und führen eine positionsinterpolierte rotatorische Positionskodierung ein, um die Ausdruckskraft zu erhalten und gleichzeitig die Robustheit gegenüber hochauflösenden Eingaben zu verbessern. Durch die Integration von Bildpaar-Matching-Merkmalen mit der Modellierung intrinsischer Invarianz regrediert Dens3R präzise mehrere geometrische Größen wie Oberflächennormalen und Tiefe und erreicht eine konsistente geometrische Wahrnehmung von Einzelbild- zu Mehrbild-Eingaben. Zusätzlich schlagen wir eine Nachbearbeitungspipeline vor, die eine geometrisch konsistente Mehrbild-Inferenz unterstützt. Umfangreiche Experimente demonstrieren die überlegene Leistung von Dens3R in verschiedenen dichten 3D-Vorhersageaufgaben und heben sein Potenzial für breitere Anwendungen hervor.
Die Sicherstellung ausreichender Exploration ist eine zentrale Herausforderung beim Training von Meta-Reinforcement-Learning (Meta-RL)-Agenten zur Lösung neuer Umgebungen. Konventionelle Lösungen für das Exploration-Exploitation-Dilemma fügen explizite Anreize wie Randomisierung, Unsicherheitsboni oder intrinsische Belohnungen hinzu, um Exploration zu fördern. In dieser Arbeit stellen wir die Hypothese auf, dass ein Agent, der ausschließlich darauf trainiert wird, ein gieriges (nur auf Exploitation ausgerichtetes) Ziel zu maximieren, dennoch emergentes exploratives Verhalten zeigen kann, sofern drei Bedingungen erfüllt sind: (1) Wiederkehrende Umweltstruktur, bei der die Umgebung wiederholbare Regelmäßigkeiten aufweist, die es ermöglichen, dass vergangene Erfahrungen zukünftige Entscheidungen beeinflussen; (2) Agentengedächtnis, das es dem Agenten ermöglicht, historische Interaktionsdaten zu speichern und zu nutzen; und (3) Langfristige Kreditvergabe, bei der das Lernen die Erträge über einen Zeitraum hinweg propagiert, der ausreicht, damit die verzögerten Vorteile der Exploration aktuelle Entscheidungen beeinflussen können. Durch Experimente in stochastischen Multi-Armed Bandits und zeitlich erweiterten Gridworlds beobachten wir, dass, wenn sowohl Struktur als auch Gedächtnis vorhanden sind, eine auf einem strikt gierigen Ziel trainierte Politik informationssuchendes exploratives Verhalten zeigt. Wir zeigen weiterhin durch kontrollierte Ablationen, dass emergente Exploration verschwindet, wenn entweder die Umweltstruktur oder das Agentengedächtnis fehlt (Bedingungen 1 & 2). Überraschenderweise verhindert das Entfernen der langfristigen Kreditvergabe (Bedingung 3) nicht immer die emergente Exploration – ein Ergebnis, das wir dem Pseudo-Thompson-Sampling-Effekt zuschreiben. Diese Ergebnisse legen nahe, dass unter den richtigen Voraussetzungen Exploration und Exploitation nicht als orthogonale Ziele behandelt werden müssen, sondern aus einem einheitlichen Belohnungsmaximierungsprozess hervorgehen können.
Test-Time Scaling (TTS) verbessert die Leistung großer Sprachmodelle (LLMs), indem zusätzliche Rechenressourcen während der Inferenz zugewiesen werden. Bisherige Forschung untersucht TTS jedoch hauptsächlich in einstufigen Aufgaben, während viele reale Probleme mehrstufige komplexe Aufgaben darstellen, die aus einer Sequenz heterogener Teilaufgaben bestehen, wobei jede Teilaufgabe spezifische Fähigkeiten des LLMs erfordert. Daher untersuchen wir ein neuartiges Problem: das compute-optimale Test-Time Scaling in mehrstufigen komplexen Aufgaben, mit dem Ziel, geeignete Modelle auszuwählen und Budgets pro Teilaufgabe zuzuweisen, um die Gesamtleistung zu maximieren. TTS in mehrstufigen Aufgaben führt zu zwei grundlegenden Herausforderungen: (i) Der kombinatorische Suchraum von Modell- und Budgetzuweisungen, kombiniert mit den hohen Kosten der Inferenz, macht eine Brute-Force-Suche unpraktikabel. (ii) Die optimalen Modell- und Budgetzuweisungen über die Teilaufgaben hinweg sind interdependent, was die Komplexität der compute-optimalen Suche erhöht. Um diese Lücke zu schließen, führen wir umfangreiche Pilotexperimente zu vier Aufgaben über sechs Datensätze durch und leiten drei empirische Erkenntnisse ab, die das Verhalten von LLMs in mehrstufigen komplexen Aufgaben charakterisieren. Basierend auf diesen Erkenntnissen schlagen wir AgentTTS vor, ein LLM-Agenten-basiertes Framework, das autonom nach compute-optimalen Zuweisungen durch iterative, feedback-gesteuerte Interaktionen mit der Ausführungsumgebung sucht. Experimentelle Ergebnisse zeigen, dass AgentTTS traditionelle und andere LLM-basierte Baseline-Ansätze in der Sucheffizienz deutlich übertrifft und eine verbesserte Robustheit gegenüber variierenden Trainingsdatensatzgrößen sowie eine erhöhte Interpretierbarkeit aufweist.
Bei großen Sprachmodellen steigt der Bedarf an der Modellierung langer Kontexte ständig, doch die quadratische Komplexität des standardmäßigen Self-Attention-Mechanismus stellt oft einen Engpass dar. Obwohl bestehende spärliche Attention-Mechanismen die Effizienz verbessert haben, können sie dennoch Probleme wie statische Muster oder Informationsverlust aufweisen. Wir führen einen trainierbaren dynamischen Masken-Sparse-Attention-Mechanismus ein, Dynamic Mask Attention (DMA), der inhalts- und positionsbewusste Sparsamkeit effektiv nutzt. DMA erreicht dies durch zwei Schlüsselinnovationen: Erstens generiert es dynamisch inhaltsbewusste Sparse-Masken aus Wertedarstellungen, wodurch das Modell kritische Informationen adaptiv identifizieren und fokussieren kann. Zweitens implementiert es eine positionsbewusste Sparse-Attention-Berechnung, die unnötige Berechnungsregionen effektiv überspringt. Dieses Dual-Sparsamkeits-Design ermöglicht es dem Modell, die Rechenkomplexität wichtiger Informationen signifikant zu reduzieren, während die vollständige Information erhalten bleibt, wodurch ein hervorragendes Gleichgewicht zwischen Informationsgenauigkeit und Recheneffizienz erreicht wird. Wir haben die Leistung von DMA durch umfassende Experimente verifiziert. Vergleichende Studien zeigen, dass DMA unter den Bedingungen des Chinchilla-Skalierungsgesetzes Multi-Head-Attention, Sliding-Window-Attention, Multi-Head-Latent-Attention und native Sparse-Attention in Bezug auf Perplexität übertrifft. Darüber hinaus zeigt DMA in anspruchsvollen Multi-Query-Associative-Recall-Aufgaben ebenfalls überlegene Leistung und Effizienz im Vergleich zu diesen Methoden. Entscheidend ist, dass DMA bei der Bewertung eines 1,7-Milliarden-Parameter-Modells sowohl in der Standard-Benchmark-Leistung als auch in der anspruchsvollen „Nadel im Heuhaufen“-Aufgabe Multi-Head-Attention deutlich übertrifft. Diese experimentellen Ergebnisse unterstreichen seine Fähigkeit, Modell effizienz und die Fähigkeit zur Modellierung langer Kontexte effektiv auszubalancieren.
Text-to-Motion (T2M)-Generierung zielt darauf ab, realistische und semantisch abgestimmte menschliche Bewegungssequenzen aus natürlichen Sprachbeschreibungen zu synthetisieren. Allerdings stehen aktuelle Ansätze vor doppelten Herausforderungen: Generative Modelle (z. B. Diffusionsmodelle) leiden unter begrenzter Vielfalt, Fehlerakkumulation und physikalischer Unplausibilität, während Retrieval-Augmented Generation (RAG)-Methoden Diffusionsinertie, partiellen Modus-Zusammenbruch und asynchrone Artefakte aufweisen. Um diese Einschränkungen zu überwinden, schlagen wir ReMoMask vor, ein einheitliches Framework, das drei Schlüsselinnovationen integriert: 1) Ein bidirektionales Momentum-Text-Motion-Modell entkoppelt die Skalierung negativer Beispiele von der Batch-Größe durch Momentum-Warteschlangen und verbessert die Präzision des cross-modalen Retrievals erheblich; 2) Ein semantischer räumlich-zeitlicher Aufmerksamkeitsmechanismus erzwingt biomechanische Einschränkungen während der part-basierten Fusion, um asynchrone Artefakte zu eliminieren; 3) RAG-Classier-Free Guidance integriert geringfügige unkonditionierte Generierung, um die Generalisierung zu verbessern. Basierend auf MoMasks RVQ-VAE generiert ReMoMask effizient zeitlich kohärente Bewegungen in minimalen Schritten. Umfangreiche Experimente auf Standard-Benchmarks demonstrieren die state-of-the-art Leistung von ReMoMask, mit einer Verbesserung der FID-Werte um 3,88 % und 10,97 % auf HumanML3D bzw. KIT-ML im Vergleich zur bisherigen SOTA-Methode RAG-T2M. Code: https://github.com/AIGeeksGroup/ReMoMask. Website: https://aigeeksgroup.github.io/ReMoMask.
Quantum Support Vector Machines stehen vor Skalierbarkeitsherausforderungen aufgrund hochdimensionaler Quantenzustände und Hardwarebeschränkungen. Wir schlagen eine einbettungsbewusste Quanten-Klassisch-Pipeline vor, die klassengleiche k-means-Destillation mit vortrainierten Vision-Transformer-Einbettungen kombiniert. Unsere zentrale Erkenntnis: ViT-Einbettungen ermöglichen einzigartig einen Quantenvorteil, mit Genauigkeitssteigerungen von bis zu 8,02 % gegenüber klassischen SVMs auf Fashion-MNIST und 4,42 % auf MNIST, während CNN-Merkmale eine Leistungsverschlechterung zeigen. Unter Verwendung einer 16-Qubit-Tensornetzwerk-Simulation via cuTensorNet liefern wir den ersten systematischen Nachweis, dass der Quantenkernelvorteil entscheidend von der Wahl der Einbettung abhängt, was eine grundlegende Synergie zwischen Transformer-Aufmerksamkeit und Quantenmerkmalräumen offenbart. Dies bietet einen praktischen Weg für skalierbares Quantenmaschinenlernen, das moderne neuronale Architekturen nutzt.
Die reiche linguistische Landschaft der arabischen Welt ist durch eine erhebliche Kluft zwischen dem modernen Standardarabisch (MSA), der Sprache der formalen Kommunikation, und den vielfältigen regionalen Dialekten, die im Alltag verwendet werden, gekennzeichnet. Diese Diglossie stellt eine erhebliche Herausforderung für die natürliche Sprachverarbeitung, insbesondere für die maschinelle Übersetzung, dar. In diesem Artikel wird SHAMI-MT vorgestellt, ein bidirektionales maschinelles Übersetzungssystem, das speziell entwickelt wurde, um die Kommunikationslücke zwischen MSA und dem syrischen Dialekt zu überbrücken. Wir präsentieren zwei spezialisierte Modelle, eines für die Übersetzung von MSA nach Shami und eines für die Übersetzung von Shami nach MSA, die beide auf der modernsten AraT5v2-base-1024-Architektur basieren. Die Modelle wurden auf dem umfassenden Nabra-Datensatz feinabgestimmt und rigoros auf ungesehenen Daten aus dem MADAR-Korpus evaluiert. Unser MSA-zu-Shami-Modell erreichte eine hervorragende durchschnittliche Qualitätsbewertung von 4,01 von 5,0, als es vom OPENAI-Modell GPT-4.1 beurteilt wurde, und demonstrierte damit seine Fähigkeit, Übersetzungen zu produzieren, die nicht nur genau, sondern auch dialektal authentisch sind. Diese Arbeit bietet ein entscheidendes, hochwertiges Werkzeug für ein bisher unterversorgtes Sprachpaar, fördert das Feld der dialektalen arabischen Übersetzung und bietet bedeutende Anwendungen in der Inhaltslokalisierung, dem kulturellen Erbe und der interkulturellen Kommunikation.
Wir untersuchen, ob sozioökonomische Indikatoren wie der Haushaltswohlstand erkennbare Spuren in Satellitenbildern (die physische Merkmale erfassen) und in aus dem Internet bezogenen Texten (die historische/wirtschaftliche Narrative widerspiegeln) hinterlassen. Unter Verwendung von Daten aus den Demographic and Health Surveys (DHS) afrikanischer Nachbarschaften kombinieren wir Landsat-Bilder mit LLM-generierten Textbeschreibungen, die auf Standort/Jahr basieren, sowie mit Texten, die von einem KI-Suchagenten aus Webquellen abgerufen wurden. Wir entwickeln ein multimodales Framework zur Vorhersage des Haushaltswohlstands (International Wealth Index) durch fünf Pipelines: (i) ein Vision-Modell für Satellitenbilder, (ii) ein LLM, das nur Standort/Jahr verwendet, (iii) ein KI-Agent, der Webtexte sucht und synthetisiert, (iv) ein gemeinsamer Bild-Text-Encoder, (v) ein Ensemble aller Signale. Unser Framework liefert drei Beiträge. Erstens übertrifft die Fusion von Vision- und Agent/LLM-Texten Vision-only-Baselines bei der Wohlstandsvorhersage (z. B. R-Quadrat von 0,77 vs. 0,63 bei Out-of-Sample-Splits), wobei sich das interne Wissen des LLM als effektiver erweist als die vom Agenten abgerufenen Texte, was die Robustheit bei der Generalisierung über Länder und Zeiträume hinweg verbessert. Zweitens stellen wir eine partielle Repräsentationskonvergenz fest: fusionierte Embeddings aus Vision-/Sprachmodalitäten korrelieren moderat (medianer Kosinus-Ähnlichkeit von 0,60 nach Ausrichtung), was auf einen gemeinsamen latenten Code des materiellen Wohlbefindens hindeutet, während komplementäre Details erhalten bleiben, was mit der Platonischen Repräsentationshypothese übereinstimmt. Obwohl LLM-only-Texte die vom Agenten abgerufenen Daten übertreffen und damit unsere Agent-Induced Novelty Hypothesis in Frage stellen, unterstützen bescheidene Gewinne durch die Kombination von Agentendaten in einigen Splits schwach die Annahme, dass vom Agenten gesammelte Informationen einzigartige Repräsentationsstrukturen einführen, die durch statisches LLM-Wissen nicht vollständig erfasst werden. Drittens veröffentlichen wir einen groß angelegten multimodalen Datensatz, der mehr als 60.000 DHS-Cluster umfasst, die mit Satellitenbildern, LLM-generierten Beschreibungen und vom Agenten abgerufenen Texten verknüpft sind.
Große Sprachmodelle haben bemerkenswerte Fähigkeiten bei komplexen mathematischen Denkaufgaben gezeigt, erzeugen jedoch zwangsläufig Fehler in mehrstufigen Lösungen. Prozessbezogene Belohnungsmodelle (Process-level Reward Models, PRMs) haben großes Potenzial bewiesen, indem sie Überwachung und Bewertung in jedem Zwischenschritt bereitstellen und dadurch die Denkfähigkeiten der Modelle effektiv verbessern. Allerdings erfordert das Training effektiver PRMs hochwertige prozessbezogene Belohnungsdaten, und bestehende Methoden zur Erstellung solcher Daten sind oft arbeitsintensiv oder ineffizient. In diesem Artikel schlagen wir ein unsicherheitsgetriebenes Framework für die automatisierte Erstellung von prozessbezogenen Belohnungsdaten vor, das sowohl die Datengenerierung als auch den Annotationsprozess für PRMs umfasst. Zudem identifizieren wir die Grenzen sowohl der Mehrheitsentscheidung als auch der PRMs und führen zwei generische, unsicherheitsbewusste Methoden zur Ausgabeaggregation ein: Hybrid Majority Reward Vote und Weighted Reward Frequency Vote, die die Stärken der Mehrheitsentscheidung mit denen der PRMs kombinieren. Umfangreiche Experimente auf ProcessBench, MATH und GSMPlus zeigen die Wirksamkeit und Effizienz des vorgeschlagenen PRM-Datenerstellungsframeworks und demonstrieren, dass die beiden Ausgabeaggregationsmethoden die mathematischen Denkfähigkeiten über verschiedene PRMs hinweg weiter verbessern. Der Code und die Daten werden öffentlich unter https://github.com/Jiuzhouh/UnPRM verfügbar sein.