Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Jüngste Fortschritte in der Text-zu-Bild (T2I)-Generierung haben beeindruckende Ergebnisse erzielt, doch bestehende Modelle haben nach wie vor Schwierigkeiten mit Eingabeaufforderungen, die umfangreiches Weltwissen und implizites Schlussfolgern erfordern – beides entscheidend für die Erstellung semantisch präziser, kohärenter und kontextuell angemessener Bilder in realen Szenarien. Um diese Lücke zu schließen, stellen wir WorldGenBench vor, einen Benchmark, der entwickelt wurde, um die Verankerung von Weltwissen und die impliziten Schlussfolgerungsfähigkeiten von T2I-Modellen systematisch zu bewerten und dabei sowohl geisteswissenschaftliche als auch naturwissenschaftliche Domänen abdeckt. Wir schlagen den Knowledge Checklist Score vor, eine strukturierte Metrik, die misst, wie gut generierte Bilder zentrale semantische Erwartungen erfüllen. Experimente mit 21 state-of-the-art Modellen zeigen, dass Diffusionsmodelle zwar bei Open-Source-Methoden führend sind, proprietäre autoregressive Modelle wie GPT-4o jedoch deutlich stärkere Fähigkeiten im Bereich des Schlussfolgerns und der Wissensintegration aufweisen. Unsere Ergebnisse unterstreichen die Notwendigkeit tieferer Verständnis- und Schlussfolgerungsfähigkeiten in der nächsten Generation von T2I-Systemen. Projektseite: https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}
Transformer haben in zahlreichen NLP-Aufgaben große Erfolge erzielt, zeigen jedoch weiterhin bemerkenswerte Lücken im mehrstufigen faktischen Schlussfolgern, insbesondere wenn reales Wissen spärlich vorhanden ist. Jüngste Fortschritte im Bereich des Grokkings haben gezeigt, dass neuronale Netze von einem Auswendiglernen zu einer perfekten Generalisierung übergehen können, sobald sie zugrunde liegende logische Muster erkennen – doch diese Studien haben hauptsächlich kleine, synthetische Aufgaben verwendet. In diesem Papier erweitern wir erstmals das Grokking auf reale faktische Daten und adressieren die Herausforderung der Datensparsamkeit, indem wir bestehende Wissensgraphen mit sorgfältig entworfenen synthetischen Daten anreichern, um das Verhältnis phi_r von abgeleiteten Fakten zu atomaren Fakten über den für das Grokking erforderlichen Schwellenwert zu erhöhen. Überraschenderweise stellen wir fest, dass selbst faktisch inkorrekte synthetische Daten die entstehenden Schlussfolgerungsschaltkreise stärken können, anstatt die Genauigkeit zu beeinträchtigen, da sie das Modell zwingen, sich auf die relationale Struktur zu verlassen, anstatt auf Auswendiglernen. Bei der Bewertung auf mehrstufigen Schlussfolgerungs-Benchmarks erreicht unser Ansatz eine Genauigkeit von bis zu 95-100 % auf 2WikiMultiHopQA – was eine deutliche Verbesserung gegenüber starken Baselines darstellt und aktuelle State-of-the-Art-Ergebnisse erreicht oder übertrifft. Wir liefern zudem eine detaillierte Analyse, wie die Erhöhung von phi_r die Bildung generalisierender Schaltkreise innerhalb von Transformern vorantreibt. Unsere Ergebnisse deuten darauf hin, dass eine auf Grokking basierende Datenanreicherung implizite Fähigkeiten zum mehrstufigen Schlussfolgern freisetzen kann, was den Weg zu robusterem und interpretierbarem faktischem Schlussfolgern in großskaligen Sprachmodellen ebnet.
Ein Voice-AI-Agent, der sich nahtlos in den Alltag integriert, würde mit Menschen auf autonome, echtzeitfähige und emotional ausdrucksstarke Weise interagieren. Anstatt lediglich auf Befehle zu reagieren, würde er kontinuierlich zuhören, schlussfolgern und proaktiv antworten, wodurch flüssige, dynamische und emotional ansprechende Interaktionen gefördert würden. Wir stellen Voila vor, eine Familie großer Sprach-Grundlagenmodelle, die einen Schritt in Richtung dieser Vision machen. Voila geht über traditionelle Pipeline-Systeme hinaus, indem es eine neue End-to-End-Architektur einführt, die Vollduplex-Gespräche mit geringer Latenz ermöglicht und gleichzeitig reiche stimmliche Nuancen wie Tonfall, Rhythmus und Emotion bewahrt. Es erreicht eine Antwortlatenz von nur 195 Millisekunden und übertrifft damit die durchschnittliche menschliche Reaktionszeit. Sein hierarchischer Multi-Scale-Transformer integriert die Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs) mit leistungsstarker akustischer Modellierung und ermöglicht so eine natürliche, persoenenbewusste Stimmgenerierung – bei der Benutzer einfach Textanweisungen schreiben können, um die Identität, den Tonfall und andere Merkmale des Sprechers zu definieren. Darüber hinaus unterstützt Voila über eine Million vordefinierte Stimmen und die effiziente Anpassung neuer Stimmen aus kurzen Audioaufnahmen von nur 10 Sekunden. Über gesprochene Dialoge hinaus ist Voila als einheitliches Modell für eine Vielzahl von sprachbasierten Anwendungen konzipiert, einschließlich automatischer Spracherkennung (ASR), Text-zu-Sprache (TTS) und, mit minimaler Anpassung, mehrsprachiger Sprachübersetzung. Voila ist vollständig quelloffen, um offene Forschung zu unterstützen und den Fortschritt in Richtung der nächsten Generation von Mensch-Maschine-Interaktionen zu beschleunigen.
Die Modellierung von Belohnungen ist entscheidend, um große Sprachmodelle (LLMs) mit menschlichen Präferenzen in Einklang zu bringen, insbesondere durch Reinforcement Learning aus menschlichem Feedback (RLHF). Um präzise Belohnungssignale zu liefern, sollte ein Belohnungsmodell (RM) tiefes Denken anregen und interpretierbare Schlussfolgerungen ziehen, bevor es eine Bewertung oder ein Urteil vergibt. Bisherige RMs erzeugen jedoch entweder undurchsichtige skalare Werte oder generieren direkt die Vorhersage einer bevorzugten Antwort, was es ihnen erschwert, natürliche Sprachkritiken zu integrieren, und somit an Interpretierbarkeit mangelt. Inspiriert durch die jüngsten Fortschritte bei langen Gedankenketten (Chain-of-Thought, CoT) in aufschlussreichen Aufgaben, stellen wir die Hypothese auf und validieren, dass die Integration von Schlussfolgerungsfähigkeiten in die Belohnungsmodellierung die Interpretierbarkeit und Leistung von RMs erheblich verbessert. In dieser Arbeit führen wir eine neue Klasse generativer Belohnungsmodelle ein – Reasoning Reward Models (ReasRMs) –, die die Belohnungsmodellierung als eine Schlussfolgerungsaufgabe formulieren. Wir schlagen eine schlussfolgerungsorientierte Trainingspipeline vor und trainieren eine Familie von ReasRMs, RM-R1. Das Training besteht aus zwei Schlüsselphasen: (1) Destillation hochwertiger Gedankenketten und (2) Reinforcement Learning mit überprüfbaren Belohnungen. RM-R1 verbessert LLM-Rollouts, indem es selbstständig Gedankenspuren oder chatspezifische Bewertungskriterien generiert und Kandidatenantworten anhand dieser bewertet. Empirisch erreichen unsere Modelle state-of-the-art oder nahezu state-of-the-art Leistung generativer RMs über mehrere umfassende Belohnungsmodell-Benchmarks hinweg und übertreffen dabei deutlich größere Open-Weight-Modelle (z. B. Llama3.1-405B) und proprietäre Modelle (z. B. GPT-4o) um bis zu 13,8 %. Neben der Endleistung führen wir eine umfassende empirische Analyse durch, um die Schlüsselkomponenten eines erfolgreichen ReasRM-Trainings zu verstehen. Um zukünftige Forschung zu erleichtern, veröffentlichen wir sechs ReasRM-Modelle sowie Code und Daten unter https://github.com/RM-R1-UIUC/RM-R1.
Wir zeigen, dass Muon, die einfachste Instanziierung eines Optimierers zweiter Ordnung, die Pareto-Front gegenüber AdamW im Hinblick auf den Kompromiss zwischen Rechenzeit und Leistung explizit erweitert. Wir stellen fest, dass Muon effektiver als AdamW darin ist, die Dateneffizienz bei großen Batch-Größen weit über die sogenannte kritische Batch-Größe hinaus zu bewahren, während es gleichzeitig recheneffizient bleibt und somit eine wirtschaftlichere Trainings ermöglicht. Wir untersuchen die Kombination von Muon mit der maximalen Update-Parametrisierung (muP) für einen effizienten Hyperparameter-Transfer und präsentieren einen einfachen Teleskop-Algorithmus, der alle Fehlerquellen in muP berücksichtigt, während nur ein moderater Ressourcenaufwand entsteht. Unsere Erkenntnisse validieren wir durch umfangreiche Experimente mit Modellgrößen von bis zu vier Milliarden Parametern sowie Ablationen zur Datenverteilung und Architektur.
Große Sprachmodelle (LLMs) finden breite Anwendung in Chatbots, Code-Generatoren und Suchmaschinen. Arbeitslasten wie Chain-of-Thought, komplexes Schlussfolgern und Agentendienste erhöhen die Inferenzkosten erheblich, indem sie das Modell wiederholt aufrufen. Optimierungsmethoden wie Parallelität, Kompression und Caching wurden eingeführt, um die Kosten zu senken, doch die vielfältigen Dienstleistungsanforderungen erschweren die Auswahl der richtigen Methode. In jüngster Zeit sind spezialisierte LLM-Inferenz-Engines als Schlüsselkomponente zur Integration der Optimierungsmethoden in dienstorientierte Infrastrukturen entstanden. Dennoch fehlt es noch an einer systematischen Untersuchung von Inferenz-Engines. Diese Arbeit bietet eine umfassende Bewertung von 25 Open-Source- und kommerziellen Inferenz-Engines. Wir untersuchen jede Inferenz-Engine hinsichtlich Benutzerfreundlichkeit, Bereitstellungsfreundlichkeit, allgemeiner Unterstützung, Skalierbarkeit und Eignung für durchsatz- und latenzbewusste Berechnungen. Darüber hinaus erforschen wir die Designziele jeder Inferenz-Engine, indem wir die von ihr unterstützten Optimierungstechniken untersuchen. Zusätzlich bewerten wir die Reife des Ökosystems von Open-Source-Inferenz-Engines und behandeln die Leistungs- und Kostenpolitik kommerzieller Lösungen. Wir skizzieren zukünftige Forschungsrichtungen, die die Unterstützung komplexer LLM-basierter Dienste, die Unterstützung verschiedener Hardware und verbesserte Sicherheit umfassen, und bieten praktische Anleitungen für Forscher und Entwickler bei der Auswahl und Gestaltung optimierter LLM-Inferenz-Engines. Wir stellen auch ein öffentliches Repository zur Verfügung, um die Entwicklungen in diesem sich schnell entwickelnden Bereich kontinuierlich zu verfolgen: https://github.com/sihyeong/Awesome-LLM-Inference-Engine
Große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte bei komplexen Denkaufgaben erzielt, bleiben jedoch grundsätzlich durch ihre Abhängigkeit von statischem internem Wissen und textbasiertem Denken eingeschränkt. Die Lösung realer Probleme erfordert oft dynamisches, mehrstufiges Denken, adaptive Entscheidungsfindung und die Fähigkeit, mit externen Werkzeugen und Umgebungen zu interagieren. In dieser Arbeit stellen wir ARTIST (Agentic Reasoning and Tool Integration in Self-improving Transformers) vor, ein einheitliches Framework, das agentenbasiertes Denken, Reinforcement Learning und die Integration von Werkzeugen für LLMs eng miteinander verknüpft. ARTIST ermöglicht es Modellen, autonom zu entscheiden, wann, wie und welche Werkzeuge in mehrstufigen Denkketten aufgerufen werden sollen, und nutzt ergebnisbasiertes RL, um robuste Strategien für die Werkzeugnutzung und Umgebungsinteraktion zu erlernen, ohne schrittweise Überwachung zu benötigen. Umfangreiche Experimente zu mathematischem Denken und mehrstufigen Funktionsaufruf-Benchmarks zeigen, dass ARTIST durchweg state-of-the-art Baselines übertrifft, mit einer absoluten Verbesserung von bis zu 22 % gegenüber Basismodellen und deutlichen Gewinnen bei den anspruchsvollsten Aufgaben. Detaillierte Studien und Metrikanalysen zeigen, dass agentenbasiertes RL-Training zu tieferem Denken, effektiverer Werkzeugnutzung und qualitativ hochwertigeren Lösungen führt. Unsere Ergebnisse etablieren agentenbasiertes RL mit Werkzeugintegration als eine leistungsstarke neue Grenze für robuste, interpretierbare und generalisierbare Problemlösung in LLMs.
Formales mathematisches Denken bleibt eine entscheidende Herausforderung für künstliche Intelligenz, die durch die begrenzte Reichweite und den Umfang bestehender Benchmarks behindert wird. Um dies zu adressieren, präsentieren wir FormalMATH, einen groß angelegten Lean4-Benchmark, der 5.560 formal verifizierte Probleme umfasst, die von Herausforderungen auf dem Niveau von Schulolympiaden bis hin zu Theoremen auf Universitätsniveau in verschiedenen Domänen (z. B. Algebra, angewandte Mathematik, Analysis, Zahlentheorie und diskrete Mathematik) reichen. Um die Ineffizienz der manuellen Formalisierung zu verringern, führen wir eine neuartige Autoformalisierungs-Pipeline mit menschlicher Beteiligung ein, die Folgendes integriert: (1) spezialisierte Large Language Models (LLMs) für die Autoformalisierung von Aussagen, (2) semantische Verifizierung durch mehrere LLMs und (3) Negations-basierte Widerlegungsfilterungsstrategien unter Verwendung von Standard-LLM-basierten Beweisern. Dieser Ansatz reduziert die Kosten für Expertenannotationen, indem 72,09 % der Aussagen vor der manuellen Überprüfung beibehalten werden, während gleichzeitig die Treue zu den ursprünglichen natürlichen Sprachproblemen gewährleistet wird. Unsere Bewertung von state-of-the-art LLM-basierten Theorembeweisern zeigt erhebliche Einschränkungen: Selbst die stärksten Modelle erreichen nur eine Erfolgsquote von 16,46 % unter praktischen Sampling-Budgets und weisen eine ausgeprägte Domänenverzerrung auf (z. B. hervorragende Leistungen in der Algebra, aber Versagen in der Analysis) sowie eine übermäßige Abhängigkeit von vereinfachten Automatisierungstaktiken. Bemerkenswerterweise identifizieren wir einen kontraintuitiven umgekehrten Zusammenhang zwischen natürlicher Sprachlösungsführung und Beweiserfolg in Chain-of-Thought-Szenarien, was darauf hindeutet, dass von Menschen verfasste informale Argumentation in formalen Denksettings eher Rauschen als Klarheit einführt. Wir glauben, dass FormalMATH einen robusten Benchmark für die Bewertung formalen mathematischen Denkens bietet.
Multimodale Belohnungsmodelle (MRMs) spielen eine entscheidende Rolle bei der Verbesserung der Leistung von Multimodalen Großen Sprachmodellen (MLLMs). Während sich die jüngsten Fortschritte hauptsächlich auf die Verbesserung der Modellstruktur und der Trainingsdaten von MRMs konzentriert haben, wurde die Effektivität von langfristigen Denkfähigkeiten für die Belohnungsmodellierung und deren Aktivierung in MRMs bisher nur begrenzt erforscht. In dieser Arbeit untersuchen wir, wie Reinforcement Learning (RL) zur Verbesserung der Belohnungsmodellierung eingesetzt werden kann. Konkret formulieren wir das Problem der Belohnungsmodellierung als eine regelbasierte RL-Aufgabe neu. Wir stellen jedoch fest, dass die direkte Anwendung bestehender RL-Algorithmen, wie Reinforce++, auf die Belohnungsmodellierung häufig zu Trainingsinstabilität oder sogar zum Zusammenbruch führt, was auf die inhärenten Grenzen dieser Algorithmen zurückzuführen ist. Um dieses Problem zu lösen, schlagen wir den StableReinforce-Algorithmus vor, der die Trainingsverlustfunktion, die Strategie zur Schätzung des Vorteils und die Belohnungsgestaltung bestehender RL-Methoden verfeinert. Diese Verfeinerungen führen zu stabileren Trainingsdynamiken und einer überlegenen Leistung. Um das Training von MRMs zu erleichtern, sammeln wir 200.000 Präferenzdaten aus verschiedenen Datensätzen. Unser Belohnungsmodell, R1-Reward, das mit dem StableReinforce-Algorithmus auf diesem Datensatz trainiert wurde, verbessert die Leistung bei Benchmarks für multimodale Belohnungsmodellierung erheblich. Im Vergleich zu früheren State-of-the-Art-Modellen erzielt R1-Reward eine Verbesserung von 8,4 % auf dem VL Reward-Bench und eine Verbesserung von 14,3 % auf dem Multimodal Reward Bench. Darüber hinaus wird die Leistung von R1-Reward mit mehr Inferenzrechenleistung weiter gesteigert, was das Potenzial von RL-Algorithmen zur Optimierung von MRMs unterstreicht.
Wir stellen ReplaceMe vor, eine generalisierte, trainingsfreie Methode zur Tiefenreduzierung, die Transformer-Blöcke effektiv durch eine lineare Operation ersetzt und dabei eine hohe Leistung bei niedrigen Kompressionsraten beibehält. Im Gegensatz zu herkömmlichen Reduzierungsansätzen, die zusätzliches Training oder Feinabstimmung erfordern, benötigt unser Ansatz lediglich einen kleinen Kalibrierungsdatensatz, der zur Schätzung einer linearen Transformation verwendet wird, um die reduzierten Blöcke zu approximieren. Diese geschätzte lineare Abbildung kann nahtlos mit den verbleibenden Transformer-Blöcken zusammengeführt werden, wodurch der Bedarf an zusätzlichen Netzwerkparametern entfällt. Unsere Experimente zeigen, dass ReplaceMe andere trainingsfreie Ansätze konsequent übertrifft und mit state-of-the-art Reduzierungsmethoden, die umfangreiche Neuausbildungen/Feinabstimmungen und architektonische Modifikationen beinhalten, hochgradig wettbewerbsfähig bleibt. Angewendet auf mehrere große Sprachmodelle (LLMs), erreicht ReplaceMe eine Reduzierung von bis zu 25 %, während etwa 90 % der ursprünglichen Leistung des Modells auf offenen Benchmarks erhalten bleiben – ohne jegliche Trainings- oder Heilungsschritte, was zu minimalem Rechenaufwand führt (siehe Abb. 1). Wir stellen eine Open-Source-Bibliothek zur Verfügung, die ReplaceMe zusammen mit mehreren state-of-the-art Techniken zur Tiefenreduzierung implementiert, verfügbar in diesem Repository.
Chain-of-Thought (CoT)-Reasoning in großen Sprachmodellen (LLMs) kann als ein latentes Variablenproblem formalisiert werden, bei dem das Modell Zwischenschritte der Argumentation generieren muss. Während frühere Ansätze wie das iterative Reward-Ranked Fine-Tuning (RAFT) auf solchen Formulierungen basierten, wenden sie typischerweise einheitliche Inferenzbudgets über alle Prompts hinweg an, was die Variabilität in Schwierigkeit und Konvergenzverhalten nicht berücksichtigt. Diese Arbeit identifiziert den Hauptengpass im CoT-Training als ineffiziente stochastische Gradientenschätzung aufgrund statischer Sampling-Strategien. Wir schlagen GVM-RAFT vor, eine prompt-spezifische dynamische Sample-Allokationsstrategie, die darauf abzielt, die Varianz des stochastischen Gradienten unter einer Rechenbudgetbeschränkung zu minimieren. Die Methode weist Rechenressourcen dynamisch zu, indem sie die Akzeptanzraten der Prompts und die Normen der stochastischen Gradienten überwacht, um sicherzustellen, dass die resultierende Gradientenvarianz minimiert wird. Unsere theoretische Analyse zeigt, dass die vorgeschlagene dynamische Sampling-Strategie unter geeigneten Bedingungen zu beschleunigten Konvergenzgarantien führt. Experimente zur mathematischen Argumentation zeigen, dass GVM-RAFT eine 2-4-fache Beschleunigung und erhebliche Genauigkeitsverbesserungen gegenüber dem Standard-RAFT erreicht. Die vorgeschlagene dynamische Sampling-Strategie ist allgemein und kann in andere Reinforcement-Learning-Algorithmen wie GRPO integriert werden, was zu ähnlichen Verbesserungen in Konvergenz und Testgenauigkeit führt. Unser Code ist verfügbar unter https://github.com/RLHFlow/GVM.
Echtzeitige, intelligente und natürliche Sprachinteraktion ist ein wesentlicher Bestandteil der nächsten Generation der Mensch-Computer-Interaktion. Jüngste Fortschritte haben das Potenzial aufgezeigt, intelligente Sprach-Chatbots auf der Grundlage großer Sprachmodelle (LLMs) zu entwickeln. In diesem Artikel stellen wir LLaMA-Omni 2 vor, eine Reihe von Sprachmodellen (SpeechLMs) mit Parametern von 0,5B bis 14B, die in der Lage sind, hochwertige Echtzeit-Sprachinteraktion zu erreichen. LLaMA-Omni 2 basiert auf den Qwen2.5-Serienmodellen und integriert einen Sprach-Encoder sowie einen autoregressiven Streaming-Sprach-Decoder. Obwohl LLaMA-Omni 2 nur mit 200K mehrstufigen Sprachdialogproben trainiert wurde, zeigt es eine starke Leistung bei mehreren Benchmarks für gesprochene Frage-Antwort-Systeme und Sprachbefolgung und übertrifft dabei bisherige State-of-the-Art-SpeechLMs wie GLM-4-Voice, die mit Millionen von Stunden Sprachdaten trainiert wurden.
Eine effektive Simulation sozialer Intelligenz erfordert, dass Sprachagenten die Tiefe ihrer Argumentation dynamisch anpassen können – eine Fähigkeit, die in aktuellen Ansätzen bemerkenswert fehlt. Während bestehende Methoden entweder diese Art von Argumentationsfähigkeit nicht besitzen oder einheitlich lange Ketten von Gedanken (Chain-of-Thought) in allen Szenarien erzwingen, führt dies zu übermäßigem Token-Verbrauch und unangemessener sozialer Simulation. In diesem Artikel schlagen wir Adaptive Mode Learning (AML) vor, das strategisch zwischen vier Denkmodi (intuitive Reaktion → tiefe Betrachtung) basierend auf dem Echtzeit-Kontext auswählt. Die Kerninnovation unseres Frameworks, der Adaptive Mode Policy Optimization (AMPO)-Algorithmus, führt drei wesentliche Verbesserungen gegenüber bestehenden Methoden ein: (1) Multi-granulare Gestaltung von Denkmodi, (2) Kontextbewusstes Wechseln zwischen Modi während sozialer Interaktionen und (3) Token-effiziente Argumentation durch tiefenadaptive Verarbeitung. Umfangreiche Experimente zu Aufgaben der sozialen Intelligenz bestätigen, dass AML eine um 15,6 % höhere Aufgabenleistung als state-of-the-art-Methoden erzielt. Insbesondere übertrifft unsere Methode GRPO um 7,0 % bei 32,8 % kürzeren Argumentationsketten. Diese Ergebnisse zeigen, dass die kontextsensitive Auswahl von Denkmoden, wie sie in AMPO implementiert ist, eine menschlichere, adaptive Argumentation ermöglicht als der feste Tiefenansatz von GRPO.
Wir adressieren eine grundlegende Herausforderung beim Reinforcement Learning from Interaction Demonstration (RLID): Rauschen in den Demonstrationen und deren begrenzte Abdeckung. Während bestehende Ansätze zur Datensammlung wertvolle Interaktionsdemonstrationen liefern, erzeugen sie oft spärliche, unzusammenhängende und verrauschte Trajektorien, die das gesamte Spektrum möglicher Fähigkeitsvariationen und Übergänge nicht erfassen. Unsere zentrale Erkenntnis ist, dass es trotz verrauschter und spärlicher Demonstrationen unendlich viele physikalisch realisierbare Trajektorien gibt, die natürlicherweise zwischen demonstrierten Fähigkeiten vermitteln oder aus deren benachbarten Zuständen hervorgehen und so einen kontinuierlichen Raum möglicher Fähigkeitsvariationen und Übergänge bilden. Aufbauend auf dieser Erkenntnis präsentieren wir zwei Datenaugmentierungstechniken: einen Stitched Trajectory Graph (STG), der potenzielle Übergänge zwischen demonstrierten Fähigkeiten entdeckt, und ein State Transition Field (STF), das eindeutige Verbindungen für beliebige Zustände in der Nachbarschaft der Demonstrationen herstellt. Um effektives RLID mit augmentierten Daten zu ermöglichen, entwickeln wir eine Adaptive Trajectory Sampling (ATS)-Strategie zur dynamischen Generierung eines Lehrplans und einen historischen Encodierungsmechanismus für das lernabhängige Erlernen von Fähigkeiten. Unser Ansatz ermöglicht eine robuste Fähigkeitserwerbung, die sich signifikant über die Referenzdemonstrationen hinaus verallgemeinert. Umfangreiche Experimente über diverse Interaktionsaufgaben hinweg zeigen deutliche Verbesserungen gegenüber state-of-the-art Methoden in Bezug auf Konvergenzstabilität, Generalisierungsfähigkeit und Wiederherstellungsrobustheit.
Aufgrund der Herausforderungen bei der manuellen Erfassung präziser Bearbeitungsdaten werden bestehende Datensätze typischerweise mit verschiedenen automatisierten Methoden erstellt, was zu verrauschten Überwachungssignalen führt, die durch die Diskrepanz zwischen Bearbeitungsanweisungen und Original-Bearbeitungs-Bildpaaren verursacht werden. Jüngste Bemühungen versuchen, Bearbeitungsmodelle durch die Generierung höherwertiger bearbeiteter Bilder, Vorabtraining auf Erkennungsaufgaben oder die Einführung von Vision-Language-Modellen (VLMs) zu verbessern, scheitern jedoch daran, dieses grundlegende Problem zu lösen. In diesem Artikel bieten wir eine neuartige Lösung, indem wir effektivere Bearbeitungsanweisungen für gegebene Bildpaare konstruieren. Dies umfasst die Korrektur der Bearbeitungsanweisungen, um sie besser mit den Original-Bearbeitungs-Bildpaaren in Einklang zu bringen, sowie die Verwendung kontrastiver Bearbeitungsanweisungen, um deren Wirksamkeit weiter zu steigern. Insbesondere stellen wir fest, dass Bearbeitungsmodelle in verschiedenen Inferenzschritten spezifische Generierungsattribute aufweisen, die unabhängig vom Text sind. Basierend auf diesen vorherigen Attributen definieren wir eine einheitliche Anleitung für VLMs, um Bearbeitungsanweisungen zu korrigieren. Es gibt jedoch einige anspruchsvolle Bearbeitungsszenarien, die nicht allein mit korrigierten Anweisungen gelöst werden können. Zu diesem Zweck konstruieren wir weiterhin kontrastive Überwachungssignale mit positiven und negativen Anweisungen und führen sie mithilfe von Triplet-Loss in das Modelltraining ein, wodurch die Wirksamkeit der Überwachung weiter gefördert wird. Unsere Methode erfordert weder die VLM-Module noch die Vorabtrainingsaufgaben, die in früheren Arbeiten verwendet wurden, und bietet einen direkteren und effizienteren Weg, um bessere Überwachungssignale bereitzustellen. Sie stellt somit eine neuartige, einfache und effektive Lösung für anweisungsbasierte Bildbearbeitung dar. Ergebnisse auf mehreren Benchmarks zeigen, dass unsere Methode bestehende Ansätze deutlich übertrifft. Im Vergleich zum bisherigen SOTA SmartEdit erzielen wir eine Verbesserung von 9,19 % auf dem Real-Edit-Benchmark bei 30-mal weniger Trainingsdaten und einer 13-mal kleineren Modellgröße.
Wir stellen Ming-Lite-Uni vor, ein Open-Source-Multimodal-Framework, das einen neu entwickelten einheitlichen visuellen Generator und ein natives multimodales autoregressives Modell zur Vereinigung von Vision und Sprache umfasst. Konkret bietet dieses Projekt eine Open-Source-Implementierung des integrierten MetaQueries- und M2-omni-Frameworks und führt gleichzeitig neuartige mehrstufige lernbare Tokens sowie eine mehrstufige Repräsentationsausrichtungsstrategie ein. Durch die Nutzung eines festen MLLM und eines lernbaren Diffusionsmodells ermöglicht Ming-Lite-Uni nativen multimodalen AR-Modellen, sowohl Text-zu-Bild-Generierung als auch auf Anweisungen basierende Bildbearbeitungsaufgaben durchzuführen, wodurch ihre Fähigkeiten über das reine visuelle Verständnis hinaus erweitert werden. Unsere experimentellen Ergebnisse demonstrieren die starke Leistung von Ming-Lite-Uni und veranschaulichen die beeindruckende Flüssigkeit seines interaktiven Prozesses. Der gesamte Code und die Modellgewichte sind Open-Source, um weitere Erkundungen innerhalb der Community zu fördern. Bemerkenswerterweise steht diese Arbeit im Einklang mit gleichzeitigen Meilensteinen der multimodalen KI – wie ChatGPT-4o mit nativer Bildgenerierung, aktualisiert am 25. März 2025 – und unterstreicht die breitere Bedeutung einheitlicher Modelle wie Ming-Lite-Uni auf dem Weg zur AGI. Ming-Lite-Uni befindet sich in der Alpha-Phase und wird bald weiter verfeinert.
Große Sprachmodelle (LLMs) haben beeindruckende Leistungen in verschiedenen Bereichen erzielt. Die erheblichen Hardware-Ressourcen, die für ihr Training erforderlich sind, stellen jedoch eine erhebliche Barriere für Effizienz und Skalierbarkeit dar. Um diese Herausforderung zu bewältigen, wurden Techniken für das Training mit niedriger Präzision weit verbreitet eingesetzt, was zu bemerkenswerten Fortschritten in der Trainingseffizienz geführt hat. Trotz dieser Fortschritte umfasst das Training mit niedriger Präzision mehrere Komponenten – wie Gewichte, Aktivierungen und Gradienten –, die jeweils in verschiedenen numerischen Formaten dargestellt werden können. Die daraus resultierende Vielfalt hat eine fragmentierte Landschaft in der Forschung zum Training mit niedriger Präzision geschaffen, was es Forschern erschwert, einen einheitlichen Überblick über das Feld zu gewinnen. Diese Übersichtsarbeit bietet eine umfassende Bewertung bestehender Methoden für das Training mit niedriger Präzision. Um diese Ansätze systematisch zu organisieren, kategorisieren wir sie in drei Hauptgruppen basierend auf ihren zugrunde liegenden numerischen Formaten, was ein Schlüsselfaktor für Hardware-Kompatibilität, Recheneffizienz und die einfache Referenz für Leser ist. Die Kategorien sind: (1) Festkomma- und Ganzzahl-basierte Methoden, (2) Gleitkomma-basierte Methoden und (3) benutzerdefinierte Format-basierte Methoden. Darüber hinaus diskutieren wir Quantisierungsbewusstes Training, das wichtige Ähnlichkeiten mit dem Training mit niedriger Präzision während der Vorwärtsausbreitung aufweist. Schließlich heben wir mehrere vielversprechende Forschungsrichtungen hervor, um dieses Feld voranzutreiben. Eine Sammlung der in dieser Übersichtsarbeit diskutierten Artikel ist unter https://github.com/Hao840/Awesome-Low-Precision-Training verfügbar.
Das Verständnis kausaler Ereignisbeziehungen und die präzise zeitliche Verankerung in Videos bleiben für Vision-Sprach-Modelle eine Herausforderung. Bestehende Methoden komprimieren entweder Video-Tokens, um die zeitliche Auflösung zu reduzieren, oder behandeln Videos als unsegmentierte Ströme, was feingranulare Ereignisgrenzen verschleiert und die Modellierung kausaler Abhängigkeiten einschränkt. Wir schlagen TEMPURA (Temporal Event Masked Prediction and Understanding for Reasoning in Action) vor, ein zweistufiges Trainingsframework, das das zeitliche Verständnis von Videos verbessert. TEMPURA wendet zunächst eine maskierte Ereignisvorhersage an, um fehlende Ereignisse zu rekonstruieren und schrittweise kausale Erklärungen aus dichten Ereignisanmerkungen zu generieren, inspiriert von effektiven Infilling-Techniken. Anschließend lernt TEMPURA, Videos zu segmentieren und dichte Beschreibungen zu erstellen, um Videos in sich nicht überschneidende Ereignisse mit detaillierten, zeitlich ausgerichteten Beschreibungen zu zerlegen. Wir trainieren TEMPURA auf VER, einem von uns kuratierten groß angelegten Datensatz, der 1M Trainingsinstanzen und 500K Videos mit zeitlich ausgerichteten Ereignisbeschreibungen und strukturierten Denkschritten umfasst. Experimente zu zeitlicher Verankerung und Highlight-Erkennung zeigen, dass TEMPURA starke Baseline-Modelle übertrifft, was bestätigt, dass die Integration von kausalem Denken mit feingranularer zeitlicher Segmentierung zu einem verbesserten Videoverständnis führt.
Aktuelle Ansätze zur Multi-Subjekt-Anpassung stehen vor zwei kritischen Herausforderungen: die Schwierigkeit, vielfältige Trainingsdaten für mehrere Subjekte zu beschaffen, und die Verflechtung von Attributen zwischen verschiedenen Subjekten. Um diese Lücken zu schließen, schlagen wir MUSAR vor – ein einfaches, aber effektives Framework, das eine robuste Multi-Subjekt-Anpassung ermöglicht, während nur Trainingsdaten für einzelne Subjekte benötigt werden. Erstens führen wir, um die Datenbeschränkung zu überwinden, das debiased diptych learning ein. Es konstruiert diptych-Trainingspaare aus Bildern einzelner Subjekte, um das Lernen mehrerer Subjekte zu erleichtern, während es gleichzeitig den durch die Diptych-Konstruktion eingeführten Verzerrungseffekt aktiv durch statisches Attention Routing und dual-branch LoRA korrigiert. Zweitens führen wir, um die Verflechtung zwischen Subjekten zu beseitigen, einen dynamischen Attention-Routing-Mechanismus ein, der adaptiv bijektive Abbildungen zwischen generierten Bildern und konditionalen Subjekten herstellt. Dieses Design erreicht nicht nur die Entkopplung von Multi-Subjekt-Repräsentationen, sondern bewahrt auch eine skalierbare Generalisierungsleistung bei zunehmenden Referenzsubjekten. Umfassende Experimente zeigen, dass unser MUSAR bestehende Methoden – selbst solche, die auf Multi-Subjekt-Datensätzen trainiert wurden – in Bezug auf Bildqualität, Subjektkonsistenz und Interaktionsnatürlichkeit übertrifft, obwohl es nur einen Single-Subjekt-Datensatz benötigt.
Aufmerksamkeitsmechanismen sind entscheidend für den Erfolg großer Sprachmodelle (LLMs) und treiben bedeutende Fortschritte in verschiedenen Bereichen voran. Bei graphstrukturierten Daten, die eine Betonung topologischer Verbindungen erfordern, bleiben sie jedoch im Vergleich zu Nachrichtenübermittlungsmechanismen auf festen Verbindungen, wie sie beispielsweise von Graph Neural Networks (GNNs) verwendet werden, zurück. Dies wirft die Frage auf: „Versagt die Aufmerksamkeit bei Graphen in natürlichen Sprachumgebungen?“ Motiviert durch diese Beobachtungen, haben wir eine empirische Studie aus der Perspektive von Aufmerksamkeitsmechanismen durchgeführt, um zu untersuchen, wie LLMs graphstrukturierte Daten verarbeiten. Das Ziel ist es, tiefere Einblicke in das Aufmerksamkeitsverhalten von LLMs über Graphstrukturen zu gewinnen. Wir haben einzigartige Phänomene bezüglich der Anwendung von Aufmerksamkeit auf graphstrukturierte Daten durch LLMs aufgedeckt und diese Erkenntnisse analysiert, um die Modellierung solcher Daten durch LLMs zu verbessern. Die wichtigsten Ergebnisse unserer Forschung sind: 1) Während LLMs Graphdaten erkennen und Text-Knoten-Interaktionen erfassen können, haben sie Schwierigkeiten, Inter-Knoten-Beziehungen innerhalb von Graphstrukturen aufgrund inhärenter architektonischer Einschränkungen zu modellieren. 2) Die Aufmerksamkeitsverteilung von LLMs über Graphknoten entspricht nicht idealen strukturellen Mustern, was auf ein Versagen bei der Anpassung an die Nuancen der Graphentopologie hinweist. 3) Weder vollständig verbundene Aufmerksamkeit noch feste Konnektivität sind optimal; jede hat spezifische Einschränkungen in ihren Anwendungsszenarien. Stattdessen verbessern Aufmerksamkeitsfenster im Zwischenzustand die Trainingsleistung von LLMs und gehen nahtlos in vollständig verbundene Fenster während der Inferenz über. Quellcode: https://github.com/millioniron/LLM_exploration{LLM4Exploration}
Aktuelle NeRF-Methoden für großflächige Szenen haben die Bedeutung der Szenenzerlegung für skalierbare NeRFs hervorgehoben. Obwohl eine vernünftige Skalierbarkeit erreicht wird, bleiben mehrere kritische Probleme unerforscht, wie z. B. lernbare Zerlegung, Modellierung der Szenenheterogenität und Modellierungseffizienz. In diesem Artikel stellen wir Switch-NeRF++ vor, ein Netzwerk aus heterogenen Hash-Experten (HMoHE), das diese Herausforderungen in einem einheitlichen Rahmenwerk adressiert. Es handelt sich um ein hochskalierbares NeRF, das heterogene Zerlegungen und heterogene NeRFs effizient für großflächige Szenen auf end-to-end Weise lernt. In unserem Rahmenwerk lernt ein Gating-Netzwerk, Szenen zu zerlegen und 3D-Punkte spezialisierten NeRF-Experten zuzuweisen. Dieses Gating-Netzwerk wird gemeinsam mit den Experten durch unser vorgeschlagenes Framework für spärlich gated Mixture of Experts (MoE) NeRF optimiert. Wir integrieren ein hash-basiertes Gating-Netzwerk und verschiedene heterogene Hash-Experten. Das hash-basierte Gating lernt effizient die Zerlegung der großflächigen Szene. Die verschiedenen heterogenen Hash-Experten bestehen aus Hash-Gittern mit unterschiedlichen Auflösungsbereichen, was ein effektives Lernen der heterogenen Darstellung verschiedener Szenenteile ermöglicht. Diese Designentscheidungen machen unser Framework zu einer end-to-end und hochskalierbaren NeRF-Lösung für die Modellierung realer großflächiger Szenen, um sowohl Qualität als auch Effizienz zu erreichen. Wir bewerten unsere Genauigkeit und Skalierbarkeit anhand bestehender großflächiger NeRF-Datensätze und eines neuen Datensatzes mit sehr großflächigen Szenen (>6,5 km²) aus UrbanBIS. Umfangreiche Experimente zeigen, dass unser Ansatz leicht auf verschiedene großflächige Szenen skaliert werden kann und die state-of-the-art Genauigkeit bei der Szenendarstellung erreicht. Darüber hinaus weist unsere Methode eine signifikante Effizienz auf, mit einer 8-fachen Beschleunigung im Training und einer 16-fachen Beschleunigung im Rendering im Vergleich zu Switch-NeRF. Die Codes werden unter https://github.com/MiZhenxing/Switch-NeRF veröffentlicht.
LLMs, die auf riesigen Datensätzen trainiert werden, können versehentlich sensible Informationen wie persönliche Details und potenziell schädliche Inhalte erlernen. Dieses Risiko wird in multimodalen LLMs noch verstärkt, da sie Informationen aus mehreren Modalitäten (Bild und Text) integrieren. Gegner können dieses Wissen durch multimodale Prompts ausnutzen, um sensible Details zu extrahieren. Die Bewertung, wie effektiv MLLMs solche Informationen vergessen können (zielgerichtetes Unlearning), erfordert die Erstellung hochwertiger, gut annotierter Bild-Text-Paare. Während sich frühere Arbeiten zum Unlearning auf Text konzentriert haben, bleibt multimodales Unlearning weitgehend unerforscht. Um diese Lücke zu schließen, führen wir zunächst einen multimodalen Unlearning-Benchmark, UnLOK-VQA (Unlearning Outside Knowledge VQA), sowie ein Angriffs- und Verteidigungsframework ein, um Methoden zum Löschen spezifischen multimodalen Wissens aus MLLMs zu bewerten. Wir erweitern einen visuellen Frage-Antwort-Datensatz mithilfe einer automatisierten Pipeline, die Proben mit unterschiedlicher Nähe zur Generalisierung und Spezifität generiert, gefolgt von einer manuellen Filterung zur Aufrechterhaltung der hohen Qualität. Anschließend bewerten wir sechs Verteidigungsziele gegen sieben Angriffe (vier Whitebox, drei Blackbox), darunter eine neuartige Whitebox-Methode, die die Interpretierbarkeit versteckter Zustände nutzt. Unsere Ergebnisse zeigen, dass multimodale Angriffe text- oder bildbasierte übertreffen und dass die effektivste Verteidigung Antwortinformationen aus internen Modellzuständen entfernt. Darüber hinaus zeigen größere Modelle eine höhere Robustheit nach der Bearbeitung, was darauf hindeutet, dass Skalierung die Sicherheit erhöht. UnLOK-VQA bietet einen rigorosen Benchmark für die Weiterentwicklung des Unlearnings in MLLMs.
Event-Kameras erfassen Bewegungsdynamiken und bieten eine einzigartige Modalität mit großem Potenzial für verschiedene Computer-Vision-Aufgaben. Allerdings steht die RGB-Event-Fusion vor drei intrinsischen Fehlausrichtungen: (i) zeitliche, (ii) räumliche und (iii) modale Fehlausrichtung. Bestehende Voxel-Grid-Repräsentationen vernachlässigen die zeitlichen Korrelationen zwischen aufeinanderfolgenden Ereignisfenstern, und ihre Formulierung durch einfache Akkumulation von asynchronen und spärlichen Ereignissen ist mit der synchronen und dichten Natur der RGB-Modalität inkompatibel. Um diese Herausforderungen zu bewältigen, schlagen wir eine neuartige Ereignisdarstellung vor, den Motion-enhanced Event Tensor (MET), der spärliche Ereignisvoxel durch die Nutzung von dichten optischen Flüssen und zeitlichen Ereignismerkmalen in eine dichte und zeitlich kohärente Form transformiert. Zusätzlich führen wir ein Frequency-aware Bidirectional Flow Aggregation Module (BFAM) und ein Temporal Fusion Module (TFM) ein. BFAM nutzt den Frequenzbereich und MET, um die modale Fehlausrichtung zu mildern, während bidirektionale Flussaggregation und zeitliche Fusionsmechanismen die raumzeitliche Fehlausrichtung beheben. Experimentelle Ergebnisse auf zwei groß angelegten Datensätzen zeigen, dass unser Framework die aktuellsten RGB-Event-Semantiksegmentierungsansätze deutlich übertrifft. Unser Code ist verfügbar unter: https://github.com/zyaocoder/BRENet.