Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle (LLMs) haben bemerkenswerte Erfolge in der natürlichen Sprachverarbeitung erzielt. Jüngste Fortschritte haben zur Entwicklung einer neuen Klasse von LLMs geführt, die auf logisches Denken spezialisiert sind; beispielsweise hat das Open-Source-Modell DeepSeek-R1 durch die Integration von tiefem Denken und komplexer Argumentation Spitzenleistungen erreicht. Trotz dieser beeindruckenden Fähigkeiten bleiben die internen Denkmechanismen solcher Modelle weitgehend unerforscht. In dieser Arbeit verwenden wir Sparse Autoencoder (SAEs), eine Methode zur Erstellung einer spärlichen Zerlegung latenter Repräsentationen eines neuronalen Netzwerks in interpretierbare Merkmale, um die Merkmale zu identifizieren, die das Denken in der DeepSeek-R1-Modellreihe antreiben. Zunächst schlagen wir einen Ansatz vor, um Kandidaten für „Denkmerkmale“ aus den SAE-Repräsentationen zu extrahieren. Wir validieren diese Merkmale durch empirische Analysen und Interpretationsmethoden und zeigen ihre direkte Korrelation mit den Denkfähigkeiten des Modells. Entscheidend ist, dass wir nachweisen, dass die gezielte Steuerung dieser Merkmale die Denkleistung systematisch verbessert, was den ersten mechanistischen Einblick in das Denken von LLMs bietet. Der Code ist verfügbar unter https://github.com/AIRI-Institute/SAE-Reasoning.
Mit der Fähigkeit, Trainingsdaten, Modellgröße und Rechenkosten zu skalieren, hat die Videogenerierung beeindruckende Ergebnisse in der digitalen Kreation erzielt, wodurch Nutzer ihre Kreativität in verschiedenen Domänen ausdrücken können. Kürzlich haben Forscher im Bereich der Large Language Models (LLMs) die Skalierung auf die Testzeit ausgeweitet, was die Leistung von LLMs durch den Einsatz von mehr Rechenleistung während der Inferenz erheblich verbessern kann. Anstatt Videofundamentmodelle durch teure Trainingskosten zu skalieren, untersuchen wir die Möglichkeiten des Test-Time Scaling (TTS) in der Videogenerierung, um die Frage zu beantworten: Wenn einem Videogenerierungsmodell eine nicht triviale Menge an Rechenleistung während der Inferenz zur Verfügung steht, wie sehr kann es die Generierungsqualität bei einer herausfordernden Textaufforderung verbessern? In dieser Arbeit interpretieren wir das Test-Time Scaling der Videogenerierung als ein Suchproblem, um bessere Trajektorien aus dem Gaußschen Rauschraum zur Zielvideoverteilung zu sampeln. Konkret bauen wir den Suchraum mit Test-Time-Verifizierern auf, die Feedback liefern, und heuristischen Algorithmen, die den Suchprozess leiten. Bei einer Textaufforderung untersuchen wir zunächst eine intuitive lineare Suchstrategie, indem wir die Rauschkandidaten während der Inferenz erhöhen. Da die vollständige Entrauschung aller Frames gleichzeitig hohe Rechenkosten während der Testzeit erfordert, entwerfen wir eine effizientere TTS-Methode für die Videogenerierung, genannt Tree-of-Frames (ToF), die Videobranchen in autoregressiver Weise adaptiv erweitert und beschneidet. Umfangreiche Experimente auf Benchmarks für textbedingte Videogenerierung zeigen, dass eine Erhöhung der Rechenleistung während der Testzeit konsequent zu signifikanten Verbesserungen der Videoqualität führt. Projektseite: https://liuff19.github.io/Video-T1
Die moderne Spieleentwicklung steht vor erheblichen Herausforderungen in Bezug auf Kreativität und Kosten aufgrund vordefinierter Inhalte in traditionellen Spiel-Engines. Jüngste Durchbrüche bei Video-Generierungsmodellen, die in der Lage sind, realistische und interaktive virtuelle Umgebungen zu synthetisieren, bieten eine Chance, die Spieleerstellung zu revolutionieren. In diesem Positionspapier schlagen wir Interactive Generative Video (IGV) als Grundlage für Generative Game Engines (GGE) vor, die eine unbegrenzte Erzeugung neuartiger Inhalte in der nächsten Generation von Spielen ermöglichen. GGE nutzt die einzigartigen Stärken von IGV in der unbegrenzten Synthese hochwertiger Inhalte, der physikbewussten Weltmodellierung, der benutzerkontrollierten Interaktivität, den Fähigkeiten zur Langzeitspeicherung und dem kausalen Denken. Wir präsentieren einen umfassenden Rahmen, der die Kernmodule von GGE detailliert beschreibt, sowie eine hierarchische Reifegrad-Roadmap (L0-L4), um deren Entwicklung zu leiten. Unsere Arbeit weist einen neuen Weg für die Spieleentwicklung im KI-Zeitalter und skizziert eine Zukunft, in der KI-gestützte generative Systeme grundlegend verändern, wie Spiele erstellt und erlebt werden.
DeepSeek-R1 hat gezeigt, dass lange Ketten von Denkprozessen (Chain-of-Thought, CoT) auf natürliche Weise durch ein einfaches Reinforcement-Learning (RL)-Framework mit regelbasierten Belohnungen entstehen können, wobei das Training direkt von den Basismodellen ausgehen kann – ein Paradigma, das als Zero-RL-Training bezeichnet wird. Die meisten aktuellen Bemühungen zur Reproduktion von Zero-RL-Training konzentrierten sich hauptsächlich auf die Qwen2.5-Modellreihe, die jedoch möglicherweise nicht repräsentativ ist, da wir feststellen, dass die Basismodelle bereits starke Fähigkeiten zur Befolgung von Anweisungen und zur Selbstreflexion aufweisen. In dieser Arbeit untersuchen wir Zero-RL-Training anhand von 10 verschiedenen Basismodellen, die unterschiedliche Familien und Größen umfassen, darunter LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B, Qwen2.5-math-7B und alle Qwen2.5-Modelle von 0.5B bis 32B. Durch die Nutzung mehrerer Schlüsselstrategien – wie die Anpassung des Format-Belohnungssystems und die Steuerung der Abfrageschwierigkeit – erzielen wir erhebliche Verbesserungen sowohl in der Genauigkeit der Schlussfolgerungen als auch in der Antwortlänge in den meisten Szenarien. Durch die sorgfältige Überwachung der Trainingsdynamik stellen wir jedoch fest, dass verschiedene Basismodelle während des Trainings unterschiedliche Muster aufweisen. Beispielsweise korreliert die erhöhte Antwortlänge nicht immer mit dem Auftreten bestimmter kognitiver Verhaltensweisen wie der Überprüfung (d. h. dem „Aha-Moment“). Bemerkenswerterweise beobachten wir den „Aha-Moment“ erstmals in kleinen Modellen, die nicht zur Qwen-Familie gehören. Wir teilen die Schlüsseldesigns, die ein erfolgreiches Zero-RL-Training ermöglichen, sowie unsere Erkenntnisse und Praktiken. Um weitere Forschungen zu erleichtern, stellen wir den Code, die Modelle und die Analysetools als Open Source zur Verfügung.
Die Integration von geometrischer Rekonstruktion und generativer Modellierung bleibt eine entscheidende Herausforderung bei der Entwicklung von KI-Systemen mit menschenähnlichem räumlichem Denkvermögen. Dieses Papier stellt Aether vor, ein einheitliches Framework, das geometrie-bewusstes Denken in Weltmodellen ermöglicht, indem es drei Kernfähigkeiten gemeinsam optimiert: (1) 4D-dynamische Rekonstruktion, (2) aktionsbedingte Videovorhersage und (3) zielbedingte visuelle Planung. Durch aufgabenverflochtenes Feature-Lernen erreicht Aether eine synergetische Wissensweitergabe über Rekonstruktions-, Vorhersage- und Planungsziele hinweg. Aufbauend auf Videogenerationsmodellen zeigt unser Framework eine beispiellose Generalisierung von synthetischen zu realen Daten, obwohl es während des Trainings niemals reale Weltdaten beobachtet hat. Darüber hinaus erreicht unser Ansatz eine Zero-Shot-Generalisierung sowohl bei Aufgaben der Aktionsfolge als auch der Rekonstruktion, dank seiner intrinsischen geometrischen Modellierung. Bemerkenswerterweise übertrifft die Rekonstruktionsleistung sogar die domänenspezifischer Modelle, obwohl keine realen Weltdaten verwendet wurden. Zusätzlich nutzt Aether einen geometrie-informierten Aktionsraum, um Vorhersagen nahtlos in Aktionen zu übersetzen und so eine effektive autonome Trajektorienplanung zu ermöglichen. Wir hoffen, dass unsere Arbeit die Gemeinschaft dazu inspiriert, neue Grenzen in der physikalisch plausiblen Weltmodellierung und ihren Anwendungen zu erkunden.
Omnimatte zielt darauf ab, ein gegebenes Video in semantisch bedeutungsvolle Schichten zu zerlegen, einschließlich des Hintergrunds und einzelner Objekte sowie ihrer zugehörigen Effekte wie Schatten und Reflexionen. Bestehende Methoden erfordern oft umfangreiches Training oder kostspielige selbstüberwachte Optimierung. In diesem Artikel präsentieren wir OmnimatteZero, einen trainingsfreien Ansatz, der vorgefertigte, vortrainierte Video-Diffusionsmodelle für Omnimatte nutzt. Es kann Objekte aus Videos entfernen, einzelne Objektschichten zusammen mit ihren Effekten extrahieren und diese Objekte in neue Videos einfügen. Wir erreichen dies, indem wir Zero-Shot-Bildinpainting-Techniken für die Entfernung von Objekten in Videos anpassen, eine Aufgabe, die sie von Haus aus nicht effektiv bewältigen können. Wir zeigen dann, dass Self-Attention-Maps Informationen über das Objekt und seine Spuren erfassen und verwenden diese, um die Effekte des Objekts zu inpainten, wodurch ein sauberer Hintergrund zurückbleibt. Darüber hinaus können durch einfache latente Arithmetik Objektschichten isoliert und nahtlos mit neuen Videolagen kombiniert werden, um neue Videos zu erzeugen. Evaluierungen zeigen, dass OmnimatteZero nicht nur eine überlegene Leistung in Bezug auf die Hintergrundrekonstruktion erzielt, sondern auch einen neuen Rekord für den schnellsten Omnimatte-Ansatz aufstellt und Echtzeitleistung mit minimaler Bildlaufzeit erreicht.
Fortschritte in der wissenschaftlichen Entdeckung sind selten das Ergebnis eines einzigen „Heureka“-Moments, sondern vielmehr das Produkt der Zusammenarbeit Hunderter Wissenschaftler, die schrittweise auf ein gemeinsames Ziel hinarbeiten. Während bestehende Agenten-Workflows in der Lage sind, autonom Forschung zu betreiben, tun sie dies isoliert, ohne die Möglichkeit, frühere Forschungsergebnisse kontinuierlich zu verbessern. Um diese Herausforderungen zu bewältigen, stellen wir AgentRxiv vor – ein Framework, das LLM-Agentenlaboren ermöglicht, Berichte auf einem gemeinsamen Preprint-Server hochzuladen und abzurufen, um zusammenzuarbeiten, Erkenntnisse auszutauschen und iterativ auf der Forschung der anderen aufzubauen. Wir beauftragen Agentenlabore, neue Reasoning- und Prompting-Techniken zu entwickeln, und stellen fest, dass Agenten mit Zugriff auf ihre frühere Forschung höhere Leistungssteigerungen erzielen im Vergleich zu isoliert arbeitenden Agenten (11,4 % relative Verbesserung gegenüber dem Baseline auf MATH-500). Wir beobachten, dass die beste Strategie auch auf Benchmarks in anderen Domänen verallgemeinerbar ist (durchschnittliche Verbesserung um 3,3 %). Mehrere Agentenlabore, die über AgentRxiv Forschung teilen, können gemeinsam auf ein Ziel hinarbeiten und schneller Fortschritte erzielen als isolierte Labore, wobei sie eine höhere Gesamtgenauigkeit erreichen (13,7 % relative Verbesserung gegenüber dem Baseline auf MATH-500). Diese Ergebnisse deuten darauf hin, dass autonome Agenten eine Rolle bei der Gestaltung zukünftiger KI-Systeme neben Menschen spielen könnten. Wir hoffen, dass AgentRxiv es Agenten ermöglicht, auf Forschungsziele hin zusammenzuarbeiten, und Forschern hilft, Entdeckungen zu beschleunigen.
Classifier-Free Guidance (CFG) ist eine weit verbreitete Technik in Diffusions-/Flow-Modellen, um die Bildqualität und Steuerbarkeit zu verbessern. In dieser Arbeit untersuchen wir zunächst analytisch die Auswirkungen von CFG auf Flow-Matching-Modelle, die auf Gaußschen Mischungen trainiert wurden, bei denen der Ground-Truth-Flow abgeleitet werden kann. Wir beobachten, dass CFG in den frühen Trainingsphasen, wenn die Flussschätzung ungenau ist, Proben in falsche Trajektorien lenkt. Aufbauend auf dieser Beobachtung schlagen wir CFG-Zero* vor, eine verbesserte Version von CFG mit zwei wesentlichen Beiträgen: (a) optimierte Skalierung, bei der ein Skalar optimiert wird, um die Ungenauigkeiten in der geschätzten Geschwindigkeit zu korrigieren, was den * im Namen erklärt; und (b) Zero-Init, bei dem die ersten Schritte des ODE-Solvers auf Null gesetzt werden. Experimente sowohl zur Text-zu-Bild-Generierung (Lumina-Next, Stable Diffusion 3 und Flux) als auch zur Text-zu-Video-Generierung (Wan-2.1) zeigen, dass CFG-Zero* CFG durchweg übertrifft, was seine Effektivität bei der Führung von Flow-Matching-Modellen unterstreicht. (Der Code ist verfügbar unter github.com/WeichenFan/CFG-Zero-star)
Große Sprachmodelle (LLMs) werden zunehmend in agentenbasierten Systemen eingesetzt, die mit einer externen Umgebung interagieren. Allerdings sind LLM-Agenten anfällig für Prompt-Injection-Angriffe, wenn sie nicht vertrauenswürdige Daten verarbeiten. In diesem Artikel schlagen wir CaMeL vor, eine robuste Verteidigungsmaßnahme, die eine Schutzschicht um das LLM erzeugt und es selbst dann sichert, wenn die zugrunde liegenden Modelle anfällig für Angriffe sein könnten. Um zu funktionieren, extrahiert CaMeL explizit die Kontroll- und Datenflüsse aus der (vertrauenswürdigen) Anfrage; daher können die vom LLM abgerufenen nicht vertrauenswürdigen Daten niemals den Programmfluss beeinflussen. Um die Sicherheit weiter zu verbessern, stützt sich CaMeL auf das Konzept einer Fähigkeit, um die Exfiltration privater Daten über nicht autorisierte Datenflüsse zu verhindern. Wir demonstrieren die Wirksamkeit von CaMeL, indem wir 67 % der Aufgaben mit nachweisbarer Sicherheit in AgentDojo [NeurIPS 2024], einem aktuellen Benchmark für agentenbasierte Sicherheit, lösen.
Die Bewertung generativer Grundlagenmodelle auf offene multimodale Verständnis- (MMU) und Generierungsaufgaben (MMG) über verschiedene Modalitäten hinweg (z. B. Bilder, Audio, Video) stellt aufgrund der Komplexität der cross-modalen Interaktionen erhebliche Herausforderungen dar. In diesem Zusammenhang hat sich die Idee etabliert, Multimodale LLMs (MLLMs) als automatisierte Bewerter einzusetzen, mit ermutigenden Ergebnissen bei der Bewertung von Aufgaben im Bereich des visuell-sprachlichen Verständnisses. Dieser Beitrag erweitert den Ansatz von MLLM-as-a-Judge auf eine einheitliche Weise über Modalitäten hinweg, indem zwei Benchmarks eingeführt werden: TaskAnything und JudgeAnything, um jeweils die Gesamtleistung und die Bewertungsfähigkeiten von MLLMs bei Any-to-Any-Modalitätsaufgaben zu evaluieren. Konkret bewertet TaskAnything die MMU- und MMG-Fähigkeiten über 15 Any-to-Any-Modalitätskategorien hinweg, wobei 1.500 Abfragen aus etablierten Benchmarks verwendet werden. Darüber hinaus evaluiert JudgeAnything die Bewertungsfähigkeiten von fünf fortschrittlichen Modellen (z. B. GPT-4o und Gemini-2.0-Flash) aus den Perspektiven des Paarvergleichs und der Bewertung von Punktzahlen, wobei ein standardisierter Testrahmen bereitgestellt wird, der menschliche Urteile und detaillierte Bewertungskriterien einbezieht. Unsere umfangreichen Experimente zeigen, dass diese MLLMs zwar vielversprechende Ergebnisse bei der Bewertung von MMU-Aufgaben erzielen (d. h. durchschnittlich 66,55 % im Paarvergleich und 42,79 % bei der Bewertung von Punktzahlen), jedoch erhebliche Schwierigkeiten mit MMG-Aufgaben haben (d. h. durchschnittlich nur 53,37 % im Paarvergleich und 30,05 % bei der Bewertung von Punktzahlen), was auf cross-modale Verzerrungen und Halluzinationsprobleme hinweist. Um dies zu adressieren, präsentieren wir OmniArena, eine automatisierte Plattform zur Bewertung von Omni-Modellen und multimodalen Belohnungsmodellen. Unsere Arbeit unterstreicht die Notwendigkeit fairerer Bewertungsprotokolle und einer stärkeren Ausrichtung an menschlichen Präferenzen. Der Quellcode und der Datensatz sind öffentlich verfügbar unter: https://urrealhero.github.io/judgeanythingweb/.
Wir stellen FFN Fusion vor, eine Architektur-Optimierungstechnik, die die sequenzielle Berechnung in großen Sprachmodellen reduziert, indem natürliche Möglichkeiten für Parallelisierung identifiziert und genutzt werden. Unsere zentrale Erkenntnis ist, dass Sequenzen von Feed-Forward-Netzwerk-Schichten (FFN), insbesondere solche, die nach der Entfernung spezifischer Aufmerksamkeitsschichten übrig bleiben, oft mit minimalen Genauigkeitseinbußen parallelisiert werden können. Wir entwickeln eine methodische Vorgehensweise, um solche Sequenzen zu identifizieren und zu fusionieren, wodurch sie in parallele Operationen umgewandelt werden, die die Inferenzlatenz signifikant verringern, während das Modellverhalten erhalten bleibt. Durch die Anwendung dieser Techniken auf Llama-3.1-405B-Instruct entsteht Llama-Nemotron-Ultra-253B-Base (Ultra-253B-Base), ein effizientes und bald öffentlich verfügbares Modell, das eine 1,71-fache Beschleunigung der Inferenzlatenz und 35-fach geringere Kosten pro Token erreicht, bei gleichbleibend starker Leistung in Benchmarks. Umfangreiche Experimente mit Modellen von 49B bis 253B Parametern zeigen, dass FFN Fusion mit zunehmender Skalierung immer effektiver wird und bestehende Optimierungstechniken wie Quantisierung und Pruning ergänzen kann. Besonders interessant ist, dass sogar vollständige Transformer-Blöcke, die sowohl Aufmerksamkeits- als auch FFN-Schichten enthalten, manchmal parallelisiert werden können, was neue Richtungen für das Design neuronaler Architekturen nahelegt.
Große Vision-Sprach-Modelle (LVLMs) folgen typischerweise einem zweistufigen Trainingsparadigma – Vortraining und überwachtes Feinabstimmen. Kürzlich hat sich die Präferenzoptimierung, die aus dem Sprachbereich abgeleitet wurde, als effektive Nachtrainings-Verstärkungsstrategie zur Verbesserung der Fähigkeiten von LVLMs herausgestellt. Die Erstellung hochwertiger, von Menschen annotierter Präferenzdaten und die Entwicklung robuster Belohnungsmodelle zur Nachahmung dieser Präferenzen sind jedoch sowohl kostspielig als auch herausfordernd. Motiviert durch diese Beobachtung schlagen wir Vision-R1 vor, einen neuartigen, vision-gesteuerten R1-ähnlichen Verstärkungslernalgorithmus für LVLMs, der Modelle mit definitivem visuellem Feedback belohnt. Es werden lediglich kuratierte Instruktionsdaten genutzt, wodurch der Bedarf an spezialisierten Belohnungsmodellen und handgefertigten Präferenzdatensätzen entfällt. Wir integrieren eine kriteriengetriebene Belohnungsfunktion, die mehrdimensionales Feedback weiter einbindet, um Modellabschlüsse umfassend basierend auf der Logik der Vision-Aufgabe zu bewerten. Darüber hinaus führen wir eine progressive Regelverfeinerungsstrategie ein, die die Belohnungskriterien während des Trainings dynamisch anpasst, wodurch eine kontinuierliche Verbesserung des Modells ermöglicht und Belohnungshacking gemindert wird. Umfangreiche Experimente sowohl auf In-Distribution- als auch Out-of-Distribution-Benchmarks zeigen, dass das Feinabstimmen der 7B LVLMs mit Vision-R1 konsistente Leistungssteigerungen erzielt, mit Verbesserungen von bis zu 50 % und sogar das state-of-the-art Modell mit 10-facher Größe übertrifft.
Aktuelle generative Modelle, wie autoregressive und Diffusionsansätze, zerlegen das Lernen hochdimensionaler Datenverteilungen in eine Reihe einfacherer Teilaufgaben. Allerdings entstehen inhärente Konflikte bei der gemeinsamen Optimierung dieser Teilaufgaben, und bestehende Lösungen scheitern daran, diese Konflikte zu lösen, ohne Effizienz oder Skalierbarkeit zu opfern. Wir schlagen ein neuartiges äquivariantes Bildmodellierungsframework vor, das die Optimierungsziele über Teilaufgaben hinweg durch die Nutzung der Translationsinvarianz natürlicher visueller Signale inhärent ausrichtet. Unsere Methode führt (1) spaltenweise Tokenisierung ein, die die Translationssymmetrie entlang der horizontalen Achse verbessert, und (2) fensterbasierte kausale Aufmerksamkeit, die konsistente kontextuelle Beziehungen über Positionen hinweg erzwingt. Bei der Bewertung der klassenbedingten ImageNet-Generierung mit einer Auflösung von 256x256 erreicht unser Ansatz eine Leistung, die mit modernsten AR-Modellen vergleichbar ist, während weniger Rechenressourcen verwendet werden. Systematische Analysen zeigen, dass verbesserte Äquivarianz intertask-Konflikte reduziert, was die Zero-Shot-Generalisierung signifikant verbessert und die Synthese ultra-langer Bilder ermöglicht. Diese Arbeit etabliert das erste Framework für aufgabenausgerichtete Zerlegung in der generativen Modellierung und bietet Einblicke in effiziente Parameterfreigabe und konfliktfreie Optimierung. Der Code und die Modelle sind öffentlich unter https://github.com/drx-code/EquivariantModeling verfügbar.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten beim Lösen mathematischer Probleme gezeigt. Bisherige Ansätze konzentrieren sich jedoch hauptsächlich darauf, die Qualität korrekter Trainingsdaten zu verbessern, z. B. durch die Destillation hochwertiger korrekter Lösungen aus fortgeschrittenen Modellen, und vernachlässigen dabei den Wert, der in Fehlerdaten enthalten ist, was möglicherweise die reflektierende Fähigkeit des Modells beeinträchtigt. Obwohl einige Studien versuchen, Fehlerdaten zu nutzen, beinhalten diese oft komplexe Mechanismen, wie z. B. Monte-Carlo-Baumsuche (MCTS), um Fehlerknoten zu erkunden. In dieser Arbeit schlagen wir vor, die Fähigkeit von LLMs zur Problemlösung durch das Lernen aus Fehlern für mathematische Fortschritte (LEMMA) zu verbessern. LEMMA konstruiert Daten, die aus einer falschen Lösung mit einem fehlerhaften Schritt und einer Reflexionsverbindung zu einer korrekten Lösung für das Feinabstimmen bestehen. Insbesondere analysieren wir systematisch die vom Modell generierten Fehlertypen und führen eine fehlertypbasierte Fehlerverstärkungsmethode ein, um vielfältige und repräsentative Fehler zu sammeln. Korrekte Lösungen stammen entweder aus der Korrektur der Fehler oder aus einer Neuerstellung. Durch eine modellbewusste sanfte Reflexionsverbindung wird die fehlerhafte Lösung in die korrekte überführt. Durch das Feinabstimmen auf dem konstruierten Datensatz ist das Modell in der Lage, Fehler autonom während des Generierungsprozesses zu korrigieren, ohne auf externe Kritikmodelle angewiesen zu sein. Experimentelle Ergebnisse zeigen, dass LEMMA signifikante Leistungsverbesserungen gegenüber anderen starken Baselines erzielt.
Die Skalierung der Rechenleistung für das Vortraining von Sprachmodellen (LM) hat das Wachstum von menschlich verfassten Texten übertroffen, was zu Bedenken führt, dass Daten zum Engpass für die Skalierung von LMs werden könnten. Um das Vortraining in diesem datenbegrenzten Regime weiter zu skalieren, schlagen wir vor, dass die explizite Modellierung und Inferenz der latenten Gedanken, die dem Textgenerierungsprozess zugrunde liegen, die Dateneffizienz des Vortrainings erheblich verbessern kann. Intuitiv betrachtet unser Ansatz Webtexte als das komprimierte Endergebnis eines ausführlichen menschlichen Denkprozesses und sieht in den latenten Gedanken wichtiges kontextuelles Wissen und Schlussfolgerungsschritte, die für dateneffizientes Lernen entscheidend sind. Wir demonstrieren die Wirksamkeit unseres Ansatzes empirisch durch datenbegrenztes fortgesetztes Vortraining für Mathematik. Zunächst zeigen wir, dass synthetische Datenansätze zur Inferenz latenter Gedanken die Dateneffizienz signifikant verbessern und das Training mit der gleichen Menge an Rohdaten übertreffen (5,7\% \rightarrow 25,4\% auf MATH). Darüber hinaus demonstrieren wir die Inferenz latenter Gedanken ohne einen starken Lehrer, bei der ein LM seine eigene Leistung durch einen EM-Algorithmus bootstrappt, um die Fähigkeit des trainierten LMs und die Qualität der gedankenerweiterten Vortrainingsdaten iterativ zu verbessern. Wir zeigen, dass ein 1B-LM seine Leistung über mindestens drei Iterationen bootstrappen und Baselines, die mit Rohdaten trainiert wurden, deutlich übertreffen kann, mit zunehmenden Gewinnen durch zusätzliche Inferenzrechenleistung bei der Durchführung des E-Schritts. Die Gewinne aus der Skalierung der Inferenz und den EM-Iterationen deuten auf neue Möglichkeiten für die Skalierung des datenbegrenzten Vortrainings hin.
Natural Language to SQL (NL2SQL) hat mit großen Sprachmodellen (LLMs) bedeutende Fortschritte erzielt. Diese Modelle sind jedoch oft auf geschlossene Systeme und hohe Rechenressourcen angewiesen, was Herausforderungen in Bezug auf Datenschutz und Bereitstellung mit sich bringt. Im Gegensatz dazu haben kleine Sprachmodelle (SLMs) Schwierigkeiten mit NL2SQL-Aufgaben, da sie eine schlechte Leistung zeigen und nicht mit bestehenden Frameworks kompatibel sind. Um diese Probleme zu lösen, stellen wir Feather-SQL vor, ein neues leichtgewichtiges Framework, das speziell für SLMs entwickelt wurde. Feather-SQL verbessert die Ausführbarkeit und Genauigkeit von SQL durch 1) Schema-Bereinigung und -Verknüpfung sowie 2) Multi-Pfad- und Multi-Kandidaten-Generierung. Zusätzlich führen wir das 1+1-Modell-Kollaborationsparadigma ein, das ein leistungsstarkes, allgemeines Chat-Modell mit einem feinabgestimmten SQL-Spezialisten kombiniert, um starke analytische Fähigkeiten mit hochpräziser SQL-Generierung zu vereinen. Experimentelle Ergebnisse auf BIRD zeigen, dass Feather-SQL die NL2SQL-Leistung von SLMs verbessert, mit einer Steigerung von etwa 10 % bei Modellen ohne Feinabstimmung. Das vorgeschlagene Paradigma hebt die Genauigkeitsgrenze von SLMs auf 54,76 %, was seine Wirksamkeit unterstreicht.
3D Gaussian Splatting (3DGS) hat sich als leistungsstarke Darstellung für Echtzeit-Rendering mit hoher Leistung etabliert und ermöglicht eine Vielzahl von Anwendungen. Die Darstellung von 3D-Szenen mit zahlreichen expliziten Gaußschen Primitiven führt jedoch zu erheblichen Speicher- und Speicheroverheads. Aktuelle Studien haben gezeigt, dass hochwertiges Rendering mit einer deutlich reduzierten Anzahl von Gaußschen Primitiven erreicht werden kann, wenn diese mit hochpräzisen Attributen dargestellt werden. Dennoch stützen sich bestehende 3DGS-Kompressionsmethoden weiterhin auf eine relativ große Anzahl von Gaußschen Primitiven und konzentrieren sich hauptsächlich auf die Attributkompression. Dies liegt daran, dass eine kleinere Menge von Gaußschen Primitiven zunehmend empfindlich auf verlustbehaftete Attributkompression reagiert, was zu erheblichen Qualitätseinbußen führt. Da die Anzahl der Gaußschen Primitiven direkt mit den Rechenkosten verbunden ist, ist es entscheidend, die Anzahl der Gaußschen Primitiven effektiv zu reduzieren, anstatt nur den Speicher zu optimieren. In diesem Artikel schlagen wir die Optimized Minimal Gaussians Representation (OMG) vor, die den Speicherbedarf erheblich reduziert, während eine minimale Anzahl von Primitiven verwendet wird. Zunächst bestimmen wir die unterschiedlichen Gaußschen Primitiven von den nahegelegenen, wodurch Redundanz minimiert wird, ohne die Qualität zu beeinträchtigen. Zweitens schlagen wir eine kompakte und präzise Attributdarstellung vor, die sowohl Kontinuität als auch Unregelmäßigkeiten zwischen den Primitiven effizient erfasst. Darüber hinaus schlagen wir eine Sub-Vektor-Quantisierungstechnik zur verbesserten Darstellung von Unregelmäßigkeiten vor, die ein schnelles Training bei vernachlässigbarer Codebook-Größe ermöglicht. Umfangreiche Experimente zeigen, dass OMG den Speicherbedarf im Vergleich zum bisherigen Stand der Technik um fast 50 % reduziert und Rendering mit über 600 FPS bei gleichbleibend hoher Rendering-Qualität ermöglicht. Unser Quellcode ist unter https://maincold2.github.io/omg/ verfügbar.
Diffusionsmodelle haben bemerkenswerte Fähigkeiten in der Generierung visueller Inhalte gezeigt, bleiben jedoch aufgrund ihrer hohen Rechenkosten während der Inferenz eine Herausforderung für den Einsatz. Diese Rechenlast ergibt sich hauptsächlich aus der quadratischen Komplexität der Selbstaufmerksamkeit in Bezug auf die Bild- oder Videoauflösung. Während bestehende Beschleunigungsmethoden oft die Ausgabequalität beeinträchtigen oder kostspielige Neuberechnungen erfordern, stellen wir fest, dass die meisten Diffusionsmodelle mit niedrigeren Auflösungen vortrainiert sind, was eine Möglichkeit bietet, diese niedrigauflösenden Prioritäten für eine effizientere Inferenz zu nutzen, ohne die Leistung zu beeinträchtigen. In dieser Arbeit stellen wir Bottleneck Sampling vor, ein trainingsfreies Framework, das niedrigauflösende Prioritäten nutzt, um den Rechenaufwand zu reduzieren und gleichzeitig die Ausgabetreue zu bewahren. Bottleneck Sampling folgt einem Hoch-Niedrig-Hoch-Entrauschungs-Workflow: Es führt eine hochauflösende Entrauschung in den Anfangs- und Endphasen durch, während es in den Zwischenschritten mit niedrigeren Auflösungen arbeitet. Um Aliasing- und Unschärfeartefakte zu minimieren, verfeinern wir die Auflösungsübergangspunkte und passen die Entrauschungszeitpunkte in jeder Phase adaptiv an. Wir evaluieren Bottleneck Sampling sowohl bei Bild- als auch bei Videogenerierungsaufgaben, wobei umfangreiche Experimente zeigen, dass es die Inferenz um bis zu das 3-fache bei der Bildgenerierung und das 2,5-fache bei der Videogenerierung beschleunigt, während die Ausgabequalität über mehrere Bewertungsmetriken hinweg mit dem Standardprozess der Vollauflösungsabtastung vergleichbar bleibt. Der Code ist verfügbar unter: https://github.com/tyfeld/Bottleneck-Sampling
Jüngste Fortschritte bei Large Video Language Models (LVLMs) haben ihr Potenzial für multimodales Verständnis deutlich gemacht, doch die Bewertung ihrer faktischen Verankerung in Videokontexten bleibt eine kritische, ungelöste Herausforderung. Um diese Lücke zu schließen, führen wir Video SimpleQA ein, den ersten umfassenden Benchmark, der speziell für die Bewertung der Faktizität von LVLMs entwickelt wurde. Unsere Arbeit unterscheidet sich von bestehenden Video-Benchmarks durch die folgenden Schlüsselmerkmale: 1) Erforderliches Wissen: Es wird die Integration von externem Wissen über die explizite Erzählung hinaus gefordert; 2) Faktenorientierte Fragen: Sie zielen auf objektive, unbestrittene Ereignisse oder Beziehungen ab und vermeiden subjektive Interpretationen; 3) Definitive & kurze Antworten: Die Antworten sind eindeutig und definitiv korrekt in einem kurzen Format formuliert, was eine automatisierte Bewertung durch LLM-as-a-Judge-Frameworks mit minimaler Bewertungsvarianz ermöglicht; 4) Extern überprüft: Alle Annotationen werden rigoros anhand autoritativer externer Referenzen validiert, um die Zuverlässigkeit sicherzustellen; 5) Temporales Denken erforderlich: Die annotierten Fragetypen umfassen sowohl statisches Einzelbild-Verständnis als auch dynamisches temporales Denken, wodurch die Faktizität von LVLMs explizit unter langen Kontextabhängigkeiten bewertet wird. Wir evaluieren umfassend 41 state-of-the-art LVLMs und fassen die wichtigsten Erkenntnisse wie folgt zusammen: 1) Aktuelle LVLMs weisen bemerkenswerte Defizite in der faktischen Einhaltung auf, insbesondere bei Open-Source-Modellen. Das beste Modell, Gemini-1.5-Pro, erreicht lediglich einen F-Score von 54,4 %; 2) Testzeit-Compute-Paradigmen zeigen unbedeutende Leistungssteigerungen, was grundlegende Beschränkungen für die Verbesserung der Faktizität durch nachträgliche Berechnungen offenbart; 3) Retrieval-Augmented Generation zeigt konsistente Verbesserungen auf Kosten zusätzlicher Inferenzzeit, was einen kritischen Kompromiss zwischen Effizienz und Leistung darstellt.
Dieses Papier stellt AlphaSpace vor, eine neuartige Methodik, die entwickelt wurde, um die räumlichen Denkfähigkeiten von großen Sprachmodellen (LLMs) für die Navigation im 3D-Kartesischen Raum zu verbessern. AlphaSpace verwendet eine semantikbasierte Tokenisierungsstrategie, die Höheninformationen durch spezialisierte semantische Tokens kodiert, und integriert hauptsächlich symbolische synthetische Denkdaten. Dieser Ansatz ermöglicht es LLMs, Objekte präzise zu manipulieren, indem sie an spezifischen [x, y, z]-Koordinaten positioniert werden. Experimentelle Ergebnisse zeigen, dass AlphaSpace bestehende Modelle bei Manipulationsunteraufgaben deutlich übertrifft und eine Gesamtgenauigkeit von 66,67 % erreicht, verglichen mit 37,5 % für GPT-4o und 29,17 % für Claude 3.5 Sonnet.
Text-to-Video (T2V)-Generierung hat mit Diffusionsmodellen bedeutende Fortschritte gemacht. Dennoch haben bestehende Methoden weiterhin Schwierigkeiten, Attribute präzise zu verknüpfen, räumliche Beziehungen zu bestimmen und komplexe Interaktionen zwischen mehreren Subjekten zu erfassen. Um diese Einschränkungen zu überwinden, schlagen wir MagicComp vor, eine trainingsfreie Methode, die die kompositionelle T2V-Generierung durch eine zweiphasige Verfeinerung verbessert. Konkret: (1) Während der Konditionierungsphase führen wir die Semantic Anchor Disambiguation ein, die subjektspezifische Semantik verstärkt und Mehrdeutigkeiten zwischen Subjekten auflöst, indem schrittweise Richtungsvektoren semantischer Anker in die ursprüngliche Texteinbettung injiziert werden; (2) Während der Denoising-Phase schlagen wir Dynamic Layout Fusion Attention vor, die Grundierungs-Prioritäten und modelladaptive räumliche Wahrnehmung integriert, um Subjekte flexibel an ihre raumzeitlichen Regionen durch maskierte Aufmerksamkeitsmodulation zu binden. Darüber hinaus ist MagicComp ein modellagnostischer und vielseitiger Ansatz, der nahtlos in bestehende T2V-Architekturen integriert werden kann. Umfangreiche Experimente auf T2V-CompBench und VBench zeigen, dass MagicComp state-of-the-art Methoden übertrifft, was sein Potenzial für Anwendungen wie komplexe promptbasierte und trajektoriensteuerbare Videogenerierung unterstreicht. Projektseite: https://hong-yu-zhang.github.io/MagicComp-Page/.
In diesem Artikel stellen wir Diffusion-4K vor, ein neuartiges Framework für die direkte Synthese von ultrahochauflösenden Bildern mithilfe von Text-zu-Bild-Diffusionsmodellen. Die zentralen Fortschritte umfassen: (1) Aesthetic-4K-Benchmark: Um das Fehlen eines öffentlich verfügbaren 4K-Bildsynthese-Datensatzes zu beheben, haben wir Aesthetic-4K erstellt, einen umfassenden Benchmark für die Erzeugung ultrahochauflösender Bilder. Wir haben einen hochwertigen 4K-Datensatz mit sorgfältig ausgewählten Bildern und von GPT-4o generierten Bildunterschriften kuratiert. Zusätzlich führen wir die Metriken GLCM-Score und Kompressionsrate ein, um feine Details zu bewerten, kombiniert mit ganzheitlichen Maßnahmen wie FID, Aesthetics und CLIPScore für eine umfassende Bewertung ultrahochauflösender Bilder. (2) Wavelet-basiertes Fine-Tuning: Wir schlagen einen wavelet-basierten Fine-Tuning-Ansatz für das direkte Training mit fotorealistischen 4K-Bildern vor, der auf verschiedene latente Diffusionsmodelle anwendbar ist und dessen Wirksamkeit bei der Synthese hochdetaillierter 4K-Bilder demonstriert. Folglich erzielt Diffusion-4K beeindruckende Leistungen bei der Synthese hochwertiger Bilder und der Einhaltung von Textprompts, insbesondere wenn es von modernen großskaligen Diffusionsmodellen (z.B. SD3-2B und Flux-12B) angetrieben wird. Umfangreiche experimentelle Ergebnisse aus unserem Benchmark belegen die Überlegenheit von Diffusion-4K in der Synthese ultrahochauflösender Bilder.
Große Sprachmodelle (LLMs) haben verschiedene Bereiche erheblich vorangebracht, insbesondere das Programmieren, mathematisches Denken und logisches Problemlösen. Dennoch bleibt eine kritische Frage bestehen: Bleiben diese mathematischen Denkfähigkeiten erhalten, wenn LLMs mit kulturell angepassten mathematischen Problemen konfrontiert werden? Konkret: Wie schneiden LLMs ab, wenn sie mit mathematischen Problemen konfrontiert werden, die in kulturelle Kontexte eingebettet sind, die in den Mainstream-Webdaten für das Training von KI-Modellen nicht signifikant vertreten sind? Um dies zu untersuchen, haben wir sechs synthetische kulturelle Datensätze aus GSM8K generiert, einem weit verbreiteten Benchmark zur Bewertung der mathematischen Denkfähigkeiten von LLMs. Während wir die mathematische Logik und die numerischen Werte des ursprünglichen GSM8K-Testdatensatzes beibehalten, haben wir kulturelle Elemente wie Personennamen, Lebensmittel, Ortsnamen usw. angepasst. Diese kulturell angepassten Datensätze bieten einen zuverlässigeren Rahmen für die Bewertung des mathematischen Denkens von LLMs unter sich ändernden kulturellen Kontexten. Unsere Ergebnisse zeigen, dass LLMs mit mathematischen Problemen zu kämpfen haben, wenn sich die kulturellen Bezüge ändern, obwohl die zugrunde liegende mathematische Struktur konstant bleibt. Kleinere Modelle weisen größere Leistungseinbußen im Vergleich zu größeren Modellen auf. Interessanterweise deuten unsere Ergebnisse auch darauf hin, dass kulturelle Vertrautheit das mathematische Denken verbessern kann. Selbst Modelle ohne explizites mathematisches Training, aber mit Exposition gegenüber relevanten kulturellen Kontexten, übertreffen manchmal größere, mathematisch versierte Modelle bei kulturell eingebetteten mathematischen Problemen. Diese Studie unterstreicht die Auswirkungen des kulturellen Kontexts auf die mathematischen Denkfähigkeiten von LLMs und betont die Notwendigkeit von diverseren und repräsentativeren Trainingsdaten, um die Robustheit in realen Anwendungen zu verbessern. Die Benchmark-Datensätze und das Skript zur Reproduktion der Ergebnisse sind verfügbar unter https://github.com/akarim23131/Lost_in_Cultural_Translation.
Das jüngste exponentielle Wachstum von Large Language Models (LLMs) basierte auf GPU-basierten Systemen. CPUs entwickeln sich jedoch zunehmend als flexible und kostengünstigere Alternative, insbesondere für Inferenz- und Reasoning-Workloads. RISC-V gewinnt in diesem Bereich schnell an Bedeutung, da es sich um eine offene und herstellerneutrale Befehlssatzarchitektur (ISA) handelt. Allerdings sind die RISC-V-Hardware für LLM-Workloads und das entsprechende Software-Ökosystem noch nicht vollständig ausgereift und optimiert, insbesondere aufgrund der Anforderungen an domänenspezifische Anpassungen. Diese Arbeit zielt darauf ab, diese Lücke zu schließen, indem sie sich auf die Optimierung der LLM-Inferenz auf dem Sophon SG2042 konzentriert, dem ersten kommerziell erhältlichen Many-Core-RISC-V-CPU mit Vektorverarbeitungsfähigkeiten. Bei zwei aktuellen, für Reasoning optimierten State-of-the-Art-LLMs, DeepSeek R1 Distill Llama 8B und DeepSeek R1 Distill QWEN 14B, erreichen wir 4,32/2,29 Token/s für die Token-Generierung und 6,54/3,68 Token/s für die Prompt-Verarbeitung, mit einer Beschleunigung von bis zu 2,9x/3,0x im Vergleich zu unserer Baseline.
Die Beantwortung nicht-faktischer Fragen (Non-factoid Question-Answering, NFQA) stellt eine erhebliche Herausforderung dar, da sie durch ihren offenen Charakter, vielfältige Intentionen und die Notwendigkeit einer mehrdimensionalen Argumentation gekennzeichnet ist. Dies macht konventionelle Ansätze zur Beantwortung faktischer Fragen, einschließlich retrieval-augmentierter Generierung (Retrieval-Augmented Generation, RAG), unzureichend. Im Gegensatz zu faktischen Fragen haben nicht-faktische Fragen (Non-factoid Questions, NFQs) keine eindeutigen Antworten und erfordern die Synthese von Informationen aus mehreren Quellen über verschiedene Argumentationsdimensionen hinweg. Um diese Einschränkungen zu überwinden, führen wir Typed-RAG ein, ein typbewusstes, mehrdimensionales Dekompositionsframework innerhalb des RAG-Paradigmas für NFQA. Typed-RAG klassifiziert NFQs in verschiedene Typen – wie Debatte, Erfahrung und Vergleich – und wendet aspektbasierte Dekomposition an, um die Retrieval- und Generierungsstrategien zu verfeinern. Durch die Zerlegung mehrdimensionaler NFQs in ein-dimensionale Teilfragen und die Aggregation der Ergebnisse generiert Typed-RAG informativer und kontextuell relevantere Antworten. Zur Bewertung von Typed-RAG stellen wir Wiki-NFQA vor, einen Benchmark-Datensatz, der verschiedene NFQ-Typen abdeckt. Experimentelle Ergebnisse zeigen, dass Typed-RAG die Baselines übertrifft und damit die Bedeutung der typbewussten Dekomposition für effektives Retrieval und Generierung in NFQA unterstreicht. Unser Code und der Datensatz sind verfügbar unter https://github.com/TeamNLP/Typed-RAG{https://github.com/TeamNLP/Typed-RAG}.
Text-to-Video (T2V)-Generierung hat aufgrund ihrer Fähigkeit, realistische Videos aus textuellen Beschreibungen zu synthetisieren, erhebliche Aufmerksamkeit erregt. Allerdings haben bestehende Modelle Schwierigkeiten, eine Balance zwischen Recheneffizienz und hoher visueller Qualität zu finden, insbesondere auf ressourcenbeschränkten Geräten wie iGPUs und Mobiltelefonen. Die meisten bisherigen Arbeiten priorisieren die visuelle Detailtreue, während sie den Bedarf an kleineren, effizienteren Modellen, die für den Einsatz in der Praxis geeignet sind, übersehen. Um diese Herausforderung zu bewältigen, schlagen wir ein leichtgewichtiges T2V-Framework vor, genannt Hummingbird, das bestehende Modelle beschneidet und die visuelle Qualität durch visuelles Feedback-Lernen verbessert. Unser Ansatz reduziert die Größe des U-Nets von 1,4 Milliarden auf 0,7 Milliarden Parameter, was die Effizienz erheblich steigert, während die hochwertige Videogenerierung erhalten bleibt. Zusätzlich führen wir eine neuartige Datenverarbeitungspipeline ein, die Large Language Models (LLMs) und Video Quality Assessment (VQA)-Modelle nutzt, um die Qualität sowohl der Textprompts als auch der Videodaten zu verbessern. Um benutzergetriebenes Training und Stilanpassungen zu unterstützen, veröffentlichen wir den vollständigen Trainingscode, einschließlich Datenverarbeitung und Modelltraining. Umfangreiche Experimente zeigen, dass unsere Methode eine 31-fache Beschleunigung im Vergleich zu state-of-the-art Modellen wie VideoCrafter2 erreicht, während sie gleichzeitig die höchste Gesamtpunktzahl auf VBench erzielt. Darüber hinaus unterstützt unsere Methode die Generierung von Videos mit bis zu 26 Frames und adressiert damit die Einschränkungen bestehender U-Net-basierter Methoden bei der Erzeugung langer Videos. Bemerkenswerterweise erfordert der gesamte Trainingsprozess nur vier GPUs, liefert jedoch eine Leistung, die mit bestehenden führenden Methoden konkurrieren kann. Hummingbird bietet eine praktische und effiziente Lösung für die T2V-Generierung, die hohe Leistung, Skalierbarkeit und Flexibilität für reale Anwendungen kombiniert.
Das Ergebnis des Pre-Trainings von Large Language Models (LLMs) hängt stark von der Gewichtsinitialisierung und den Strategien zur Varianzkontrolle ab. Obwohl die Bedeutung der anfänglichen Varianzkontrolle in neuronalen Netzwerken im Allgemeinen gut dokumentiert ist, ist die Literatur zur Initialisierung und zur Steuerung ihres Wachstums während des LLM-Pre-Trainings speziell eher spärlich. In diesem Artikel führen wir das Layer Index Rescaling (LIR)-Gewichtsinitialisierungsschema und die Target Variance Rescaling (TVR)-Varianzkontrollstrategie ein. Experimente mit einem 1B-Parameter-LLaMA-Modell zeigen, dass eine bessere Varianzverwaltung durch diese Techniken erhebliche Verbesserungen bei der Leistung in nachgelagerten Aufgaben (bis zu 4,6 % bei gängigen Pre-Training-Benchmarks) bewirkt und extreme Aktivierungswerte reduziert, wodurch Herausforderungen im Zusammenhang mit Quantisierung und Training mit niedriger Präzision gemildert werden. Unser Code ist verfügbar unter: https://github.com/bluorion-com/weight_rescaling.
Wir präsentieren MetaSpatial, das erste auf Reinforcement Learning (RL) basierende Framework, das entwickelt wurde, um das 3D-räumliche Denken in Vision-Language-Modellen (VLMs) zu verbessern und die Echtzeit-Generierung von 3D-Szenen ohne die Notwendigkeit von hartkodierten Optimierungen zu ermöglichen. MetaSpatial adressiert zwei zentrale Herausforderungen: (i) das Fehlen von internalisiertem 3D-räumlichem Denken in VLMs, was ihre Fähigkeit einschränkt, realistische Layouts zu generieren, und (ii) die Ineffizienz des traditionellen überwachten Feinabstimmens (SFT) für Layout-Generierungsaufgaben, da perfekte Ground-Truth-Annotationen nicht verfügbar sind. Unsere Schlüsselinnovation ist ein mehrstufiger RL-basierter Optimierungsmechanismus, der physikbewusste Einschränkungen und gerenderte Bildbewertungen integriert, um sicherzustellen, dass die generierten 3D-Layouts kohärent, physikalisch plausibel und ästhetisch konsistent sind. Methodisch führt MetaSpatial einen adaptiven, iterativen Denkprozess ein, bei dem das VLM räumliche Anordnungen über mehrere Stufen hinweg verfeinert, indem es gerenderte Ausgaben analysiert und die Szenenkohärenz schrittweise verbessert. Empirische Auswertungen zeigen, dass MetaSpatial die räumliche Konsistenz und Formatierungsstabilität verschiedener Skalenmodelle signifikant verbessert. Nach dem Training sind Objektplatzierungen realistischer, ausgerichtet und funktional kohärenter, was die Wirksamkeit von RL für 3D-räumliches Denken in Anwendungen wie Metaverse, AR/VR, digitalen Zwillingen und Spielentwicklung bestätigt. Unser Code, Daten und Trainingspipeline sind öffentlich unter https://github.com/PzySeere/MetaSpatial verfügbar.
Obwohl natürliche Sprachanweisungen eine intuitive Möglichkeit bieten, die automatisierte Bildbearbeitung zu steuern, haben Deep-Learning-Modelle oft Schwierigkeiten, hochwertige Ergebnisse zu erzielen, was größtenteils auf die Herausforderungen bei der Erstellung großer, qualitativ hochwertiger Trainingsdatensätze zurückzuführen ist. Bisherige Arbeiten haben sich typischerweise auf Text-zu-Bild (T2I)-Generativmodelle verlassen, um Paare von Original- und bearbeiteten Bildern zu erzeugen, die die Eingabe/Ausgabe eines anweisungsgesteuerten Bildbearbeitungsmodells simulieren. Diese Bildpaare entsprechen jedoch oft nicht den spezifizierten Bearbeitungsanweisungen, was auf die Einschränkungen der T2I-Modelle zurückzuführen ist und sich negativ auf Modelle auswirkt, die mit solchen Datensätzen trainiert werden. Um dies zu beheben, stellen wir Instruct-CLIP vor, eine selbstüberwachte Methode, die die semantischen Veränderungen zwischen Original- und bearbeiteten Bildern lernt, um die Anweisungen in bestehenden Datensätzen zu verfeinern und besser auszurichten. Darüber hinaus passen wir Instruct-CLIP an, um mit verrauschten latenten Bildern und Diffusion-Zeitschritten umzugehen, sodass es zur Trainierung latenter Diffusionsmodelle (LDMs) [19] verwendet werden kann und effizient die Ausrichtung zwischen der Bearbeitungsanweisung und den Bildveränderungen im latenten Raum in jedem Schritt des Diffusionsprozesses sicherstellt. Wir verwenden Instruct-CLIP, um den InstructPix2Pix-Datensatz zu korrigieren und erhalten über 120.000 verfeinerte Proben, die wir dann zur Feinabstimmung ihres Modells verwenden, geleitet von unserer neuartigen, auf Instruct-CLIP basierenden Verlustfunktion. Das resultierende Modell kann Bearbeitungen erzeugen, die besser mit den gegebenen Anweisungen übereinstimmen. Unser Code und Datensatz sind verfügbar unter https://github.com/SherryXTChen/Instruct-CLIP.git.
Sprachmodelle haben in jüngster Zeit Fortschritte im Bereich des Denkens gemacht, doch erst durch multimodales Denken können wir das Potenzial voll ausschöpfen, um umfassendere, menschenähnliche kognitive Fähigkeiten zu erreichen. Diese Übersichtsarbeit bietet einen systematischen Überblick über die jüngsten Ansätze des multimodalen Denkens und kategorisiert sie in zwei Ebenen: sprachzentriertes multimodales Denken und kollaboratives multimodales Denken. Erstere umfasst Ein-Schritt-Wahrnehmung und aktive visuelle Wahrnehmung, bei der das Sehen hauptsächlich eine unterstützende Rolle im Sprachdenken spielt. Letztere beinhaltet die Generierung von Aktionen und die Aktualisierung des Zustands innerhalb des Denkprozesses, was eine dynamischere Interaktion zwischen den Modalitäten ermöglicht. Darüber hinaus analysieren wir die technische Entwicklung dieser Methoden, diskutieren ihre inhärenten Herausforderungen und stellen wichtige Benchmark-Aufgaben und Bewertungsmetriken zur Beurteilung der Leistung des multimodalen Denkens vor. Schließlich geben wir Einblicke in zukünftige Forschungsrichtungen aus den folgenden beiden Perspektiven: (i) vom visuell-sprachlichen Denken zum omnimodalen Denken und (ii) vom multimodalen Denken zu multimodalen Agenten. Diese Übersichtsarbeit zielt darauf ab, einen strukturierten Überblick zu bieten, der weitere Fortschritte in der Forschung zum multimodalen Denken inspirieren soll.
Diskrete visuelle Tokenizer transformieren Bilder in eine Sequenz von Tokens und ermöglichen so eine tokenbasierte visuelle Generierung, ähnlich wie bei Sprachmodellen. Dieser Prozess ist jedoch von Natur aus herausfordernd, da er sowohl die Komprimierung visueller Signale in eine kompakte Darstellung als auch deren Diskretisierung in einen festen Satz von Codes erfordert. Traditionelle diskrete Tokenizer lernen diese beiden Aufgaben typischerweise gemeinsam, was oft zu instabilem Training, geringer Codebuchauslastung und begrenzter Rekonstruktionsqualität führt. In diesem Artikel stellen wir CODA (COntinuous-to-Discrete Adaptation) vor, ein Framework, das Kompression und Diskretisierung entkoppelt. Anstatt diskrete Tokenizer von Grund auf zu trainieren, adaptiert CODA vorhandene kontinuierliche VAEs – die bereits für wahrnehmungsbasierte Kompression optimiert sind – durch einen sorgfältig gestalteten Diskretisierungsprozess in diskrete Tokenizer. Indem CODA sich hauptsächlich auf die Diskretisierung konzentriert, gewährleistet es ein stabiles und effizientes Training bei gleichzeitiger Beibehaltung der starken visuellen Treue kontinuierlicher VAEs. Empirisch erreicht unser Ansatz mit einem sechsmal geringeren Trainingsbudget als das Standard-VQGAN eine bemerkenswerte Codebuchauslastung von 100 % und beachtliche Rekonstruktions-FID-Werte (rFID) von 0,43 und 1,34 für eine 8-fache und 16-fache Kompression auf dem ImageNet 256×256-Benchmark.
In jüngster Zeit wurden große Fortschritte in der Videogenerierungstechnologie erzielt, was die breite Aufmerksamkeit von Wissenschaftlern auf sich gezogen hat. Um diese Technologie unter ressourcenbeschränkten Bedingungen in nachgelagerte Anwendungen zu integrieren, feintunen Forscher in der Regel vortrainierte Modelle basierend auf parameter-effizienten Methoden wie Adapter oder Lora. Obwohl diese Methoden das Wissen aus dem Quellbereich in den Zielbereich übertragen können, führt die geringere Anzahl von Trainingsparametern zu einer schlechten Anpassungsfähigkeit, und das Wissen aus dem Quellbereich kann dazu führen, dass der Inferenzprozess vom Zielbereich abweicht. In diesem Artikel argumentieren wir, dass unter ressourcenbeschränkten Bedingungen das Training eines kleineren Videogenerierungsmodells von Grund auf mit nur Millionen von Stichproben die parameter-effiziente Feinabstimmung größerer Modelle in nachgelagerten Anwendungen übertreffen kann: Der Kern liegt in der effektiven Nutzung von Daten und einer Curriculumstrategie. Am Beispiel der animierten Sticker-Generierung (ASG) konstruieren wir zunächst ein diskretes Rahmengenerierungsnetzwerk für Sticker mit niedriger Bildrate, um sicherzustellen, dass seine Parameter den Anforderungen des Modelltrainings unter ressourcenbeschränkten Bedingungen entsprechen. Um die Datenunterstützung für von Grund auf trainierte Modelle zu gewährleisten, entwickeln wir eine auf Dual-Masken basierende Datenverwendungsstrategie, die die Verfügbarkeit verbessert und die Vielfalt der begrenzten Daten erweitert. Um die Konvergenz unter Dual-Masken-Bedingungen zu erleichtern, schlagen wir eine schwierigkeitsadaptive Curriculum-Lernmethode vor, die die Probenentropie in statische und adaptive Komponenten zerlegt, um Proben von einfach bis schwierig zu erhalten. Das Experiment zeigt, dass unser ressourceneffizientes Dual-Masken-Trainingsframework quantitativ und qualitativ überlegen ist gegenüber parameter-effizienten Feinabstimmungsmethoden wie I2V-Adapter und SimDA, was die Machbarkeit unserer Methode für nachgelagerte Aufgaben unter ressourcenbeschränkten Bedingungen bestätigt. Der Code wird verfügbar sein.
Das Aufkommen großer Sprachmodelle und ihre Anwendungen als KI-Agenten haben die State-of-the-Art-Benchmarks für die Codegenerierung erheblich vorangetrieben und moderne Softwareentwicklungsaufgaben transformiert. Allerdings kämpfen diese Systeme selbst mit testzeitbasierten Reasoning-Modellen weiterhin mit komplexen Herausforderungen in der Softwareentwicklung. Diese Arbeit stellt CURA vor, ein System für Codeverständnis und Reasoning, das durch verbale Prozessüberwachung (VPS) erweitert wurde und eine Verbesserung von 3,65 % gegenüber Baseline-Modellen auf anspruchsvollen Benchmarks wie BigCodeBench erzielt. Darüber hinaus erreicht CURA in Kombination mit dem o3-mini-Modell und VPS-Techniken State-of-the-Art-Leistung. Diese Arbeit markiert einen Fortschritt bei der Integration von Reasoning-getriebenen Architekturen mit LLM-basierter Codegenerierung und ermöglicht agentenbasiertes Reasoning für Sprachmodelle zur Lösung komplexer Softwareentwicklungsaufgaben.
Wir führen die Aufgabe des Human Motion Unlearning ein, um die Synthese von toxischen Animationen zu verhindern, während die allgemeine Text-zu-Bewegung-Generierungsleistung erhalten bleibt. Das Unlearning toxischer Bewegungen ist herausfordernd, da diese sowohl aus expliziten Textprompts als auch aus implizit toxischen Kombinationen sicherer Bewegungen erzeugt werden können (z.B. ist „Treten“ eine Kombination aus „Bein laden und schwingen“). Wir schlagen den ersten Motion-Unlearning-Benchmark vor, indem wir toxische Bewegungen aus den großen und aktuellen Text-zu-Bewegung-Datensätzen HumanML3D und Motion-X filtern. Wir stellen Baselines vor, indem wir state-of-the-art Bild-Unlearning-Techniken anpassen, um räumlich-zeitliche Signale zu verarbeiten. Schließlich präsentieren wir ein neuartiges Motion-Unlearning-Modell basierend auf Latent Code Replacement, das wir LCR nennen. LCR ist trainingsfrei und eignet sich für die diskreten latenten Räume von state-of-the-art Text-zu-Bewegung-Diffusionsmodellen. LCR ist einfach und übertrifft die Baselines sowohl qualitativ als auch quantitativ konsistent. Projektseite: https://www.pinlab.org/hmu{https://www.pinlab.org/hmu}.
Die Weißabgleichkorrektur (White Balance, WB) in Szenen mit mehreren Lichtquellen bleibt eine anhaltende Herausforderung in der Computer Vision. Neuere Methoden haben fusionbasierte Ansätze untersucht, bei denen ein neuronales Netzwerk mehrere sRGB-Versionen eines Eingabebildes linear kombiniert, die jeweils mit vordefinierten WB-Voreinstellungen verarbeitet wurden. Wir zeigen jedoch, dass diese Methoden für gängige Szenarien mit mehreren Lichtquellen suboptimal sind. Darüber hinaus stützen sich bestehende fusionbasierte Methoden auf sRGB-WB-Datensätze, denen spezielle Bilder mit mehreren Lichtquellen fehlen, was sowohl das Training als auch die Bewertung einschränkt. Um diese Herausforderungen zu bewältigen, führen wir zwei wesentliche Beiträge ein. Erstens schlagen wir ein effizientes, transformerbasiertes Modell vor, das räumliche Abhängigkeiten über sRGB-WB-Voreinstellungen effektiv erfasst und lineare Fusionstechniken erheblich verbessert. Zweitens stellen wir einen umfangreichen Datensatz mit mehreren Lichtquellen vor, der über 16.000 sRGB-Bilder umfasst, die mit fünf verschiedenen WB-Einstellungen gerendert wurden, sowie WB-korrigierte Bilder. Unsere Methode erzielt eine Verbesserung von bis zu 100 % gegenüber bestehenden Techniken auf unserem neuen Datensatz zur Fusion von Bildern mit mehreren Lichtquellen.
Während die jüngsten Fortschritte in der Bildsuperauflösung (SR) kontinuierlich die wahrgenommene Qualität ihrer Ausgaben verbessern, können sie bei quantitativen Bewertungen oft versagen. Diese Inkonsistenz führt zu einem wachsenden Misstrauen gegenüber bestehenden Bildmetriken für SR-Bewertungen. Obwohl die Bildbewertung sowohl von der Metrik als auch von der Referenz-Ground-Truth (GT) abhängt, untersuchen Forscher typischerweise nicht die Rolle der GTs, da diese allgemein als „perfekte“ Referenzen akzeptiert werden. Aufgrund der Tatsache, dass die Daten in den frühen Jahren gesammelt wurden und andere Arten von Verzerrungen ignoriert wurden, weisen wir jedoch darauf hin, dass GTs in bestehenden SR-Datensätzen eine relativ schlechte Qualität aufweisen können, was zu verzerrten Bewertungen führt. Ausgehend von dieser Beobachtung interessieren wir uns in diesem Papier für die folgenden Fragen: Sind GT-Bilder in bestehenden SR-Datensätzen zu 100 % vertrauenswürdig für Modellbewertungen? Wie beeinflusst die GT-Qualität diese Bewertung? Und wie können faire Bewertungen vorgenommen werden, wenn unvollkommene GTs existieren? Um diese Fragen zu beantworten, präsentiert dieses Papier zwei Hauptbeiträge. Erstens zeigen wir durch eine systematische Analyse von sieben state-of-the-art SR-Modellen über drei realweltliche SR-Datensätze hinweg, dass SR-Leistungen konsistent durch GTs mit niedriger Qualität beeinflusst werden können und dass Modelle sich deutlich anders verhalten können, wenn die GT-Qualität kontrolliert wird. Zweitens schlagen wir eine neuartige wahrgenommene Qualitätsmetrik vor, den Relative Quality Index (RQI), der die relative Qualitätsdifferenz von Bildpaaren misst und somit die verzerrten Bewertungen, die durch unzuverlässige GTs verursacht werden, korrigiert. Unser vorgeschlagenes Modell erreicht eine deutlich bessere Übereinstimmung mit menschlichen Meinungen. Wir erwarten, dass unsere Arbeit der SR-Community Einblicke bietet, wie zukünftige Datensätze, Modelle und Metriken entwickelt werden sollten.
Große Vision-Sprach-Modelle (VLMs), wie GPT-4, haben bemerkenswerte Erfolge in verschiedenen Bereichen erzielt. Es gibt jedoch nur wenige Studien zur 3D-Innenraumgenerierung mit VLMs. Diese Arbeit betrachtet diese Aufgabe als ein Planungsproblem, das räumlichen und Layout-Gesundheitsbeschränkungen unterliegt. Um das Problem mit einem VLM zu lösen, schlagen wir einen neuen global-lokalen Baum-Suchalgorithmus vor. Global platziert die Methode jedes Objekt sequenziell und untersucht mehrere Platzierungen während jedes Platzierungsprozesses, wobei der Problemraum als Baum dargestellt wird. Um die Tiefe des Baums zu reduzieren, zerlegen wir die Szenenstruktur hierarchisch, d.h. auf Raumebene, Regionsebene, Bodenobjektebene und unterstützter Objektebene. Der Algorithmus generiert unabhängig die Bodenobjekte in verschiedenen Regionen und unterstützte Objekte, die auf verschiedenen Bodenobjekten platziert werden. Lokal zerlegen wir auch die Teilaufgabe, die Platzierung jedes Objekts, in mehrere Schritte. Der Algorithmus durchsucht den Baum des Problemraums. Um das VLM-Modell zu nutzen, um Positionen von Objekten zu erzeugen, diskretisieren wir die Draufsicht als ein dichtes Raster und füllen jede Zelle mit verschiedenen Emojis, um die Zellen unterscheidbar zu machen. Wir geben dem VLM das Emoji-Raster vor, und das VLM erzeugt eine sinnvolle Position für das Objekt, indem es die Position mit den Namen der Emojis beschreibt. Die quantitativen und qualitativen experimentellen Ergebnisse zeigen, dass unser Ansatz plausiblere 3D-Szenen erzeugt als state-of-the-art Ansätze. Unser Quellcode ist verfügbar unter https://github.com/dw-dengwei/TreeSearchGen.
Monokulare Tiefenschätzung (Monocular Depth Estimation, MDE) hat sich als eine zentrale Aufgabe in der Computer Vision etabliert und unterstützt zahlreiche Anwendungen in der realen Welt. Die Bereitstellung präziser Tiefenschätzungsmodelle auf ressourcenbeschränkten Edge-Geräten, insbesondere auf anwendungsspezifischen integrierten Schaltungen (Application-Specific Integrated Circuits, ASICs), stellt jedoch aufgrund des hohen Rechen- und Speicherbedarfs eine Herausforderung dar. Jüngste Fortschritte in der grundlegenden Tiefenschätzung liefern beeindruckende Ergebnisse, erschweren jedoch die Bereitstellung auf ASICs weiter. Um dies zu bewältigen, schlagen wir QuartDepth vor, das Post-Training-Quantisierung nutzt, um MDE-Modelle mit Hardwarebeschleunigungen für ASICs zu quantisieren. Unser Ansatz beinhaltet die Quantisierung sowohl von Gewichten als auch von Aktivierungen auf 4-Bit-Präzision, wodurch die Modellgröße und die Rechenkosten reduziert werden. Um die Leistungsverschlechterung zu minimieren, führen wir einen Aktivierungsglättungs- und Kompensationsalgorithmus ein, der vor und nach der Aktivierungsquantisierung angewendet wird, sowie eine Gewichtsrekonstruktionsmethode zur Minimierung von Fehlern bei der Gewichtsquantisierung. Darüber hinaus entwerfen wir einen flexiblen und programmierbaren Hardwarebeschleuniger, der Kernel-Fusion und maßgeschneiderte Anweisungsprogrammierbarkeit unterstützt, wodurch der Durchsatz und die Effizienz gesteigert werden. Experimentelle Ergebnisse zeigen, dass unser Framework eine wettbewerbsfähige Genauigkeit erreicht, während es eine schnelle Inferenz und eine höhere Energieeffizienz auf ASICs ermöglicht und so die Lücke zwischen hochleistungsfähiger Tiefenschätzung und praktischer Anwendbarkeit auf Edge-Geräten schließt. Code: https://github.com/shawnricecake/quart-depth
Die Weiterentwicklung der Fernerkundungstechnologie hat die räumliche Auflösung von Satellitenbildern verbessert, was detailliertere visuelle Darstellungen für vielfältige Interpretationen ermöglicht. Bestehende Methoden zeigen jedoch begrenzte Generalisierungsfähigkeiten über verschiedene Anwendungen hinweg. Während einige moderne Basismodelle Potenzial aufweisen, werden sie durch unzureichende Anpassungsfähigkeit über verschiedene Aufgaben hinweg behindert und verarbeiten hauptsächlich niedrigauflösende Bilder mit begrenzten Größen, wodurch sie hochauflösende Daten nicht vollständig nutzen oder umfassende Semantik großer Szenen nicht voll ausschöpfen können. Entscheidend ist, dass sich Fernerkundungsbilder grundlegend von natürlichen Bildern unterscheiden, da wichtige Vordergrundziele (z. B. maritime Objekte, künstliche Strukturen) oft nur minimale räumliche Anteile (~1%) einnehmen und eine spärliche Verteilung aufweisen. Die effiziente Modellierung von aufgabenübergreifend generalisierbarem Wissen aus langen 2D-Tokens (~100.000) stellt eine erhebliche Herausforderung dar, bleibt jedoch entscheidend für das Verständnis von Fernerkundungsbildern. Motiviert durch die selektiven Aufmerksamkeitsmechanismen des menschlichen visuellen Systems, schlagen wir DynamicVis vor, ein dynamisches visuelles Wahrnehmungs-Basismodell für Fernerkundungsbilder. Das Framework integriert ein neuartiges dynamisches Regionen-Wahrnehmungs-Backbone basierend auf dem selektiven Zustandsraummodell, das strategisch die Extraktion lokaler Details mit der Integration globaler Kontexte ausbalanciert und so eine recheneffiziente Kodierung großer Datenmengen bei gleichzeitiger Aufrechterhaltung der architektonischen Skalierbarkeit ermöglicht. Um den aufgabenübergreifenden Wissenstransfer zu verbessern, führen wir ein Multi-Instance-Learning-Paradigma ein, das Meta-Embedding-Repräsentationen nutzt und auf Millionen von Regionen-Annotationen trainiert wird. Bewertungen über neun nachgelagerte Aufgaben hinweg demonstrieren die Vielseitigkeit des Modells. DynamicVis erreicht eine mehrstufige Merkmalsmodellierung mit außergewöhnlicher Effizienz, verarbeitet (2048x2048) Pixel mit einer Latenz von 97 ms (6 % von ViT) und 833 MB GPU-Speicher (3 % von ViT).