Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Diffusionsmodelle für Super-Resolution (SR) erzeugen hochwertige visuelle Ergebnisse, erfordern jedoch hohe Rechenkosten. Trotz der Entwicklung mehrerer Methoden zur Beschleunigung von diffusionsbasierten SR-Modellen scheitern einige (z. B. SinSR) daran, realistische perzeptive Details zu erzeugen, während andere (z. B. OSEDiff) nicht existierende Strukturen halluzinieren können. Um diese Probleme zu überwinden, stellen wir RSD vor, eine neue Destillationsmethode für ResShift, eines der führenden diffusionsbasierten SR-Modelle. Unsere Methode basiert darauf, das Studentennetzwerk so zu trainieren, dass es Bilder erzeugt, bei denen ein neues, darauf trainiertes gefälschtes ResShift-Modell mit dem Lehrermodell übereinstimmt. RSD erreicht eine Einzelschritt-Restaurierung und übertrifft das Lehrermodell deutlich. Wir zeigen, dass unsere Destillationsmethode die andere Destillationsmethode für ResShift – SinSR – übertreffen kann, wodurch sie mit den state-of-the-art diffusionsbasierten SR-Destillationsmethoden gleichzieht. Im Vergleich zu SR-Methoden, die auf vortrainierten Text-zu-Bild-Modellen basieren, erzeugt RSD eine konkurrenzfähige perzeptive Qualität, liefert Bilder mit besserer Ausrichtung an die degradierten Eingabebilder und benötigt weniger Parameter und GPU-Speicher. Wir präsentieren experimentelle Ergebnisse auf verschiedenen realen und synthetischen Datensätzen, darunter RealSR, RealSet65, DRealSR, ImageNet und DIV2K.
Das Aufkommen von LLM-basierten Agenten markiert einen Paradigmenwechsel in der KI, der autonomen Systemen ermöglicht, zu planen, zu schlussfolgern, Werkzeuge zu nutzen und Erinnerungen zu bewahren, während sie mit dynamischen Umgebungen interagieren. Diese Arbeit bietet die erste umfassende Übersicht über Evaluierungsmethoden für diese zunehmend leistungsfähigen Agenten. Wir analysieren systematisch Evaluierungsbenchmarks und -rahmenwerke in vier kritischen Dimensionen: (1) grundlegende Fähigkeiten von Agenten, einschließlich Planung, Werkzeugnutzung, Selbstreflexion und Gedächtnis; (2) anwendungsspezifische Benchmarks für Web-, Softwareentwicklungs-, wissenschaftliche und konversationelle Agenten; (3) Benchmarks für Generalisten-Agenten; und (4) Rahmenwerke zur Evaluierung von Agenten. Unsere Analyse zeigt aufkommende Trends auf, darunter eine Hinwendung zu realistischeren, herausfordernden Evaluierungen mit kontinuierlich aktualisierten Benchmarks. Wir identifizieren auch kritische Lücken, die zukünftige Forschung angehen muss – insbesondere bei der Bewertung von Kosteneffizienz, Sicherheit und Robustheit sowie bei der Entwicklung feingranularer und skalierbarer Evaluierungsmethoden. Diese Übersicht kartiert die sich schnell entwickelnde Landschaft der Agenten-Evaluierung, zeigt die aufkommenden Trends in diesem Bereich auf, identifiziert aktuelle Grenzen und schlägt Richtungen für zukünftige Forschung vor.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten bei komplexen Aufgaben gezeigt. Jüngste Fortschritte in großen Denkmodellen (LRMs), wie OpenAI o1 und DeepSeek-R1, haben die Leistung in System-2-Denkdomänen wie Mathematik und Programmierung weiter verbessert, indem sie überwachtes Fein-Tuning (SFT) und Verstärkungslernen (RL) nutzten, um die Chain-of-Thought (CoT)-Denkprozesse zu verbessern. Allerdings führen längere CoT-Denksequenzen zwar zu einer verbesserten Leistung, bringen aber auch erheblichen Rechenaufwand mit sich, da sie ausführliche und redundante Ausgaben erzeugen, ein Phänomen, das als „Overthinking“ bekannt ist. In diesem Artikel präsentieren wir die erste strukturierte Übersicht, um den aktuellen Fortschritt bei der Erzielung effizienten Denkens in LLMs systematisch zu untersuchen und zu erforschen. Insgesamt, basierend auf den inhärenten Mechanismen von LLMs, kategorisieren wir bestehende Arbeiten in mehrere Schlüsselrichtungen: (1) modellbasiertes effizientes Denken, das die Optimierung von vollständigen Denkmodellen zu prägnanteren Denkmodellen oder das direkte Training effizienter Denkmodelle betrachtet; (2) ausgabebasiertes effizientes Denken, das darauf abzielt, Denkschritte und -länge während der Inferenz dynamisch zu reduzieren; (3) eingabebasiertes effizientes Denken, das die Denkeffizienz basierend auf Eigenschaften der Eingabeaufforderung wie Schwierigkeit oder Längensteuerung verbessern möchte. Zusätzlich führen wir die Verwendung effizienter Daten für das Training von Denkmodellen ein, untersuchen die Denkfähigkeiten kleiner Sprachmodelle und diskutieren Evaluierungsmethoden und Benchmarking.
Diese Arbeit stellt einen Rahmen vor, um zu bewerten, ob große Sprachmodelle (LLMs) mehr faktisches Wissen in ihren Parametern kodieren, als sie in ihren Ausgaben ausdrücken. Während einige Studien auf diese Möglichkeit hindeuten, hat keine dieses Phänomen klar definiert oder nachgewiesen. Wir schlagen zunächst eine formale Definition von Wissen vor, indem wir es für eine gegebene Frage als den Anteil der korrekt-inkorrekten Antwortpaare quantifizieren, bei denen die korrekte Antwort höher eingestuft wird. Dies führt zu externem und internem Wissen, abhängig von der Information, die zur Bewertung einzelner Antwortkandidaten verwendet wird: entweder die beobachtbaren Token-Wahrscheinlichkeiten des Modells oder seine Zwischenberechnungen. Verborgenes Wissen entsteht, wenn das interne Wissen das externe Wissen übersteigt. Anschließend präsentieren wir eine Fallstudie, in der wir diesen Rahmen auf drei populäre Open-Weights-LLMs in einem Closed-Book-QA-Setup anwenden. Unsere Ergebnisse zeigen, dass: (1) LLMs konsistent mehr faktisches Wissen intern kodieren, als sie extern ausdrücken, mit einer durchschnittlichen Lücke von 40 %. (2) Überraschenderweise ist einiges Wissen so tief verborgen, dass ein Modell eine Antwort intern perfekt kennen kann, sie jedoch nicht einmal generiert, trotz groß angelegter wiederholter Stichproben von 1.000 Antworten. Dies offenbart grundlegende Einschränkungen in den Generierungsfähigkeiten von LLMs, die (3) eine praktische Beschränkung für die Skalierung der Testzeit-Berechnung durch wiederholte Antwortstichproben in Closed-Book-QA darstellen: signifikante Leistungsverbesserungen bleiben unzugänglich, weil einige Antworten praktisch nie gesampelt werden, obwohl sie, wenn sie es wären, garantiert an erster Stelle eingestuft würden.
Die Verbesserung der Fähigkeiten zur logischen Schlussfolgerung von großen Sprachmodellen (LLMs) basiert typischerweise auf massiven Rechenressourcen und umfangreichen Datensätzen, was die Zugänglichkeit in ressourcenbeschränkten Umgebungen einschränkt. Unsere Studie untersucht das Potenzial von Reinforcement Learning (RL), um die logische Schlussfolgerung in kleinen LLMs zu verbessern, wobei der Fokus auf einem Modell mit 1,5 Milliarden Parametern liegt, DeepSeek-R1-Distill-Qwen-1.5B, unter strengen Einschränkungen: Training auf 4 NVIDIA A40 GPUs (jeweils 48 GB VRAM) innerhalb von 24 Stunden. Durch die Anpassung des Group Relative Policy Optimization (GRPO)-Algorithmus und die Erstellung eines kompakten, hochwertigen Datensatzes für mathematische Schlussfolgerungen führten wir drei Experimente durch, um das Modellverhalten und die Leistung zu untersuchen. Unsere Ergebnisse zeigen schnelle Fortschritte in der logischen Schlussfolgerung – z. B. stieg die Genauigkeit bei AMC23 von 63 % auf 80 % und AIME24 erreichte 46,7 %, womit o1-preview übertroffen wurde – unter Verwendung von nur 7.000 Stichproben und Trainingskosten von 42 US-Dollar, verglichen mit Tausenden von Dollar für Baseline-Modelle. Allerdings traten Herausforderungen wie Optimierungsinstabilität und Längenbeschränkungen bei längerem Training auf. Diese Ergebnisse unterstreichen die Wirksamkeit von RL-basiertem Fine-Tuning für kleine LLMs und bieten eine kosteneffiziente Alternative zu groß angelegten Ansätzen. Wir veröffentlichen unseren Code und unsere Datensätze als Open-Source-Ressourcen, die Einblicke in Kompromisse bieten und eine Grundlage für skalierbare, logisch schlussfolgerungsfähige LLMs in ressourcenbeschränkten Umgebungen schaffen. Alle Ressourcen sind verfügbar unter https://github.com/knoveleng/open-rs.
Physische KI-Systeme müssen die physische Welt wahrnehmen, verstehen und komplexe Handlungen ausführen. In diesem Artikel stellen wir die Cosmos-Reason1-Modelle vor, die die physische Welt verstehen und geeignete verkörperte Entscheidungen (z. B. nächste Handlungsschritte) in natürlicher Sprache durch lange Ketten von Denkprozessen generieren können. Wir beginnen mit der Definition von Schlüsselkompetenzen für die physische KI-Argumentation, wobei der Schwerpunkt auf physischem Alltagsverständnis und verkörperter Argumentation liegt. Um physisches Alltagsverständnis darzustellen, verwenden wir eine hierarchische Ontologie, die grundlegendes Wissen über Raum, Zeit und Physik erfasst. Für die verkörperte Argumentation stützen wir uns auf eine zweidimensionale Ontologie, die über verschiedene physische Verkörperungen hinweg verallgemeinert. Aufbauend auf diesen Fähigkeiten entwickeln wir zwei multimodale große Sprachmodelle, Cosmos-Reason1-8B und Cosmos-Reason1-56B. Wir kuratieren Daten und trainieren unsere Modelle in vier Phasen: Vision-Pre-Training, allgemeines überwachtes Feinabstimmen (SFT), physisches KI-SFT und physisches KI-Reinforcement Learning (RL) als Nachschulung. Um unsere Modelle zu bewerten, erstellen wir umfassende Benchmarks für physisches Alltagsverständnis und verkörperte Argumentation gemäß unseren Ontologien. Die Evaluationsergebnisse zeigen, dass physisches KI-SFT und Reinforcement Learning signifikante Verbesserungen bringen. Um die Entwicklung physischer KI zu fördern, werden wir unseren Code und vortrainierte Modelle unter der NVIDIA Open Model License auf https://github.com/nvidia-cosmos/cosmos-reason1 verfügbar machen.
Trotz der wachsenden Begeisterung für Multi-Agenten-Systeme (MAS), bei denen mehrere LLM-Agenten zusammenarbeiten, um Aufgaben zu erledigen, bleiben ihre Leistungssteigerungen in gängigen Benchmarks im Vergleich zu Einzelagenten-Frameworks minimal. Diese Lücke unterstreicht die Notwendigkeit, die Herausforderungen zu analysieren, die die Effektivität von MAS behindern. In diesem Artikel präsentieren wir die erste umfassende Studie zu den Herausforderungen von MAS. Wir analysieren fünf gängige MAS-Frameworks über mehr als 150 Aufgaben hinweg unter Einbeziehung von sechs erfahrenen menschlichen Annotatoren. Wir identifizieren 14 einzigartige Fehlermodi und schlagen eine umfassende Taxonomie vor, die auf verschiedene MAS-Frameworks anwendbar ist. Diese Taxonomie entsteht iterativ aus Übereinstimmungen zwischen drei Experten-Annotatoren pro Studie und erreicht einen Cohen’s Kappa-Wert von 0,88. Diese detaillierten Fehlermodi werden in drei Kategorien organisiert: (i) Spezifikations- und Systemdesign-Fehler, (ii) Fehlausrichtung zwischen Agenten und (iii) Aufgabenüberprüfung und -beendigung. Um skalierbare Bewertungen zu unterstützen, integrieren wir MASFT mit LLM-as-a-Judge. Wir untersuchen auch, ob identifizierte Fehler leicht verhindert werden könnten, indem wir zwei Interventionen vorschlagen: verbesserte Spezifikation von Agentenrollen und optimierte Orchestrierungsstrategien. Unsere Ergebnisse zeigen, dass die identifizierten Fehler komplexere Lösungen erfordern, was einen klaren Fahrplan für zukünftige Forschung aufzeigt. Wir stellen unseren Datensatz und den LLM-Annotator als Open Source zur Verfügung.
Die 3D-Formgenerierung hat durch die Entwicklung sogenannter „nativ“ 3D-Diffusionsmodelle, insbesondere durch das Vecset Diffusion Model (VDM), erheblich an Bedeutung gewonnen. Obwohl jüngste Fortschritte vielversprechende Ergebnisse bei der Erzeugung hochauflösender 3D-Formen gezeigt haben, kämpft VDM immer noch mit der Hochgeschwindigkeitsgenerierung. Die Herausforderungen bestehen nicht nur in der Beschleunigung der Diffusionsabtastung, sondern auch in der VAE-Decodierung in VDM, Bereiche, die in früheren Arbeiten nur unzureichend erforscht wurden. Um diese Herausforderungen zu bewältigen, präsentieren wir FlashVDM, ein systematisches Framework zur Beschleunigung sowohl von VAE als auch von DiT in VDM. Für DiT ermöglicht FlashVDM eine flexible Diffusionsabtastung mit nur 5 Inferenzschritten und vergleichbarer Qualität, was durch die Stabilisierung der Konsistenzdestillation mit unserer neu eingeführten Progressive Flow Distillation erreicht wird. Für VAE führen wir einen blitzschnellen Vecset-Decoder ein, der mit Adaptive KV Selection, Hierarchical Volume Decoding und Efficient Network Design ausgestattet ist. Durch die Nutzung der Lokalität des Vecsets und der Sparsität der Formoberfläche im Volumen reduziert unser Decoder drastisch die FLOPs und minimiert den gesamten Decodierungsaufwand. Wir wenden FlashVDM auf Hunyuan3D-2 an, um Hunyuan3D-2 Turbo zu erhalten. Durch systematische Evaluation zeigen wir, dass unser Modell bestehende Methoden zur schnellen 3D-Generierung deutlich übertrifft und dabei eine vergleichbare Leistung wie der State-of-the-Art erzielt, während die Inferenzzeit für die Rekonstruktion um mehr als das 45-fache und für die Generierung um das 32-fache reduziert wird. Code und Modelle sind verfügbar unter https://github.com/Tencent/FlashVDM.
Wir stellen SwD vor, ein skalierungsbasiertes Destillationsframework für Diffusionsmodelle (DMs), das die Idee der nächsten Skalenvorhersage effektiv für diffusionsbasierte Generatoren mit wenigen Schritten nutzt. Im Detail lässt sich SwD von den jüngsten Erkenntnissen inspirieren, die Diffusionsprozesse mit impliziter spektraler Autoregression in Verbindung bringen. Wir nehmen an, dass DMs die Generierung bei niedrigeren Datenauflösungen starten und die Proben bei jedem Denoising-Schritt schrittweise hochskalieren können, ohne an Leistung einzubüßen, während die Rechenkosten erheblich reduziert werden. SwD integriert diese Idee nahtlos in bestehende Diffusionsdestillationsmethoden, die auf Verteilungsabgleich basieren. Zudem erweitern wir die Familie der Verteilungsabgleichsansätze durch eine neuartige Patch-Loss-Funktion, die eine feinkörnigere Ähnlichkeit zur Zielverteilung erzwingt. Bei der Anwendung auf state-of-the-art Text-zu-Bild-Diffusionsmodelle nähert sich SwD den Inferenzzeiten von zwei Schritten in voller Auflösung und übertrifft die Vergleichsmodelle bei gleichem Rechenbudget deutlich, wie durch automatisierte Metriken und menschliche Präferenzstudien belegt wird.
Kürzlich hat die aktionsbasierte Entscheidungsfindung in offenen Umgebungen erhebliche Aufmerksamkeit erlangt. Visuelle Sprach-Aktions-Modelle (Visual Language Action, VLA), die auf groß angelegten Webdatensätzen vortrainiert wurden, haben vielversprechende Ergebnisse bei Entscheidungsaufgaben gezeigt. Bisher lag der Fokus jedoch hauptsächlich auf der Nachschulung von Aktionen, wobei Verbesserungen am zugrunde liegenden Modell selbst oft vernachlässigt wurden. Als Antwort darauf stellen wir einen neuartigen Ansatz vor, „Act from Visual Language Post-Training“, der Visuelle Sprachmodelle (Visual Language Models, VLMs) durch visuelle und sprachliche Anleitung in einer selbstüberwachten Weise verfeinert. Diese Verbesserung steigert die Fähigkeiten der Modelle in Bezug auf Weltwissen, visuelle Erkennung und räumliche Verankerung in offenen Umgebungen. Basierend auf den oben genannten Nachschulungsparadigmen erhalten wir die ersten VLA-Modelle in Minecraft, die menschliche Anweisungen für über 1.000 verschiedene atomare Aufgaben befolgen können, darunter Handwerk, Schmelzen, Kochen, Bergbau und Töten. Unsere Experimente zeigen, dass die Nachschulung auf nicht-trajektorischen Aufgaben zu einer signifikanten Verbesserung von 40 % gegenüber der besten Agenten-Baseline bei einer Vielzahl von atomaren Aufgaben führt. Darüber hinaus demonstrieren wir, dass unser Ansatz traditionelle, auf Imitationslernen basierende Strategien in Minecraft übertrifft und state-of-the-art Leistung erzielt. Wir haben den Code, die Modelle und die Datensätze veröffentlicht, um weitere Forschungen zu fördern. Die Projektseite ist unter https://craftjarvis.github.io/JarvisVLA zu finden.
Die Realisierung flexibler und hochwertiger Bildgenerierung mit erhaltener Identität bleibt eine herausfordernde Aufgabe, insbesondere bei fortschrittlichen Diffusion Transformers (DiTs) wie FLUX. Wir stellen InfiniteYou (InfU) vor, eines der ersten robusten Frameworks, das DiTs für diese Aufgabe nutzt. InfU adressiert wesentliche Probleme bestehender Methoden, wie unzureichende Identitätsähnlichkeit, schlechte Text-Bild-Ausrichtung sowie geringe Generierungsqualität und Ästhetik. Kern von InfU ist InfuseNet, eine Komponente, die Identitätsmerkmale über Residualverbindungen in das DiT-Basismodell einspeist und so die Identitätsähnlichkeit verbessert, während die Generierungsfähigkeiten erhalten bleiben. Eine mehrstufige Trainingsstrategie, einschließlich Vorabtraining und überwachtem Feinabstimmen (SFT) mit synthetischen Einzelperson-Mehrfachproben-Daten (SPMS), verbessert die Text-Bild-Ausrichtung weiter, steigert die Bildqualität und reduziert das Kopieren von Gesichtern. Umfangreiche Experimente zeigen, dass InfU Spitzenleistungen erzielt und bestehende Baselines übertrifft. Darüber hinaus gewährleistet das Plug-and-Play-Design von InfU die Kompatibilität mit verschiedenen bestehenden Methoden und bietet somit einen wertvollen Beitrag für die breitere Community.
Die Rekonstruktion animierbarer 3D-Menschen aus einem einzelnen Bild ist ein herausforderndes Problem aufgrund der Mehrdeutigkeit bei der Trennung von Geometrie, Erscheinungsbild und Verformung. Aktuelle Fortschritte in der 3D-Menschrekonstruktion konzentrieren sich hauptsächlich auf die statische Modellierung von Menschen, und die Abhängigkeit von synthetischen 3D-Scans für das Training begrenzt deren Generalisierungsfähigkeit. Im Gegensatz dazu erreichen optimierungsbasierte Video-Methoden eine höhere Detailtreue, erfordern jedoch kontrollierte Aufnahmebedingungen und rechenintensive Verfeinerungsprozesse. Angeregt durch die Entwicklung großer Rekonstruktionsmodelle für eine effiziente statische Rekonstruktion, schlagen wir LHM (Large Animatable Human Reconstruction Model) vor, um hochdetaillierte Avatare, die als 3D-Gaussian-Splatting dargestellt werden, in einem Vorwärtspass zu inferieren. Unser Modell nutzt eine multimodale Transformer-Architektur, um die Positionsmerkmale des menschlichen Körpers und Bildmerkmale effektiv mit einem Aufmerksamkeitsmechanismus zu kodieren, wodurch die detaillierte Erhaltung der Kleidungsgeometrie und -textur ermöglicht wird. Um die Erhaltung der Gesichtsidentität und die Wiederherstellung feiner Details weiter zu verbessern, schlagen wir ein Pyramidencodierungsschema für Kopfmerkmale vor, um mehrskalige Merkmale der Kopfregionen zu aggregieren. Umfangreiche Experimente zeigen, dass unser LHM plausible animierbare Menschen in Sekunden ohne Nachbearbeitung für Gesicht und Hände erzeugt und dabei bestehende Methoden sowohl in der Rekonstruktionsgenauigkeit als auch in der Generalisierungsfähigkeit übertrifft.
Reasoning Large Language Models entwickeln sich rasant in verschiedenen Domänen. Ihre Fähigkeiten zur Bewältigung komplexer finanzieller Aufgaben bedürfen jedoch noch einer eingehenden Untersuchung. In diesem Artikel stellen wir Fin-R1 vor, einen Reasoning Large Language Model, der speziell für den Finanzsektor entwickelt wurde. Fin-R1 basiert auf einer zweistufigen Architektur und nutzt einen Finanzreasoning-Datensatz, der auf der Grundlage von DeepSeek-R1 destilliert und verarbeitet wurde. Durch überwachtes Fein-Tuning (Supervised Fine-Tuning, SFT) und Reinforcement Learning (RL) zeigt Fin-R1 eine Leistung, die nahe an DeepSeek-R1 heranreicht, bei einer Parametergröße von 7 Milliarden, über eine Reihe von Finanzreasoning-Aufgaben hinweg. Es erreicht den State-of-the-Art (SOTA) in den Aufgaben FinQA und ConvFinQA unter den in unserer Bewertung betrachteten LLMs und übertrifft auch größere Modelle in anderen Aufgaben. Fin-R1 demonstriert starke Reasoning- und Entscheidungsfähigkeiten und bietet Lösungen für verschiedene Probleme, die im Finanzbereich auftreten. Unser Code ist verfügbar unter https://github.com/SUFE-AIFLM-Lab/Fin-R1.
Diffusionsmodelle haben bemerkenswerte Erfolge bei verschiedenen Bildgenerierungsaufgaben gezeigt, doch ihre Leistung wird oft durch die gleichmäßige Verarbeitung von Eingaben unter verschiedenen Bedingungen und Rauschpegeln eingeschränkt. Um diese Einschränkung zu überwinden, schlagen wir einen neuartigen Ansatz vor, der die inhärente Heterogenität des Diffusionsprozesses nutzt. Unsere Methode, DiffMoE, führt einen batch-weiten globalen Token-Pool ein, der es Experten ermöglicht, während des Trainings auf globale Token-Verteilungen zuzugreifen und so spezialisiertes Expertenverhalten zu fördern. Um das volle Potenzial des Diffusionsprozesses auszuschöpfen, integriert DiffMoE einen Kapazitätsprädiktor, der Rechenressourcen dynamisch basierend auf Rauschpegeln und Probenkomplexität zuweist. Durch umfassende Evaluierungen erreicht DiffMoE state-of-the-art Leistungen unter Diffusionsmodellen auf dem ImageNet-Benchmark und übertrifft dabei sowohl dichte Architekturen mit 3x aktivierten Parametern als auch bestehende MoE-Ansätze deutlich, während nur 1x aktivierte Parameter beibehalten werden. Die Wirksamkeit unseres Ansatzes erstreckt sich über die klassenbedingte Generierung hinaus auf anspruchsvollere Aufgaben wie Text-zu-Bild-Generierung, was seine breite Anwendbarkeit in verschiedenen Diffusionsmodellanwendungen unterstreicht. Projektseite: https://shiml20.github.io/DiffMoE/
Wir widmen uns der Herausforderung, 3D-Welten aus textuellen Beschreibungen zu generieren. Wir stellen SynCity vor, einen Ansatz, der ohne Training und Optimierung auskommt und die geometrische Präzision vortrainierter 3D-Generatormodelle mit der künstlerischen Vielseitigkeit von 2D-Bildgeneratoren kombiniert, um großflächige, hochwertige 3D-Räume zu erschaffen. Während die meisten 3D-Generatormodelle objektzentriert sind und keine großflächigen Welten erzeugen können, zeigen wir, wie 3D- und 2D-Generatoren kombiniert werden können, um sich ständig erweiternde Szenen zu generieren. Durch einen tile-basierten Ansatz ermöglichen wir eine fein abgestimmte Kontrolle über das Layout und das Erscheinungsbild der Szenen. Die Welt wird tile-für-tile generiert, wobei jedes neue Tile in seinem Weltkontext erzeugt und anschließend mit der Szene verschmolzen wird. SynCity erzeugt überzeugende und immersive Szenen, die reich an Details und Vielfalt sind.
Video Large Language Models (VideoLLMs) haben die Fähigkeit demonstriert, längere Videoeingaben zu verarbeiten und komplexe Schlussfolgerungen und Analysen zu ermöglichen. Aufgrund der Tausenden von visuellen Tokens aus den Videobildern kann der Key-Value (KV)-Cache jedoch den Speicherbedarf erheblich erhöhen und so zu einem Engpass für die Inferenzgeschwindigkeit und Speichernutzung werden. Die KV-Cache-Quantisierung ist ein weit verbreiteter Ansatz, um dieses Problem zu lösen. In diesem Artikel stellen wir fest, dass eine 2-Bit-KV-Quantisierung von VideoLLMs die Modellleistung kaum beeinträchtigt, während die Grenze der KV-Cache-Quantisierung in noch niedrigeren Bitbreiten bisher nicht untersucht wurde. Um diese Lücke zu schließen, führen wir VidKV ein, eine Plug-and-Play-Methode zur KV-Cache-Quantisierung, die den KV-Cache auf weniger als 2 Bit komprimiert. Konkret (1) schlagen wir für den Key eine gemischte Präzisionsquantisierung in der Kanaldimension vor, bei der wir eine 2-Bit-Quantisierung für anomale Kanäle und eine 1-Bit-Quantisierung in Kombination mit FFT für normale Kanäle durchführen; (2) für den Value implementieren wir eine 1,58-Bit-Quantisierung, während wir semantisch bedeutsame visuelle Tokens selektiv filtern, um sie gezielt zu erhalten, für eine bessere Balance zwischen Präzision und Modellleistung. Wichtig ist, dass unsere Ergebnisse darauf hindeuten, dass der Value-Cache von VideoLLMs kanalweise quantisiert werden sollte, anstatt tokenweise, wie es in früheren KV-Cache-Quantisierungsarbeiten für LLMs vorgeschlagen wurde. Empirisch zeigen umfangreiche Ergebnisse mit LLaVA-OV-7B und Qwen2.5-VL-7B auf sechs Benchmarks, dass VidKV den KV-Cache effektiv auf 1,5-Bit- und 1,58-Bit-Präzision komprimiert, ohne nennenswerte Leistungseinbußen im Vergleich zu den FP16-Varianten.
Große Sprachmodelle (LLMs) haben beeindruckende Fortschritte im mathematischen Denken gezeigt. Obwohl Datenanreicherung vielversprechend ist, um die Fähigkeit zur Lösung mathematischer Probleme zu verbessern, beschränken sich aktuelle Ansätze überwiegend auf Instanz-ebene-Modifikationen – wie Umformulierungen oder die Erzeugung syntaktischer Variationen –, die die intrinsischen relationalen Strukturen, die dem mathematischen Wissen innewohnen, nicht erfassen und nutzen können. Inspiriert von menschlichen Lernprozessen, bei denen mathematische Kompetenz durch systematische Exposition gegenüber vernetzten Konzepten entwickelt wird, stellen wir MathFusion vor, ein neuartiges Framework, das das mathematische Denken durch die Synthese von Anweisungen über Probleme hinweg verbessert. MathFusion implementiert dies durch drei Fusionsstrategien: (1) sequenzielle Fusion, die verwandte Probleme verknüpft, um Lösungsabhängigkeiten zu modellieren; (2) parallele Fusion, die analoge Probleme kombiniert, um das konzeptuelle Verständnis zu stärken; und (3) konditionale Fusion, die kontextbewusste selektive Probleme erzeugt, um die Flexibilität des Denkens zu erhöhen. Durch die Anwendung dieser Strategien generieren wir einen neuen Datensatz, MathFusionQA, gefolgt vom Feinabstimmen von Modellen (DeepSeekMath-7B, Mistral-7B, Llama3-8B) darauf. Experimentelle Ergebnisse zeigen, dass MathFusion erhebliche Verbesserungen im mathematischen Denken erzielt, während eine hohe Dateneffizienz beibehalten wird, und die Leistung um 18,0 Punkte in der Genauigkeit über diverse Benchmarks hinweg steigert, während nur 45K zusätzliche synthetische Anweisungen benötigt werden, was eine deutliche Verbesserung gegenüber traditionellen Einzelanweisungsansätzen darstellt. Unsere Datensätze, Modelle und Code sind öffentlich verfügbar unter https://github.com/QizhiPei/mathfusion.
Dieses Papier schlägt ein grundlegend neues Paradigma für die Bildgenerierung durch mengenbasierte Tokenisierung und Verteilungsmodellierung vor. Im Gegensatz zu konventionellen Methoden, die Bilder in festpositionierte latente Codes mit einem einheitlichen Kompressionsverhältnis serialisieren, führen wir eine ungeordnete Token-Mengen-Darstellung ein, die die Kodierungskapazität dynamisch basierend auf der regionalen semantischen Komplexität zuweist. Diese TokenSet-Methode verbessert die Aggregation des globalen Kontexts und erhöht die Robustheit gegenüber lokalen Störungen. Um die entscheidende Herausforderung der Modellierung diskreter Mengen zu bewältigen, entwickeln wir einen dualen Transformationsmechanismus, der Mengen bijektiv in festlängige Integer-Sequenzen mit Summationsbeschränkungen umwandelt. Darüber hinaus schlagen wir Fixed-Sum Discrete Diffusion vor – das erste Framework, das gleichzeitig diskrete Werte, feste Sequenzlänge und Summeninvarianz behandelt – und ermöglichen so eine effektive Modellierung von Mengenverteilungen. Experimente demonstrieren die Überlegenheit unserer Methode in Bezug auf semantisch bewusste Darstellung und Generierungsqualität. Unsere Innovationen, die neuartige Darstellungs- und Modellierungsstrategien umfassen, bringen die visuelle Generierung über traditionelle sequenzielle Token-Paradigmen hinaus. Unser Code und unsere Modelle sind öffentlich verfügbar unter https://github.com/Gengzigang/TokenSet.
Wir präsentieren 3D Spatial MultiModal Memory (M3), ein multimodales Speichersystem, das darauf ausgelegt ist, Informationen über mittelgroße statische Szenen durch Videoquellen für die visuelle Wahrnehmung zu bewahren. Durch die Integration von 3D-Gaussian-Splatting-Techniken mit Foundation-Modellen erstellt M3 ein multimodales Gedächtnis, das in der Lage ist, Merkmalsrepräsentationen über verschiedene Granularitäten hinweg zu rendern und dabei ein breites Spektrum an Wissen abzudecken. In unserer Untersuchung identifizieren wir zwei zentrale Herausforderungen in früheren Arbeiten zum Feature-Splatting: (1) rechnerische Beschränkungen bei der Speicherung hochdimensionaler Merkmale für jedes Gaußsche Primitiv und (2) Fehlausrichtung oder Informationsverlust zwischen destillierten Merkmalen und Foundation-Modell-Merkmalen. Um diese Herausforderungen zu bewältigen, schlagen wir M3 mit Schlüsselkomponenten wie Hauptszenenkomponenten und Gaußscher Gedächtnisaufmerksamkeit vor, die effizientes Training und Inferenz ermöglichen. Zur Validierung von M3 führen wir umfassende quantitative Bewertungen der Merkmalsähnlichkeit und nachgelagerter Aufgaben durch sowie qualitative Visualisierungen, um die Pixelspur der Gaußschen Gedächtnisaufmerksamkeit hervorzuheben. Unser Ansatz umfasst eine Vielzahl von Foundation-Modellen, darunter Vision-Language-Modelle (VLMs), Wahrnehmungsmodelle sowie große multimodale und Sprachmodelle (LMMs/LLMs). Darüber hinaus demonstrieren wir die praktische Anwendbarkeit, indem wir das Merkmalsfeld von M3 in Innenraumszenen auf einem Quadruped-Roboter einsetzen. Bemerkenswerterweise behaupten wir, dass M3 die erste Arbeit ist, die die zentralen Kompressionsherausforderungen bei der 3D-Merkmal-Destillation adressiert.
Knowledge Editing (KE) ermöglicht die Modifikation veralteter oder falscher Informationen in großen Sprachmodellen (LLMs). Während bestehende KE-Methoden isolierte Fakten aktualisieren können, haben sie Schwierigkeiten, diese Aktualisierungen auf Multi-Hop-Schlussfolgerungsaufgaben zu verallgemeinern, die von den modifizierten Informationen abhängen. Durch eine Analyse von Reasoning Circuits – den neuronalen Pfaden, die LLMs für wissensbasierte Inferenz nutzen – beobachten wir, dass aktuelle, auf einzelne Schichten beschränkte KE-Ansätze wie MEMIT und WISE, die nur einzelne oder wenige Modellschichten bearbeiten, Schwierigkeiten haben, aktualisierte Informationen effektiv in diese Reasoning-Pfade zu integrieren. Um diese Einschränkung zu überwinden, schlagen wir CaKE (Circuit-aware Knowledge Editing) vor, eine neuartige Methode, die eine effektivere Integration aktualisierten Wissens in LLMs ermöglicht. CaKE nutzt strategisch kuratierte Daten, die durch unsere Circuit-basierte Analyse geleitet werden und das Modell dazu anregen, das modifizierte Wissen zu verwenden, wodurch es angeregt wird, geeignete Reasoning Circuits für neu integriertes Wissen zu entwickeln. Experimentelle Ergebnisse zeigen, dass CaKE eine genauere und konsistentere Nutzung aktualisierten Wissens über verwandte Schlussfolgerungsaufgaben hinweg ermöglicht, was zu einer durchschnittlichen Verbesserung der Multi-Hop-Schlussfolgerungsgenauigkeit um 20 % auf dem MQuAKE-Datensatz im Vergleich zu bestehenden KE-Methoden führt. Wir veröffentlichen den Code und die Daten unter https://github.com/zjunlp/CaKE.
Diese Arbeit befasst sich mit der Herausforderung der textbedingten Streaming-Bewegungsgenerierung, bei der die nächste menschliche Pose basierend auf variabler historischer Bewegungsdaten und eingehenden Texten vorhergesagt werden muss. Bestehende Methoden haben Schwierigkeiten, Streaming-Bewegungsgenerierung zu erreichen. Beispielsweise sind Diffusionsmodelle durch vordefinierte Bewegungsdauern eingeschränkt, während GPT-basierte Methoden unter verzögerten Reaktionen und Fehlerakkumulation aufgrund diskretisierter nicht-kausaler Tokenisierung leiden. Um diese Probleme zu lösen, schlagen wir MotionStreamer vor, ein neuartiges Framework, das einen kontinuierlichen kausalen latenten Raum in ein probabilistisches autoregressives Modell integriert. Die kontinuierlichen latenten Variablen mildern den Informationsverlust durch Diskretisierung und reduzieren effektiv die Fehlerakkumulation während der langfristigen autoregressiven Generierung. Darüber hinaus nutzt unser Modell durch die Herstellung zeitlicher kausaler Abhängigkeiten zwischen aktuellen und historischen Bewegungsdaten die verfügbaren Informationen vollständig, um eine präzise Online-Bewegungsdekodierung zu erreichen. Experimente zeigen, dass unsere Methode bestehende Ansätze übertrifft und gleichzeitig mehr Anwendungen bietet, darunter Mehrfachgenerierung, langfristige Generierung und dynamische Bewegungszusammensetzung. Projektseite: https://zju3dv.github.io/MotionStreamer/
Long-Context Transformer-Modelle (LCTMs) sind für reale Anwendungen von entscheidender Bedeutung, leiden jedoch unter hohen Rechenkosten aufgrund der quadratischen Komplexität der Aufmerksamkeitsmechanismen. Block-sparse Attention mildert dies, indem sie die Berechnung auf kritische Regionen konzentriert, doch bestehende Methoden kämpfen mit der Balance zwischen Genauigkeit und Effizienz aufgrund kostspieliger Messungen der Blockbedeutung. In diesem Artikel stellen wir XAttention vor, ein Plug-and-Play-Framework, das die Langkontext-Inferenz in Transformer-Modellen durch spärliche Aufmerksamkeit erheblich beschleunigt. Die zentrale Innovation von XAttention ist die Erkenntnis, dass die Summe der antidiagonalen Werte (d.h. von der unteren linken zur oberen rechten Ecke) in der Aufmerksamkeitsmatrix ein leistungsstarker Proxy für die Blockbedeutung darstellt. Dies ermöglicht die präzise Identifikation und das Beschneiden nicht-essentieller Blöcke, was zu hoher Sparsity und einer drastisch beschleunigten Inferenz führt. In umfassenden Bewertungen anspruchsvoller Langkontext-Benchmarks – einschließlich RULER und LongBench für Sprache, VideoMME für Videoverständnis und VBench für Videogenerierung – erreicht XAttention eine Genauigkeit, die der vollen Aufmerksamkeit vergleichbar ist, bei gleichzeitig erheblichen Rechengewinnen. Wir demonstrieren eine Beschleunigung der Aufmerksamkeitsberechnung um bis zu das 13,5-fache. Diese Ergebnisse unterstreichen die Fähigkeit von XAttention, das praktische Potenzial block-sparser Aufmerksamkeit zu erschließen und den Weg für eine skalierbare und effiziente Bereitstellung von LCTMs in realen Anwendungen zu ebnen. Der Code ist verfügbar unter https://github.com/mit-han-lab/x-attention.
4D Gaussian Splatting (4DGS) hat in letzter Zeit erhebliche Aufmerksamkeit als Methode zur Rekonstruktion dynamischer Szenen erlangt. Obwohl es eine überlegene Qualität erreicht, benötigt 4DGS typischerweise erheblichen Speicherplatz und leidet unter langsamer Render-Geschwindigkeit. In dieser Arbeit gehen wir auf diese Probleme ein und identifizieren zwei Hauptquellen für zeitliche Redundanz. (Q1) Kurzlebige Gaussians: 4DGS verwendet einen großen Anteil von Gaussians mit kurzer zeitlicher Spanne, um die Dynamik der Szene darzustellen, was zu einer übermäßigen Anzahl von Gaussians führt. (Q2) Inaktive Gaussians: Beim Rendern trägt nur eine kleine Teilmenge der Gaussians zu jedem Frame bei. Trotzdem werden alle Gaussians während der Rasterisierung verarbeitet, was zu redundanten Berechnungsaufwand führt. Um diese Redundanzen zu beheben, präsentieren wir 4DGS-1K, das auf modernen GPUs mit über 1000 FPS läuft. Für Q1 führen wir den Spatial-Temporal Variation Score ein, ein neues Kriterium zur Ausdünnung, das effektiv kurzlebige Gaussians entfernt und gleichzeitig 4DGS dazu anregt, die Dynamik der Szene mit Gaussians mit längerer zeitlicher Spanne zu erfassen. Für Q2 speichern wir eine Maske für aktive Gaussians über aufeinanderfolgende Frames, was die redundanten Berechnungen beim Rendering erheblich reduziert. Im Vergleich zu herkömmlichem 4DGS erreicht unsere Methode eine 41-fache Reduzierung des Speicherbedarfs und eine 9-fach schnellere Rasterisierungsgeschwindigkeit bei komplexen dynamischen Szenen, bei gleichbleibender visueller Qualität. Bitte besuchen Sie unsere Projektseite unter https://4DGS-1K.github.io.
Diffusionsmodelle haben sich als Mainstream-Framework in der visuellen Generierung etabliert. Aufbauend auf diesem Erfolg hat die Integration von Mixture of Experts (MoE)-Methoden vielversprechende Ergebnisse bei der Verbesserung der Skalierbarkeit und Leistung von Modellen gezeigt. In diesem Artikel stellen wir Race-DiT vor, ein neuartiges MoE-Modell für Diffusionstransformer mit einer flexiblen Routing-Strategie, Expert Race. Indem Token und Experten gemeinsam konkurrieren und die besten Kandidaten auswählen, lernt das Modell, Experten dynamisch kritischen Token zuzuweisen. Zusätzlich schlagen wir eine Regularisierung pro Schicht vor, um Herausforderungen beim Lernen in flachen Schichten zu bewältigen, sowie einen Router-Ähnlichkeitsverlust, um Modus-Kollaps zu verhindern und eine bessere Nutzung der Experten zu gewährleisten. Umfangreiche Experimente auf ImageNet bestätigen die Wirksamkeit unseres Ansatzes und zeigen signifikante Leistungssteigerungen bei vielversprechenden Skalierungseigenschaften.
Text-to-Image-Diffusionsmodelle haben in den letzten Jahren bemerkenswerte Fortschritte erzielt. Das Training von Modellen für die Erzeugung hochauflösender Bilder bleibt jedoch eine Herausforderung, insbesondere wenn Trainingsdaten und Rechenressourcen begrenzt sind. In diesem Artikel untersuchen wir dieses praktische Problem aus zwei zentralen Perspektiven: Daten- und Parameter-Effizienz, und schlagen eine Reihe von Schlüsselrichtlinien für die Ultra-HD-Anpassung vor, die als URAE bezeichnet wird. Im Hinblick auf die Dateneffizienz zeigen wir theoretisch und empirisch, dass synthetische Daten, die von einigen Lehrer-Modellen generiert werden, die Trainingskonvergenz erheblich fördern können. In Bezug auf die Parametereffizienz stellen wir fest, dass die Feinabstimmung kleiner Komponenten der Gewichtsmatrizen weit verbreitete Low-Rank-Adapter übertrifft, wenn synthetische Daten nicht verfügbar sind, und dabei erhebliche Leistungssteigerungen bei gleichbleibender Effizienz bietet. Darüber hinaus zeigen wir für Modelle, die auf Guidance-Distillation setzen, wie z. B. FLUX, dass das Deaktivieren der classifier-freien Guidance, d. h. das Setzen des Guidance-Skalas auf 1 während der Anpassung, entscheidend für eine zufriedenstellende Leistung ist. Umfangreiche Experimente bestätigen, dass URAE mit nur 3.000 Stichproben und 2.000 Iterationen eine vergleichbare 2K-Generierungsleistung wie state-of-the-art Closed-Source-Modelle wie FLUX1.1 [Pro] Ultra erreicht, während gleichzeitig neue Maßstäbe für die 4K-Auflösungsgenerierung gesetzt werden. Die Codes sind verfügbar unter https://github.com/Huage001/URAE{hier}.
In diesem Artikel stellen wir die Frage, ob wir ein zuverlässiges, selbstüberwachtes Punktwolkenmodell haben, das für verschiedene 3D-Aufgaben durch einfaches lineares Probing verwendet werden kann, selbst bei begrenzten Daten und minimalem Rechenaufwand. Wir stellen fest, dass bestehende Ansätze des selbstüberwachten Lernens in 3D bei der Bewertung der Repräsentationsqualität durch lineares Probing nicht überzeugen. Wir vermuten, dass dies auf das zurückzuführen ist, was wir als „geometrische Abkürzung“ bezeichnen, die dazu führt, dass Repräsentationen auf niedrige räumliche Merkmale kollabieren. Diese Herausforderung ist einzigartig für 3D und ergibt sich aus der spärlichen Natur von Punktwolkendaten. Wir begegnen ihr durch zwei Schlüsselstrategien: die Verschleierung räumlicher Informationen und die Stärkung der Abhängigkeit von Eingabemerkmalen, wodurch letztendlich eine Sonata von 140k Punktwolken durch Selbst-Distillation komponiert wird. Sonata ist einfach und intuitiv, doch die gelernten Repräsentationen sind stark und zuverlässig: Zero-Shot-Visualisierungen zeigen semantische Gruppierungen sowie ein starkes räumliches Verständnis durch Nearest-Neighbor-Beziehungen. Sonata zeigt eine außergewöhnliche Parameter- und Dateneffizienz, verdreifacht die Genauigkeit beim linearen Probing (von 21,8 % auf 72,5 %) auf ScanNet und verdoppelt nahezu die Leistung mit nur 1 % der Daten im Vergleich zu früheren Ansätzen. Vollständiges Fine-Tuning führt weiterhin zu State-of-the-Art-Ergebnissen bei sowohl 3D-Innenraum- als auch Außenraum-Wahrnehmungsaufgaben.
Jüngste Fortschritte in der Videogenerierung haben zu bemerkenswerten Verbesserungen in der visuellen Qualität und zeitlichen Kohärenz geführt. Darauf aufbauend hat sich die trajektorienkontrollierte Videogenerierung entwickelt, die eine präzise Steuerung der Objektbewegung durch explizit definierte räumliche Pfade ermöglicht. Allerdings kämpfen bestehende Methoden mit komplexen Objektbewegungen und der Steuerung von Mehrfachobjektbewegungen, was zu ungenauer Trajektorieneinhaltung, schlechter Objektkonsistenz und beeinträchtigter visueller Qualität führt. Darüber hinaus unterstützen diese Methoden nur die Trajektorienkontrolle in einem einzigen Format, was ihre Anwendbarkeit in verschiedenen Szenarien einschränkt. Zudem gibt es keinen öffentlich zugänglichen Datensatz oder Benchmark, der speziell für die trajektorienkontrollierte Videogenerierung entwickelt wurde, was eine robuste Trainings- und systematische Evaluierung behindert. Um diese Herausforderungen zu bewältigen, stellen wir MagicMotion vor, ein neuartiges Bild-zu-Video-Generierungsframework, das die Trajektorienkontrolle durch drei Bedingungsebenen von dicht bis spärlich ermöglicht: Masken, Begrenzungsrahmen und spärliche Rahmen. Bei einem Eingabebild und vorgegebenen Trajektorien animiert MagicMotion nahtlos Objekte entlang der definierten Pfade, während die Objektkonsistenz und visuelle Qualität erhalten bleiben. Darüber hinaus präsentieren wir MagicData, einen groß angelegten Datensatz für trajektorienkontrollierte Videos, sowie eine automatisierte Pipeline für Annotation und Filterung. Wir führen auch MagicBench ein, einen umfassenden Benchmark, der sowohl die Videoqualität als auch die Genauigkeit der Trajektorienkontrolle bei unterschiedlichen Objektzahlen bewertet. Umfangreiche Experimente zeigen, dass MagicMotion frühere Methoden in verschiedenen Metriken übertrifft. Unsere Projektseite ist öffentlich zugänglich unter https://quanhaol.github.io/magicmotion-site.
Die Erzeugung animierbarer Kopf-Avatare erfordert typischerweise umfangreiche Daten für das Training. Um den Datenbedarf zu reduzieren, liegt eine naheliegende Lösung darin, bestehende datenfreie Methoden zur Erzeugung statischer Avatare zu nutzen, wie beispielsweise vortrainierte Diffusionsmodelle mit Score Distillation Sampling (SDS), die Avatare mit pseudo-Ground-Truth-Ausgaben des Diffusionsmodells abgleichen. Die direkte Destillation von 4D-Avataren aus Video-Diffusion führt jedoch oft zu übermäßig geglätteten Ergebnissen aufgrund von räumlichen und zeitlichen Inkonsistenzen im generierten Video. Um dieses Problem zu lösen, schlagen wir Zero-1-to-A vor, eine robuste Methode, die einen räumlich und zeitlich konsistenten Datensatz für die 4D-Avatar-Rekonstruktion mithilfe des Video-Diffusionsmodells synthetisiert. Konkret konstruiert Zero-1-to-A iterativ Video-Datensätze und optimiert animierbare Avatare auf progressive Weise, wodurch sichergestellt wird, dass die Avatar-Qualität während des Lernprozesses gleichmäßig und konsistent steigt. Dieser progressive Lernprozess umfasst zwei Phasen: (1) Räumliches Konsistenzlernen fixiert Ausdrücke und lernt von Front- zu Seitenansichten, und (2) Zeitliches Konsistenzlernen fixiert Ansichten und lernt von entspannten zu übertriebenen Ausdrücken, wodurch 4D-Avatare auf einfache bis komplexe Weise generiert werden. Umfangreiche Experimente zeigen, dass Zero-1-to-A im Vergleich zu bestehenden diffusionsbasierten Methoden die Detailtreue, Animationsqualität und Rendering-Geschwindigkeit verbessert und somit eine Lösung für die Erstellung lebensechter Avatare bietet. Der Code ist öffentlich verfügbar unter: https://github.com/ZhenglinZhou/Zero-1-to-A.
In diesem Artikel untersuchen wir die Aufgabe, weitläufige Außenszenen zu generieren, die von Burgen bis hin zu Hochhäusern reichen. Im Gegensatz zur Generierung von Innenszenen, die im Fokus früherer Arbeiten stand, stellt die Generierung von Außenszenen einzigartige Herausforderungen dar, darunter große Variationen in der Höhe der Szenen und die Notwendigkeit einer Methode, die in der Lage ist, schnell große Landschaften zu erzeugen. Um dies zu bewältigen, schlagen wir einen effizienten Ansatz vor, der Szenenabschnitte als einheitliche Vektorsätze kodiert, was eine bessere Kompression und Leistung im Vergleich zu den räumlich strukturierten Latents früherer Methoden bietet. Darüber hinaus trainieren wir ein explizites Outpainting-Modell für unbegrenzte Generierung, das im Vergleich zu früheren Resampling-basierten Inpainting-Verfahren eine verbesserte Kohärenz bietet und gleichzeitig die Generierung beschleunigt, indem zusätzliche Diffusionsschritte eliminiert werden. Um diese Aufgabe zu erleichtern, haben wir NuiScene43 kuratiert, eine kleine, aber hochwertige Sammlung von Szenen, die für gemeinsames Training vorverarbeitet wurden. Bemerkenswerterweise kann unser Modell, wenn es mit Szenen verschiedener Stile trainiert wird, unterschiedliche Umgebungen wie ländliche Häuser und städtische Wolkenkratzer innerhalb derselben Szene miteinander verbinden, was das Potenzial unseres Kuratierungsprozesses zur Nutzung heterogener Szenen für gemeinsames Training hervorhebt.
Klassifikation ist eine Kernaufgabe im maschinellen Lernen. Aktuelle Forschungen haben gezeigt, dass Multimodale Große Sprachmodelle (MLLMs) zwar zunächst schlecht in der Bildklassifikation sind, ihre Leistung jedoch durch Feinabstimmung mit einer ausreichenden Datenmenge erheblich verbessert werden kann, sodass sie mit den besten (SOTA) Klassifikationsmodellen vergleichbar werden. Die Beschaffung groß angelegter, gelabelter Daten ist jedoch kostspielig. In diesem Artikel untersuchen wir die Feinabstimmung von MLLMs für Few-Shot-Klassifikation. Wir fanden heraus, dass Supervised Fine-Tuning (SFT) zu schwerwiegenden Überanpassungsproblemen führen und die Leistung im Vergleich zum Zero-Shot-Ansatz sogar verschlechtern kann. Um diese Herausforderung zu bewältigen, schlagen wir, inspiriert von den jüngsten Erfolgen im regelbasierten Reinforcement Learning, CLS-RL vor, das überprüfbare Signale als Belohnung zur Feinabstimmung von MLLMs verwendet. Wir entdeckten, dass CLS-RL in den meisten Datensätzen besser abschneidet als SFT und eine deutlich höhere durchschnittliche Genauigkeit sowohl im Base-to-New- als auch im Few-Shot-Lernsetting aufweist. Darüber hinaus beobachteten wir ein Free-Lunch-Phänomen bei CLS-RL; wenn Modelle auf einem bestimmten Datensatz feinabgestimmt werden, kann sich ihre Leistung auf anderen, unterschiedlichen Datensätzen ebenfalls im Vergleich zu Zero-Shot-Modellen verbessern, selbst wenn diese Datensätze in Verteilung und Klassennamen abweichen. Dies deutet darauf hin, dass RL-basierte Methoden den Modellen effektiv die Grundlagen der Klassifikation vermitteln. Schließlich untersuchen wir, inspiriert von aktuellen Arbeiten zum Denkprozess während der Inferenz, den „Denkprozess“ während der Feinabstimmung, einen kritischen Aspekt von RL-basierten Methoden, im Kontext der visuellen Klassifikation neu. Wir stellen die Frage, ob solche Aufgaben einen umfangreichen Denkprozess während der Feinabstimmung erfordern, und schlagen vor, dass dies die Leistung tatsächlich beeinträchtigen könnte. Basierend auf dieser Prämisse führen wir die No-Thinking-CLS-RL-Methode ein, die Denkprozesse während des Trainings minimiert, indem sie eine Gleichheitsgenauigkeitsbelohnung festlegt. Unsere Ergebnisse zeigen, dass die No-Thinking-CLS-RL-Methode mit deutlich weniger Feinabstimmungszeit eine überlegene In-Domain-Leistung und Generalisierungsfähigkeiten im Vergleich zu CLS-RL erreicht.
Wir stellen BigO(Bench) vor, ein neuartiges Codierungs-Benchmark, das entwickelt wurde, um die Fähigkeiten generativer Sprachmodelle beim Verständnis und der Erstellung von Code mit spezifizierten Zeit- und Speicherkomplexitäten zu bewerten. Dieses Benchmark schließt eine Lücke in aktuellen Bewertungen, die oft die Fähigkeit der Modelle übersehen, Code zu verstehen und zu erzeugen, der durch rechnerische Komplexität eingeschränkt ist. BigO(Bench) umfasst Werkzeuge, um die algorithmische Komplexität jeder Python-Funktion aus Profiling-Messungen abzuleiten, einschließlich menschlicher oder von LLM-generierter Lösungen. BigO(Bench) beinhaltet außerdem eine Sammlung von 3.105 Codierungsproblemen und 1.190.250 Lösungen aus Code-Wettbewerben, die mit abgeleiteten (synthetischen) Zeit- und Speicherkomplexitätslabels aus dem Komplexitätsrahmen versehen sind, sowie entsprechende Laufzeit- und Speicherbedarfswerte für eine große Anzahl von Eingabegrößen. Wir präsentieren Ergebnisse aus der Bewertung mehrerer state-of-the-art Sprachmodelle anhand dieses Benchmarks, die deren Stärken und Schwächen im Umgang mit Komplexitätsanforderungen hervorheben. Insbesondere sind Token-Space-Reasoning-Modelle in der Code-Generierung unübertroffen, jedoch nicht im Verständnis von Komplexität, was darauf hindeutet, dass sie möglicherweise nicht gut auf Aufgaben verallgemeinern, für die während des Trainings keine Belohnung vergeben wurde.
Wir präsentieren PORTAL, ein neuartiges Framework zur Entwicklung von künstlichen Intelligenz-Agenten, die in der Lage sind, Tausende von 3D-Videospielen durch sprachgesteuerte Politikgenerierung zu spielen. Indem wir Entscheidungsprobleme in Sprachmodellierungsaufgaben umwandeln, nutzt unser Ansatz große Sprachmodelle (LLMs), um Verhaltensbäume in einer domänenspezifischen Sprache (DSL) zu generieren. Diese Methode eliminiert den rechenintensiven Aufwand traditioneller Reinforcement-Learning-Ansätze, während sie strategische Tiefe und schnelle Anpassungsfähigkeit bewahrt. Unser Framework führt eine hybride Politikstruktur ein, die regelbasierte Knoten mit neuronalen Netzwerkkomponenten kombiniert und so sowohl hochrangiges strategisches Denken als auch präzise niedrigrangige Steuerung ermöglicht. Ein duales Feedback-Mechanismus, der quantitative Spielmetriken und Vision-Language-Modellanalysen einbezieht, erleichtert die iterative Politikverbesserung auf taktischer und strategischer Ebene. Die resultierenden Politiken sind sofort einsetzbar, menscheninterpretierbar und in der Lage, sich über diverse Spielumgebungen hinweg zu verallgemeinern. Experimentelle Ergebnisse demonstrieren die Effektivität von PORTAL in Tausenden von First-Person-Shooter (FPS)-Spielen und zeigen signifikante Verbesserungen in der Entwicklungseffizienz, Politikverallgemeinerung und Verhaltensvielfalt im Vergleich zu traditionellen Ansätzen. PORTAL stellt einen bedeutenden Fortschritt in der Entwicklung von Spiel-KI dar und bietet eine praktische Lösung zur Erstellung anspruchsvoller Agenten, die mit minimalem Entwicklungsaufwand in Tausenden von kommerziellen Videospielen operieren können. Die experimentellen Ergebnisse zu den 3D-Videospielen sind am besten unter https://zhongwen.one/projects/portal zu betrachten.
Autoregressive Modelle haben bemerkenswerte Erfolge in der Bildgenerierung erzielt, indem sie sequenzielle Vorhersagetechniken aus dem Sprachmodellierungskontext adaptiert haben. Die Anwendung dieser Ansätze auf Bilder erfordert jedoch die Diskretisierung kontinuierlicher Pixeldaten durch Vektorisierungsmethoden wie VQ-VAE. Um die Quantisierungsfehler, die in VQ-VAE bestehen, zu verringern, neigen aktuelle Arbeiten dazu, größere Codebücher zu verwenden. Dies führt jedoch zu einer entsprechenden Vergrößerung des Vokabulars, was die autoregressive Modellierung erschwert. Ziel dieses Papiers ist es, einen Weg zu finden, die Vorteile großer Codebücher zu nutzen, ohne die autoregressive Modellierung zu erschweren. Durch empirische Untersuchungen entdecken wir, dass Token mit ähnlichen Codewort-Darstellungen ähnliche Effekte auf das final generierte Bild haben, was eine signifikante Redundanz in großen Codebüchern offenbart. Basierend auf dieser Erkenntnis schlagen wir vor, Token von grob zu fein (CTF) vorherzusagen, indem ähnlichen Token das gleiche grobe Label zugewiesen wird. Unser Framework besteht aus zwei Stufen: (1) einem autoregressiven Modell, das sequenziell grobe Labels für jedes Token in der Sequenz vorhersagt, und (2) einem Hilfsmodell, das gleichzeitig feingranulare Labels für alle Token unter Berücksichtigung ihrer groben Labels vorhersagt. Experimente auf ImageNet demonstrieren die überlegene Leistung unserer Methode, die eine durchschnittliche Verbesserung von 59 Punkten im Inception Score im Vergleich zu den Baselines erzielt. Bemerkenswert ist, dass unser Ansatz trotz eines zusätzlichen Inferenzschritts schnellere Sampling-Geschwindigkeiten erreicht.
Die komplexe Natur der medizinischen Bildsegmentierung erfordert Modelle, die speziell dafür entwickelt sind, detaillierte, domänenspezifische Merkmale zu erfassen. Große Foundation-Modelle bieten erhebliche Flexibilität, doch die Kosten für das Fine-Tuning dieser Modelle bleiben eine bedeutende Hürde. Parameter-Efficient Fine-Tuning (PEFT)-Methoden wie Low-Rank Adaptation (LoRA) aktualisieren Modellgewichte effizient mit niedrigrangigen Matrizen, können jedoch unter Underfitting leiden, wenn der gewählte Rang nicht ausreicht, um domänenspezifische Nuancen zu erfassen. Im Gegensatz dazu bieten vollrangige Methoden basierend auf der Singulärwertzerlegung (SVD) umfassende Aktualisierungen durch die Modifikation aller Singulärwerte, doch ihnen fehlt oft Flexibilität und sie zeigen variable Leistungen über verschiedene Datensätze hinweg. Wir schlagen SALT (Singular Value Adaptation with Low-Rank Transformation) vor, eine Methode, die die einflussreichsten Singulärwerte selektiv anpasst, indem trainierbare Skalierungs- und Verschiebungsparameter verwendet werden, während dies durch eine niedrigrangige Aktualisierung für den verbleibenden Unterraum ergänzt wird. Dieser hybride Ansatz vereint die Vorteile von LoRA und SVD und ermöglicht eine effektive Anpassung, ohne auf eine Erhöhung der Modellgröße oder -tiefe angewiesen zu sein. Evaluiert auf fünf anspruchsvollen medizinischen Datensätzen, die von nur 20 bis zu 1000 Proben reichen, übertrifft SALT den Stand der Technik in PEFT (LoRA und SVD) um 2 % bis 5 % im Dice-Koeffizienten mit nur 3,9 % trainierbaren Parametern und zeigt eine robuste Anpassung selbst in ressourcenarmen Umgebungen. Der Code für SALT ist verfügbar unter: https://github.com/BioMedIA-MBZUAI/SALT.
Große Vision-Sprach-Modelle (LVLMs) haben vielversprechende Leistungen bei Aufgaben zur Vision-Sprach-Verständnis und -Argumentation gezeigt. Allerdings sind ihre visuellen Verständnisprozesse noch weitgehend unerforscht. Eine grundlegende Frage stellt sich: In welchem Maße verlassen sich LVLMs auf visuelle Eingaben, und welche Bildregionen tragen zu ihren Antworten bei? Es ist nicht trivial, die freie Generierung von LVLMs zu interpretieren, bedingt durch ihre komplexe visuelle Architektur (z.B. mehrere Encoder und Multi-Resolution) und variabel lange Ausgaben. In diesem Papier erweitern wir bestehende Heatmap-Visualisierungsmethoden (z.B. iGOS++), um LVLMs für offene visuelle Frage-Antwort-Aufgaben zu unterstützen. Wir schlagen eine Methode vor, um visuell relevante Tokens auszuwählen, die die Relevanz zwischen generierten Antworten und Eingabebild widerspiegeln. Darüber hinaus führen wir eine umfassende Analyse von state-of-the-art LVLMs auf Benchmarks durch, die visuelle Informationen zur Beantwortung erfordern. Unsere Ergebnisse bieten mehrere Einblicke in das Verhalten von LVLMs, einschließlich der Beziehung zwischen Fokusregion und Antwortkorrektheit, Unterschiede in der visuellen Aufmerksamkeit zwischen Architekturen und den Einfluss der Skalierung von LLMs auf das visuelle Verständnis. Der Code und die Daten sind verfügbar unter https://github.com/bytedance/LVLM_Interpretation.
Jüngste Fortschritte bei großen Sprachmodellen und ihren multimodalen Erweiterungen haben die Effektivität der Vereinheitlichung von Generierung und Verständnis durch autoregressive Vorhersage des nächsten Tokens demonstriert. Trotz der entscheidenden Rolle der 3D-Strukturgenerierung und des 3D-Verständnisses ({3D GU}) in der KI für die Wissenschaft haben sich diese Aufgaben weitgehend unabhängig voneinander entwickelt, wobei autoregressive Methoden weitgehend unerforscht blieben. Um diese Lücke zu schließen, stellen wir Uni-3DAR vor, ein einheitliches Framework, das {3D GU}-Aufgaben nahtlos durch autoregressive Vorhersage integriert. Im Kern von Uni-3DAR wird eine neuartige hierarchische Tokenisierung verwendet, die den 3D-Raum mithilfe eines Oktobaums komprimiert und dabei die inhärente Sparsität von 3D-Strukturen nutzt. Anschließend wird eine zusätzliche Tokenisierung für feinkörnige Strukturdetails angewendet, die Schlüsselattribute wie Atomtypen und präzise räumliche Koordinaten in mikroskopischen 3D-Strukturen erfasst. Wir schlagen außerdem zwei Optimierungen vor, um Effizienz und Wirksamkeit zu steigern. Die erste ist eine zweistufige Subbaum-Komprimierungsstrategie, die die Oktobaum-Token-Sequenz um bis zu 8x reduziert. Die zweite ist ein maskierter Mechanismus zur Vorhersage des nächsten Tokens, der für dynamisch variierende Token-Positionen maßgeschneidert ist und die Modellleistung erheblich steigert. Durch die Kombination dieser Strategien vereinheitlicht Uni-3DAR erfolgreich diverse {3D GU}-Aufgaben innerhalb eines einzigen autoregressiven Frameworks. Umfangreiche Experimente über mehrere mikroskopische {3D GU}-Aufgaben, einschließlich Moleküle, Proteine, Polymere und Kristalle, validieren seine Effektivität und Vielseitigkeit. Bemerkenswerterweise übertrifft Uni-3DAR frühere state-of-the-art Diffusionsmodelle deutlich und erreicht eine relative Verbesserung von bis zu 256\% bei gleichzeitiger Beschleunigung der Inferenzgeschwindigkeit um bis zu 21,8x. Der Code ist öffentlich verfügbar unter https://github.com/dptech-corp/Uni-3DAR.
Die Generierung von 3D-Molekülen ist entscheidend für die Arzneimittelentdeckung und Materialwissenschaft und erfordert Modelle, die komplexe Multimodalitäten verarbeiten können, einschließlich Atomtypen, chemischer Bindungen und 3D-Koordinaten. Eine zentrale Herausforderung besteht darin, diese Modalitäten unterschiedlicher Formen zu integrieren, während die SE(3)-Äquivarianz für 3D-Koordinaten aufrechterhalten wird. Um dies zu erreichen, verwenden bestehende Ansätze typischerweise separate latente Räume für invariante und äquivariante Modalitäten, was die Effizienz sowohl beim Training als auch bei der Stichprobenentnahme verringert. In dieser Arbeit schlagen wir den Unified Variational Auto-Encoder for 3D Molecular Latent Diffusion Modeling (UAE-3D) vor, ein multimodales VAE, das 3D-Moleküle in latente Sequenzen aus einem einheitlichen latenten Raum komprimiert, während ein nahezu null Rekonstruktionsfehler aufrechterhalten wird. Dieser einheitliche latente Raum beseitigt die Komplexitäten der Handhabung von Multimodalität und Äquivarianz bei der Durchführung von latenten Diffusionsmodellierungen. Wir demonstrieren dies durch den Einsatz des Diffusion Transformers – ein allgemeiner Diffusionsmodell ohne molekulare Induktionsverzerrung – für die latente Generierung. Umfangreiche Experimente auf den Datensätzen GEOM-Drugs und QM9 zeigen, dass unsere Methode neue Maßstäbe sowohl in der de novo als auch in der konditionalen 3D-Molekülgenerierung setzt und führende Effizienz und Qualität erreicht.
Beliebte Video-Trainingsmethoden arbeiten hauptsächlich mit einer festen Anzahl von Tokens, die aus einem vordefinierten raumzeitlichen Raster entnommen werden, was aufgrund der inhärenten Redundanz von Videos zu suboptimalen Kompromissen zwischen Genauigkeit und Rechenaufwand führt. Zudem fehlt ihnen die Anpassungsfähigkeit an unterschiedliche Rechenbudgets für nachgelagerte Aufgaben, was die Anwendung des leistungsstärksten Modells in realen Szenarien behindert. Wir schlagen daher eine neue Testumgebung, die Token-Optimierung, vor, um die Eingabeinformationen über verschiedene Budgets hinweg zu maximieren. Dabei wird die größenbeschränkte Menge der Eingabe-Tokens durch eine Token-Auswahl aus geeigneter abgetasteten Videos optimiert. Zu diesem Zweck stellen wir ein neuartiges Augmentations-Tool namens Flux vor. Durch die Flexibilisierung des Abtastrasters und die Nutzung der Token-Auswahl lässt es sich leicht in die meisten gängigen Video-Trainingsframeworks integrieren und steigert die Robustheit des Modells mit nahezu keinen zusätzlichen Kosten. Wir integrieren Flux in das groß angelegte Video-Pre-Training, und das daraus resultierende FluxViT erzielt neue State-of-the-Art-Ergebnisse in einer Vielzahl von Aufgaben zu Standardkosten. Bemerkenswerterweise kann es mit nur 1/4 der Tokens die Leistung früherer State-of-the-Art-Modelle mit Token-Optimierung erreichen, was eine Einsparung von fast 90\% ermöglicht. Alle Modelle und Daten sind unter https://github.com/OpenGVLab/FluxViT verfügbar.
Vision-Language (VL)-Modelle haben in verschiedenen Aufgaben eine starke Leistung gezeigt. Diese Modelle verlassen sich jedoch oft auf eine bestimmte Modalität für Vorhersagen, was zu einem „Dominant Modality Bias“ führt. Diese Verzerrung beeinträchtigt die Leistung erheblich, insbesondere wenn eine Modalität beeinträchtigt ist. In dieser Studie analysieren wir das Modellverhalten unter Dominant Modality Bias und zeigen theoretisch, dass nicht ausgerichtete Gradienten oder Unterschiede in den Gradientenbeträgen ein ausgewogenes Konvergieren des Verlusts verhindern. Basierend auf diesen Erkenntnissen schlagen wir ein neuartiges Framework, BalGrad, vor, um den Dominant Modality Bias zu mildern. Unser Ansatz umfasst eine intermodale Gradienten-Neugewichtung, eine Anpassung des Gradienten der KL-Divergenz basierend auf dem Beitrag jeder Modalität und eine intertask Gradientenprojektion, um Aufgabenrichtungen auf nicht konfliktäre Weise auszurichten. Experimente auf den Datensätzen UPMC Food-101, Hateful Memes und MM-IMDb bestätigen, dass BalGrad effektiv die übermäßige Abhängigkeit von bestimmten Modalitäten bei der Vorhersage reduziert.
Die Video-Identitätsanpassung zielt darauf ab, hochauflösende Videos zu erzeugen, die eine konsistente Identität beibehalten und signifikante Dynamik aufweisen, basierend auf Referenzbildern der Benutzer. Bestehende Ansätze stehen jedoch vor zwei zentralen Herausforderungen: Identitätsverlust über längere Videolängen und reduzierte Dynamik während des Trainings, hauptsächlich aufgrund ihrer Abhängigkeit von traditionellem Selbstrekonstruktionstraining mit statischen Bildern. Um diese Probleme zu lösen, stellen wir MagicID vor, ein neuartiges Framework, das darauf ausgelegt ist, die Erzeugung von identitätskonsistenten und dynamisch reichhaltigen Videos, die auf Benutzerpräferenzen zugeschnitten sind, direkt zu fördern. Konkret schlagen wir vor, paarweise Präferenz-Videodaten mit expliziten Identitäts- und Dynamikbelohnungen für das Präferenzlernen zu konstruieren, anstatt am traditionellen Selbstrekonstruktionsansatz festzuhalten. Um die Einschränkungen von angepassten Präferenzdaten zu bewältigen, führen wir eine hybride Sampling-Strategie ein. Dieser Ansatz priorisiert zunächst die Identitätserhaltung durch die Nutzung statischer Videos, die aus Referenzbildern abgeleitet werden, und verbessert dann die Qualität der dynamischen Bewegung in den generierten Videos mithilfe einer Frontier-basierten Sampling-Methode. Durch die Verwendung dieser hybriden Präferenzpaare optimieren wir das Modell, um es an die Belohnungsunterschiede zwischen Paaren von angepassten Präferenzen auszurichten. Umfangreiche Experimente zeigen, dass MagicID erfolgreich eine konsistente Identität und natürliche Dynamik erreicht und dabei bestehende Methoden in verschiedenen Metriken übertrifft.
Mit dem rasanten Wachstum von Video-Generierungsmodellen (VGMs) ist es entscheidend, zuverlässige und umfassende automatische Metriken für KI-generierte Videos (AIGVs) zu entwickeln. Bisherige Methoden verwenden entweder vorgefertigte Modelle, die für andere Aufgaben optimiert sind, oder stützen sich auf menschliche Bewertungsdaten, um spezialisierte Evaluatoren zu trainieren. Diese Ansätze sind auf spezifische Bewertungsaspekte beschränkt und lassen sich nur schwer mit den zunehmenden Anforderungen an feinere und umfassendere Bewertungen skalieren. Um dieses Problem zu lösen, untersucht diese Arbeit die Machbarkeit der Verwendung multimodaler großer Sprachmodelle (MLLMs) als einheitliche Evaluatoren für AIGVs, indem ihre starken visuellen Wahrnehmungs- und Sprachverständnisfähigkeiten genutzt werden. Um die Leistung automatischer Metriken bei der einheitlichen Bewertung von AIGVs zu bewerten, führen wir ein Benchmark namens UVE-Bench ein. UVE-Bench sammelt Videos, die von modernsten VGMs generiert wurden, und bietet paarweise menschliche Präferenzannotationen über 15 Bewertungsaspekte hinweg. Mit UVE-Bench evaluieren wir umfassend 16 MLLMs. Unsere empirischen Ergebnisse zeigen, dass fortgeschrittene MLLMs (z. B. Qwen2VL-72B und InternVL2.5-78B) zwar noch hinter menschlichen Bewertern zurückbleiben, aber vielversprechende Fähigkeiten in der einheitlichen Bewertung von AIGVs demonstrieren und dabei bestehende spezialisierte Bewertungsmethoden deutlich übertreffen. Zusätzlich führen wir eine detaillierte Analyse der Schlüsselentscheidungen durch, die die Leistung von MLLM-gestützten Evaluatoren beeinflussen, und bieten wertvolle Einblicke für zukünftige Forschungen zur AIGV-Bewertung. Der Code ist unter https://github.com/bytedance/UVE verfügbar.
Wir präsentieren VideoRFSplat, ein direktes Text-zu-3D-Modell, das ein Videogenerierungsmodell nutzt, um realistische 3D Gaussian Splatting (3DGS) für unbegrenzte reale Szenen zu erzeugen. Um diverse Kameraposen und eine unbegrenzte räumliche Ausdehnung realer Szenen zu generieren und gleichzeitig die Generalisierung auf beliebige Textprompts zu gewährleisten, verfeinern bisherige Methoden 2D-Generierungsmodelle, um Kameraposen und Multi-View-Bilder gemeinsam zu modellieren. Diese Methoden leiden jedoch unter Instabilität, wenn 2D-Generierungsmodelle auf die gemeinsame Modellierung erweitert werden, was auf die Modallitätslücke zurückzuführen ist und zusätzliche Modelle zur Stabilisierung von Training und Inferenz erfordert. In dieser Arbeit schlagen wir eine Architektur und eine Sampling-Strategie vor, um Multi-View-Bilder und Kameraposen gemeinsam zu modellieren, während ein Videogenerierungsmodell verfeinert wird. Unser Kernkonzept ist eine Dual-Stream-Architektur, die ein dediziertes Posen-Generierungsmodell neben einem vortrainierten Videogenerierungsmodell über Kommunikationsblöcke anfügt und so Multi-View-Bilder und Kameraposen durch separate Streams erzeugt. Dieser Ansatz reduziert die Interferenz zwischen den Posen- und Bildmodalitäten. Zusätzlich schlagen wir eine asynchrone Sampling-Strategie vor, die Kameraposen schneller entrauscht als Multi-View-Bilder, wodurch schnell entrauschte Posen die Multi-View-Generierung konditionieren können, was gegenseitige Mehrdeutigkeit verringert und die cross-modale Konsistenz verbessert. VideoRFSplat, trainiert auf mehreren groß angelegten realen Datensätzen (RealEstate10K, MVImgNet, DL3DV-10K, ACID), übertrifft bestehende Text-zu-3D-Direktgenerierungsmethoden, die stark auf nachträgliche Verfeinerung durch Score Distillation Sampling angewiesen sind, und erzielt überlegene Ergebnisse ohne eine solche Verfeinerung.
Deep-Learning (DL)-basierte Code-Vervollständigungswerkzeuge haben die Softwareentwicklung revolutioniert, indem sie fortschrittliche Code-Generierung ermöglichen. Diese Werkzeuge nutzen Modelle, die auf großen Mengen von Code aus zahlreichen Repositories trainiert wurden und dabei allgemeine Codierungsmuster erfassen. Der Einfluss einer Feinabstimmung dieser Modelle für spezifische Organisationen oder Entwickler, um deren Leistung in solchen Kontexten zu steigern, bleibt jedoch unerforscht. In dieser Arbeit schließen wir diese Lücke, indem wir solide empirische Beweise präsentieren, die diese Frage beantworten. Konkret betrachten wir 136 Entwickler aus zwei Organisationen (Apache und Spring), zwei Modellarchitekturen (T5 und Code Llama) und drei Modellgrößen (60M, 750M und 7B trainierbare Parameter). T5-Modelle (60M, 750M) wurden auf über 2.000 Open-Source-Projekten vortrainiert und feinabgestimmt, wobei die Daten der betrachteten Organisationen ausgeschlossen wurden, und mit Versionen verglichen, die auf organisations- und entwicklerspezifische Datensätze feinabgestimmt wurden. Für das Code-Llama-Modell (7B) verglichen wir die Leistung des bereits vortrainierten, öffentlich verfügbaren Modells mit demselben Modell, das durch parameter-effiziente Feinabstimmung auf organisations- und entwicklerspezifische Datensätze angepasst wurde. Unsere Ergebnisse zeigen, dass sowohl eine organisationsspezifische als auch eine entwicklerspezifische zusätzliche Feinabstimmung die Vorhersagefähigkeiten steigern, wobei erstere besonders leistungsfähig ist. Dieser Befund verallgemeinert sich über (i) die beiden betrachteten Organisationen (d.h. Apache und Spring) und (ii) Modelle völlig unterschiedlicher Größenordnung (von 60M bis 7B trainierbaren Parametern). Schließlich zeigen wir, dass DL-Modelle, die auf einen organisationsspezifischen Datensatz feinabgestimmt wurden, die gleiche Vervollständigungsleistung erzielen wie vortrainierte Code-Modelle, die ohne Anpassung verwendet werden und etwa 10-mal größer sind, was zu Einsparungen in Bezug auf Bereitstellungs- und Inferenzkosten führt (z.B. kleinere GPUs benötigt).
Die Bildbeschreibung ist seit langem eine zentrale Aufgabe im Bereich des visuellen Verständnisses, wobei jüngste Fortschritte in Vision-Language-Modellen (VLMs) die Fähigkeit zur Erstellung detaillierter Bildbeschreibungen erheblich verbessert haben. Die Bewertung detaillierter Bildbeschreibungen bleibt jedoch aufgrund veralteter Bewertungsmetriken und grober Annotationen weitgehend unerforscht. In diesem Artikel stellen wir DeCapBench zusammen mit einer neuen Metrik, DCScore, vor, die speziell für detaillierte Beschreibungsaufgaben entwickelt wurde. DCScore bewertet Halluzinationen und feinkörnige Vollständigkeit, indem Antworten in die kleinsten eigenständigen Einheiten, sogenannte primitive Informationseinheiten, zerlegt und einzeln bewertet werden. Unsere Auswertung zeigt, dass DCScore stärker mit der menschlichen Beurteilung übereinstimmt als andere regelbasierte oder modellbasierte Metriken. Gleichzeitig weist DeCapBench eine hohe Korrelation mit den Ergebnissen der VLM-Arena bei beschreibenden Aufgaben auf und übertrifft bestehende Benchmarks für Vision-Language-Modelle. Zusätzlich präsentieren wir eine automatische Methode zur Sammlung feinkörniger Rückmeldungen, FeedQuill, für die Präferenzoptimierung basierend auf unserer fortschrittlichen Metrik, die robuste Generalisierungsfähigkeiten über automatisch generierte Präferenzdaten hinweg zeigt. Umfangreiche Experimente mit mehreren VLMs zeigen, dass unsere Methode nicht nur Halluzinationen signifikant reduziert, sondern auch die Leistung über verschiedene Benchmarks hinweg verbessert und dabei eine überlegene Detailbeschreibungsleistung erzielt, die GPT-4o übertrifft.
Dieses Papier stellt das Deceptive Humor Dataset (DHD) vor, eine neuartige Ressource zur Erforschung von Humor, der aus erfundenen Behauptungen und Fehlinformationen abgeleitet wird. In einer Ära der weit verbreiteten Fehlinformationen ist es entscheidend zu verstehen, wie Humor mit Täuschung verflochten ist. Das DHD besteht aus humorvollen Kommentaren, die aus falschen Narrativen generiert wurden und erfundene Behauptungen sowie manipulierte Informationen unter Verwendung des ChatGPT-4o-Modells enthalten. Jeder Eintrag ist mit einem Satire-Level gekennzeichnet, der von 1 für subtile Satire bis 3 für hochgradige Satire reicht, und in fünf verschiedene Humorkategorien eingeteilt: Schwarzer Humor, Ironie, Gesellschaftskritik, Wortspiel und Absurdität. Der Datensatz umfasst mehrere Sprachen, darunter Englisch, Telugu, Hindi, Kannada, Tamil und deren code-mixed Varianten (Te-En, Hi-En, Ka-En, Ta-En), was ihn zu einem wertvollen multilingualen Benchmark macht. Mit der Einführung des DHD schaffen wir eine strukturierte Grundlage für die Analyse von Humor in täuschenden Kontexten und ebnen den Weg für eine neue Forschungsrichtung, die untersucht, wie Humor nicht nur mit Fehlinformationen interagiert, sondern auch deren Wahrnehmung und Verbreitung beeinflusst. Wir etablieren starke Baselines für den vorgeschlagenen Datensatz und bieten eine Grundlage für zukünftige Forschung, um Modelle zur Erkennung von täuschendem Humor zu benchmarken und weiterzuentwickeln.
Selbstüberwachtes Vortraining basierend auf der Vorhersage des nächsten Tokens hat es großen Sprachmodellen ermöglicht, die zugrunde liegende Struktur von Texten zu erfassen, und hat zu beispiellosen Leistungen bei einer Vielzahl von Aufgaben geführt, wenn es in großem Maßstab angewendet wird. In ähnlicher Weise erzeugt das autonome Fahren große Mengen an raumzeitlichen Daten, was auf die Möglichkeit hindeutet, den Maßstab zu nutzen, um die zugrunde liegende geometrische und semantische Struktur der Umgebung und ihre Entwicklung über die Zeit zu erlernen. In diese Richtung schlagen wir eine geometrische und semantische selbstüberwachte Vortrainingsmethode, GASP, vor, die eine einheitliche Repräsentation erlernt, indem sie an jedem abgefragten zukünftigen Punkt in der Raumzeit (1) die allgemeine Belegung, die die sich entwickelnde Struktur der 3D-Szene erfasst; (2) die Ego-Belegung, die den Pfad des Ego-Fahrzeugs durch die Umgebung modelliert; und (3) destillierte hochrangige Merkmale eines Vision-Foundation-Modells vorhersagt. Durch die Modellierung geometrischer und semantischer 4D-Belegungsfelder anstelle von Rohsensormessungen lernt das Modell eine strukturierte, verallgemeinerbare Repräsentation der Umgebung und ihrer Entwicklung über die Zeit. Wir validieren GASP an mehreren Benchmarks für autonomes Fahren und zeigen signifikante Verbesserungen bei der semantischen Belegungsvorhersage, dem Online-Mapping und der Ego-Trajektorienvorhersage. Unsere Ergebnisse zeigen, dass die kontinuierliche 4D-geometrische und semantische Belegungsvorhersage ein skalierbares und effektives Vortrainingsparadigma für das autonome Fahren bietet. Für Code und zusätzliche Visualisierungen siehe \href{https://research.zenseact.com/publications/gasp/.}
Mit dem Aufstieg generativer KI wird die Synthese von Abbildungen aus Textbeschreibungen zu einer vielversprechenden Anwendung. Allerdings erfordert das Erreichen hoher geometrischer Präzision und Bearbeitbarkeit die Darstellung von Abbildungen als Grafikprogramme in Sprachen wie TikZ, und ausgerichtete Trainingsdaten (d. h. Grafikprogramme mit Beschreibungen) bleiben knapp. Gleichzeitig sind große Mengen nicht ausgerichteter Grafikprogramme und beschrifteter Rasterbilder leichter verfügbar. Wir vereinen diese unterschiedlichen Datenquellen, indem wir TikZero vorstellen, das die Generierung von Grafikprogrammen vom Textverständnis entkoppelt, indem es Bilddarstellungen als vermittelnde Brücke nutzt. Es ermöglicht unabhängiges Training an Grafikprogrammen und beschrifteten Bildern und erlaubt die null-Shot-Synthese von Grafikprogrammen, die durch Text geleitet wird, während der Inferenz. Wir zeigen, dass unsere Methode Baseline-Modelle, die nur mit beschriftungsausgerichteten Grafikprogrammen arbeiten können, deutlich übertrifft. Darüber hinaus übertrifft TikZero, wenn es beschriftungsausgerichtete Grafikprogramme als ergänzendes Trainingssignal nutzt, die Leistung viel größerer Modelle, einschließlich kommerzieller Systeme wie GPT-4o, oder erreicht diese. Unser Code, Datensätze und ausgewählte Modelle sind öffentlich verfügbar.
Die Einhaltung verschriebener Behandlungen ist für Personen mit chronischen Erkrankungen entscheidend, um kostspielige oder negative Gesundheitsfolgen zu vermeiden. Für bestimmte Patientengruppen sind intensive Lebensstilinterventionen von zentraler Bedeutung, um die Medikamentenadhärenz zu verbessern. Eine genaue Vorhersage der Behandlungstreue kann Wege zur Entwicklung eines bedarfsgerechten Interventionswerkzeugs eröffnen, das zeitnahe und personalisierte Unterstützung ermöglicht. Mit der zunehmenden Verbreitung von Smartphones und Wearables ist es heute einfacher denn je, intelligente Aktivitätsüberwachungssysteme zu entwickeln und einzusetzen. Dennoch sind effektive Vorhersagesysteme für die Behandlungstreue, die auf Wearable-Sensoren basieren, noch nicht weit verbreitet. Wir schließen diese Lücke mit der Entwicklung von Adherence Forecasting and Intervention with Machine Intelligence (AIMI). AIMI ist ein wissensgestütztes Vorhersagesystem für die Adhärenz, das Smartphone-Sensoren und frühere Medikationshistorie nutzt, um die Wahrscheinlichkeit des Vergessens einer verschriebenen Medikation zu schätzen. Eine Nutzerstudie wurde mit 27 Teilnehmern durchgeführt, die täglich Medikamente zur Behandlung ihrer Herz-Kreislauf-Erkrankungen einnahmen. Wir entwarfen und entwickelten CNN- und LSTM-basierte Vorhersagemodelle mit verschiedenen Kombinationen von Eingabefeatures und fanden heraus, dass LSTM-Modelle die Medikamentenadhärenz mit einer Genauigkeit von 0,932 und einem F1-Score von 0,936 vorhersagen können. Darüber hinaus zeigen wir durch eine Reihe von Ablationsstudien mit konvolutionalen und rekurrenten neuronalen Netzwerkarchitekturen, dass die Nutzung bekannter Informationen über die Zukunft und personalisiertes Training die Genauigkeit der Vorhersage der Medikamentenadhärenz verbessert. Code verfügbar: https://github.com/ab9mamun/AIMI.