Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Diffusionssprachmodelle bieten einzigartige Vorteile gegenüber autoregressiven Modellen aufgrund ihres Potenzials für parallelisierte Generierung und Kontrollierbarkeit, doch sie hinken in der Wahrscheinlichkeitsmodellierung hinterher und sind auf die Generierung fester Längen beschränkt. In dieser Arbeit stellen wir eine Klasse von Block-Diffusionssprachmodellen vor, die zwischen diskreter Denoising-Diffusion und autoregressiven Modellen interpolieren. Block-Diffusion überwindet zentrale Einschränkungen beider Ansätze, indem sie die Generierung flexibler Längen unterstützt und die Inferenzeffizienz durch KV-Caching und parallele Token-Sampling verbessert. Wir schlagen ein Rezept für den Aufbau effektiver Block-Diffusionsmodelle vor, das einen effizienten Trainingsalgorithmus, Schätzer der Gradientenvarianz und datengetriebene Rauschpläne zur Minimierung der Varianz umfasst. Block-Diffusion setzt einen neuen State-of-the-art-Standard unter Diffusionsmodellen bei Sprachmodellierungs-Benchmarks und ermöglicht die Generierung von Sequenzen beliebiger Länge. Wir stellen den Code zusammen mit den Modellgewichten und einem Blogbeitrag auf der Projektseite zur Verfügung: https://m-arriola.com/bd3lms/
Die Entwicklung von Video-Diffusionsmodellen offenbart eine erhebliche Herausforderung: den enormen Rechenaufwand. Um dieser Herausforderung zu begegnen, stellen wir fest, dass der umgekehrte Prozess der Diffusion eine inhärente entropieverringernde Natur aufweist. Angesichts der Redundanz zwischen den Bildern in der Video-Modalität ist es nicht notwendig, in Hoch-Entropie-Phasen die volle Bildrate beizubehalten. Basierend auf dieser Erkenntnis schlagen wir TPDiff vor, ein einheitliches Framework zur Steigerung der Effizienz von Training und Inferenz. Indem wir die Diffusion in mehrere Phasen unterteilen, erhöht unser Framework die Bildrate schrittweise entlang des Diffusionsprozesses, wobei nur die letzte Phase mit voller Bildrate arbeitet, wodurch die Recheneffizienz optimiert wird. Um das mehrstufige Diffusionsmodell zu trainieren, führen wir ein spezielles Trainingsframework ein: die stufenweise Diffusion. Durch die Lösung der partitionierten Wahrscheinlichkeitsfluss-gewöhnlichen Differentialgleichungen (ODE) der Diffusion unter abgestimmten Daten und Rauschen ist unsere Trainingsstrategie auf verschiedene Diffusionsformen anwendbar und steigert die Trainingseffizienz weiter. Umfassende experimentelle Auswertungen bestätigen die Allgemeingültigkeit unserer Methode, die eine Reduzierung der Trainingskosten um 50 % und eine Verbesserung der Inferenzeffizienz um das 1,5-fache demonstriert.
Die bedingte Bewegungsgenerierung wurde in der Computer Vision bereits umfassend untersucht, doch es bleiben zwei entscheidende Herausforderungen bestehen. Erstens: Obwohl maskierte autoregressive Methoden kürzlich diffusionsbasierte Ansätze übertroffen haben, fehlt es bestehenden Maskierungsmodellen an einem Mechanismus, um dynamische Frames und Körperteile basierend auf gegebenen Bedingungen zu priorisieren. Zweitens scheitern bestehende Methoden für verschiedene Konditionierungsmodalitäten oft daran, mehrere Modalitäten effektiv zu integrieren, was die Kontrolle und Kohärenz der generierten Bewegung einschränkt. Um diese Herausforderungen zu bewältigen, schlagen wir Motion Anything vor, ein multimodales Bewegungsgenerierungsframework, das einen auf Aufmerksamkeit basierenden Maskierungsmodellierungsansatz einführt, der eine fein abgestimmte räumliche und zeitliche Kontrolle über Schlüsselbilder und Aktionen ermöglicht. Unser Modell kodiert multimodale Bedingungen, einschließlich Text und Musik, adaptiv und verbessert so die Steuerbarkeit. Zusätzlich führen wir Text-Music-Dance (TMD) ein, einen neuen Bewegungsdatensatz, der aus 2.153 Paaren von Text, Musik und Tanz besteht und damit doppelt so groß ist wie AIST++, wodurch eine kritische Lücke in der Community geschlossen wird. Umfangreiche Experimente zeigen, dass Motion Anything state-of-the-art-Methoden in mehreren Benchmarks übertrifft, mit einer 15%igen Verbesserung des FID auf HumanML3D und konsistenten Leistungssteigerungen auf AIST++ und TMD. Besuchen Sie unsere Projektwebsite https://steve-zeyu-zhang.github.io/MotionAnything.
Wir stellen Reangle-A-Video vor, ein einheitliches Framework zur Erzeugung synchronisierter Multi-View-Videos aus einem einzelnen Eingabevideo. Im Gegensatz zu gängigen Ansätzen, die Multi-View-Video-Diffusionsmodelle auf groß angelegten 4D-Datensätzen trainieren, formuliert unsere Methode die Aufgabe der Multi-View-Video-Generierung als Video-zu-Videos-Übersetzung und nutzt dabei öffentlich verfügbare Bild- und Video-Diffusions-Priors. Im Wesentlichen arbeitet Reangle-A-Video in zwei Stufen. (1) Multi-View-Bewegungslernen: Ein Bild-zu-Video-Diffusionstransformer wird synchron in einer selbstüberwachten Weise feinabgestimmt, um sichtinvariante Bewegungen aus einer Reihe von verzerrten Videos zu extrahieren. (2) Multi-View-konsistente Bild-zu-Bild-Übersetzung: Der erste Frame des Eingabevideos wird verzerrt und in verschiedene Kameraperspektiven unter einer Inferenzzeit-Kreuzsicht-Konsistenzführung mittels DUSt3R eingefärbt, wodurch multi-view-konsistente Startbilder erzeugt werden. Umfangreiche Experimente zur statischen Sichttransportierung und dynamischen Kamerasteuerung zeigen, dass Reangle-A-Video bestehende Methoden übertrifft und eine neue Lösung für die Multi-View-Video-Generierung etabliert. Wir werden unseren Code und unsere Daten öffentlich zugänglich machen. Projektseite: https://hyeonho99.github.io/reangle-a-video/
Die effiziente Beschaffung von externem Wissen und aktuellen Informationen ist entscheidend für effektives Schlussfolgern und die Textgenerierung in großen Sprachmodellen (LLMs). Ansätze zur Retrieval-Erweiterung und Werkzeugnutzung, bei denen eine Suchmaschine als Werkzeug behandelt wird, mangelt es an komplexer Mehrfachabruf-Flexibilität oder sie erfordern umfangreiche überwachte Daten. Das Anstoßen fortschrittlicher LLMs mit Schlussfolgerungsfähigkeiten während der Inferenz zur Nutzung von Suchmaschinen ist nicht optimal, da das LLM nicht lernt, wie es optimal mit der Suchmaschine interagiert. Dieses Papier stellt Search-R1 vor, eine Erweiterung des DeepSeek-R1-Modells, bei dem das LLM – ausschließlich durch Reinforcement Learning (RL) – lernt, während des schrittweisen Schlussfolgerns mit Echtzeit-Retrieval autonom (mehrere) Suchanfragen zu generieren. Search-R1 optimiert LLM-Rollouts mit Mehrfachabruf-Interaktionen, nutzt abgerufene Token-Maskierung für stabiles RL-Training und eine einfache ergebnisbasierte Belohnungsfunktion. Experimente auf sieben Frage-Antwort-Datensätzen zeigen, dass Search-R1 die Leistung um 26 % (Qwen2.5-7B), 21 % (Qwen2.5-3B) und 10 % (LLaMA3.2-3B) gegenüber den SOTA-Baselines verbessert. Dieses Papier liefert weiterhin empirische Einblicke in RL-Optimierungsmethoden, LLM-Auswahl und die Dynamik der Antwortlänge bei retrieval-unterstütztem Schlussfolgern. Der Code und die Modell-Checkpoints sind unter https://github.com/PeterGriffinJin/Search-R1 verfügbar.
Reinforcement Learning mit überprüfbaren Ergebnisbelohnungen (RLVR) hat das Chain-of-Thought (CoT)-Denken in großen Sprachmodellen (LLMs) effektiv skaliert. Seine Wirksamkeit beim Training von Vision-Language-Modell (VLM)-Agenten für zielgerichtetes Handlungsdenken in visuellen Umgebungen ist jedoch weniger etabliert. Diese Arbeit untersucht dieses Problem durch umfangreiche Experimente mit komplexen Kartenspielen wie 24-Punkte und verkörperten Aufgaben aus ALFWorld. Wir stellen fest, dass Belohnungen, die ausschließlich auf Handlungsergebnissen basieren, das CoT-Denken in VLMs nicht fördern, sondern zu einem Phänomen führen, das wir als Gedankenzusammenbruch bezeichnen. Dies ist gekennzeichnet durch einen schnellen Verlust der Vielfalt in den Gedanken des Agenten, zustandsirrelevantes und unvollständiges Denken sowie anschließende ungültige Aktionen, die zu negativen Belohnungen führen. Um dem Gedankenzusammenbruch entgegenzuwirken, betonen wir die Notwendigkeit von Prozessführung und schlagen einen automatischen Korrektor vor, der das Denken des Agenten in jedem RL-Schritt bewertet und verfeinert. Dieses einfache und skalierbare GTR (Guided Thought Reinforcement)-Framework trainiert Denken und Handlung gleichzeitig, ohne dass eine dichte, schrittweise menschliche Beschriftung erforderlich ist. Unsere Experimente zeigen, dass GTR die Leistung und Generalisierung des LLaVA-7b-Modells in verschiedenen visuellen Umgebungen erheblich verbessert und dabei 3-5 Mal höhere Aufgaben-Erfolgsraten im Vergleich zu State-of-the-Art-Modellen mit deutlich kleineren Modellgrößen erreicht.
Retrieval-augmented Generation (RAG) versorgt große Sprachmodelle (LLMs) mit relevanten Dokumenten. Obwohl frühere Studien feststellten, dass das Abrufen vieler Dokumente die Leistung beeinträchtigen kann, wurde nicht isoliert untersucht, wie sich die Anzahl der Dokumente auf die Leistung auswirkt, während die Kontextlänge konstant gehalten wird. Wir evaluieren verschiedene Sprachmodelle anhand von speziell erstellten Datensätzen, die auf einer Multi-Hop-QA-Aufgabe basieren. Dabei halten wir die Kontextlänge und die Position der relevanten Informationen konstant, während wir die Anzahl der Dokumente variieren. Unsere Ergebnisse zeigen, dass eine Erhöhung der Dokumentanzahl in RAG-Szenarien erhebliche Herausforderungen für LLMs darstellt. Zudem deuten unsere Ergebnisse darauf hin, dass die Verarbeitung mehrerer Dokumente eine eigenständige Herausforderung darstellt, die sich von der Handhabung langer Kontexte unterscheidet. Wir stellen die Datensätze und den Code ebenfalls zur Verfügung: https://github.com/shaharl6000/MoreDocsSameLen.
Score Distillation Sampling (SDS) hat sich als effektive Technik erwiesen, um 2D-Diffusions-Priors für Aufgaben wie Text-zu-3D-Generierung zu nutzen. Obwohl leistungsstark, hat SDS Schwierigkeiten, eine fein abgestimmte Ausrichtung an der Benutzerintention zu erreichen. Um dies zu überwinden, führen wir RewardSDS ein, einen neuartigen Ansatz, der Rauschproben basierend auf Ausrichtungswerten eines Belohnungsmodells gewichtet und so einen gewichteten SDS-Verlust erzeugt. Dieser Verlust priorisiert Gradienten von Rauschproben, die eine ausgerichtete, hoch belohnte Ausgabe liefern. Unser Ansatz ist breit anwendbar und kann SDS-basierte Methoden erweitern. Insbesondere demonstrieren wir seine Anwendbarkeit auf Variational Score Distillation (VSD) durch die Einführung von RewardVSD. Wir evaluieren RewardSDS und RewardVSD in Aufgaben der Text-zu-Bild-Generierung, 2D-Bearbeitung und Text-zu-3D-Generierung und zeigen signifikante Verbesserungen gegenüber SDS und VSD in einer Vielzahl von Metriken, die die Generierungsqualität und die Ausrichtung auf gewünschte Belohnungsmodelle messen, was eine state-of-the-art Leistung ermöglicht. Die Projektseite ist verfügbar unter https://itaychachy.github.io/reward-sds/.
Obwohl große Sprachmodelle (LLMs) bemerkenswerte Leistungen bei verschiedenen Aufgaben erzielt haben, sind sie weiterhin anfällig für Fehler. Eine zentrale Herausforderung besteht darin, ihnen die Fähigkeit zur Selbstkorrektur zu ermöglichen. Während frühere Forschung auf externe Tools oder große proprietäre Modelle zurückgegriffen hat, untersucht diese Arbeit die Selbstkorrektur in kleinen Sprachmodellen (SLMs) durch iteratives Feinabstimmen ausschließlich mit selbstgenerierten Daten. Wir stellen den Self-Taught Self-Correction (STaSC)-Algorithmus vor, der mehrere algorithmische Designentscheidungen integriert. Experimentelle Ergebnisse bei einer Frage-Antwort-Aufgabe zeigen, dass STaSC effektiv Selbstkorrektur erlernt und zu signifikanten Leistungsverbesserungen führt. Unsere Analyse liefert weiterhin Einblicke in die Mechanismen der Selbstkorrektur und die Auswirkungen verschiedener Designentscheidungen auf die Lernprozesse und die Gesamtleistung. Um zukünftige Forschung zu unterstützen, veröffentlichen wir unseren benutzerfreundlichen Code und leichtgewichtige Modelle.
Aktuelle LLMs haben bemerkenswerte Erfolge bei der Befolgung von Benutzeranweisungen gezeigt, doch die Handhabung von Anweisungen mit mehreren Einschränkungen bleibt eine erhebliche Herausforderung. In dieser Arbeit stellen wir WildIFEval vor – einen umfangreichen Datensatz mit 12.000 realen Benutzeranweisungen, die vielfältige, mehrfach eingeschränkte Bedingungen aufweisen. Im Gegensatz zu früheren Datensätzen umfasst unsere Sammlung ein breites lexikalisches und thematisches Spektrum von Einschränkungen in natürlichen Benutzeranfragen. Wir kategorisieren diese Einschränkungen in acht übergeordnete Klassen, um ihre Verteilung und Dynamik in realen Szenarien zu erfassen. Mithilfe von WildIFEval führen wir umfangreiche Experimente durch, um die Fähigkeiten führender LLMs zur Befolgung von Anweisungen zu bewerten. Unsere Ergebnisse zeigen, dass alle evaluierten Modelle mit zunehmender Anzahl von Einschränkungen eine Leistungsverschlechterung erfahren. Somit zeigen wir, dass alle Modelle bei solchen Aufgaben noch erheblichen Verbesserungsbedarf haben. Darüber hinaus beobachten wir, dass die spezifische Art der Einschränkung eine entscheidende Rolle für die Modellleistung spielt. Wir veröffentlichen unseren Datensatz, um weitere Forschungen zur Befolgung von Anweisungen unter komplexen, realistischen Bedingungen zu fördern.
Menschliche Alltagsaktivitäten können prägnant als Abfolgen von Routineereignissen (z. B. das Ausschalten eines Weckers) in Videoströmen beschrieben werden, wodurch ein Ereignisvokabular entsteht. Inspiriert davon stellen wir VLog vor, ein neuartiges Framework für das Verständnis von Videos, das Videobeschreibungen als Vokabular definiert und damit über die typischen Subwort-Vokabulare in bestehenden generativen Video-Sprach-Modellen hinausgeht. Basierend auf dem schlanken Sprachmodell GPT-2 bietet VLog drei zentrale Innovationen: (i) Ein generatives Retrieval-Modell, das die komplexen Denkfähigkeiten von Sprachmodellen mit der effizienten Ähnlichkeitssuche des kontrastiven Retrievals verbindet. (ii) Ein hierarchisches Vokabular, das aus groß angelegten Videobeschreibungen mithilfe unseres Beschreibungspaar-Kodierungsalgorithmus abgeleitet wird und eine effiziente Indizierung spezifischer Ereignisse (z. B. das Schneiden einer Tomate) ermöglicht, indem breitere Szenarien (z. B. Küche) mit aussagekräftigen Postfixen (z. B. mit der linken Hand) identifiziert werden. (iii) Eine Vokabular-Aktualisierungsstrategie, die generative Modelle nutzt, um das Vokabular für neu auftretende Ereignisse während der Inferenz zu erweitern. Um unseren Ansatz zu validieren, führen wir VidCap-Eval ein, einen Entwicklungssatz, der prägnante Beschreibungen mit logischen Beziehungen (z. B. vorher und nachher) erfordert. Experimente auf EgoSchema, COIN und HiREST demonstrieren weiterhin die Effektivität von VLog und unterstreichen seine Fähigkeit, prägnante, kontextuell genaue und effiziente Beschreibungen zu generieren, was eine neue Perspektive auf das Verständnis von Videos bietet. Der Code ist unter https://github.com/showlab/VLog verfügbar.
Große Sprachmodelle (LLMs) haben eine beeindruckende Fähigkeit bei der Code-Generierung gezeigt, insbesondere bei der automatischen Implementierung von Anforderungen, die in natürlicher Sprache beschrieben sind. Die Effektivität von LLMs steigt im Allgemeinen mit ihrer Größe: Je höher die Anzahl der trainierbaren Parameter eines LLMs, desto besser ist seine Fähigkeit, Code zu implementieren. Allerdings stellen größere LLMs erhebliche Herausforderungen in Bezug auf ihren Speicherbedarf (und damit auch ihren CO₂-Fußabdruck) dar, wenn es um den Einsatz von LLM-basierten Code-Generatoren geht. Eine frühere Arbeit von Wei et al. schlug vor, Quantisierungstechniken zu nutzen, um den Speicherbedarf von LLM-basierten Code-Generatoren zu reduzieren, ohne deren Effektivität wesentlich zu beeinträchtigen. Kurz gesagt untersuchten sie LLMs mit bis zu 16 Milliarden Parametern, indem sie deren Präzision von 32-Bit-Gleitkommazahlen auf 8-Bit-Ganzzahlen reduzierten und zeigten, dass dies nur begrenzte Auswirkungen auf die Code-Generierungsleistung hatte. Angesichts des rasanten Fortschritts bei den Fähigkeiten von LLMs und Quantisierungstechniken präsentieren wir in dieser Arbeit eine differenzierte Replikation der Arbeit von Wei et al., in der wir (i) neuere und größere Code-bezogene LLMs mit bis zu 34 Milliarden Parametern betrachten; (ii) die neuesten Fortschritte in der Modellquantisierung, die eine extreme Kompression auf 2 Bit pro Modellparameter ermöglichen; und (iii) verschiedene Arten von Kalibrierungsdatensätzen, einschließlich Code-spezifischer, zur Steuerung des Quantisierungsprozesses. Unsere empirische Auswertung zeigt, dass die neue Grenze für die Quantisierung von LLMs bei 4-Bit-Präzision liegt, was zu einer durchschnittlichen Reduzierung des Speicherbedarfs um 70 % im Vergleich zum Originalmodell führt, ohne dass ein signifikanter Leistungsabfall beobachtet wird. Darüber hinaus hilft ein Code-spezifischer Kalibrierungsdatensatz, den Leistungsverlust zu begrenzen, wenn die Quantisierung noch extremer wird (3 und 2 Bit).
Die Fähigkeiten von generativen Lernmodellen zur Bild-zu-Bild-Übersetzung haben in jüngster Zeit bedeutende Fortschritte bei der Schätzung komplexer (gesteuerter) Abbildungen zwischen Bildverteilungen gemacht. Während erscheinungsbasierte Aufgaben wie Bildinpainting oder Stiltransfer bereits ausführlich untersucht wurden, schlagen wir vor, das Potenzial generativer Modelle im Kontext physikalischer Simulationen zu erforschen. Mit der Bereitstellung eines Datensatzes von 300.000 Bildpaaren und Baseline-Auswertungen für drei verschiedene physikalische Simulationsaufgaben schlagen wir ein Benchmark vor, um die folgenden Forschungsfragen zu untersuchen: i) Können generative Modelle komplexe physikalische Zusammenhänge aus Eingabe-Ausgabe-Bildpaaren lernen? ii) Welche Beschleunigungen können durch den Ersatz von Differentialgleichungs-basierten Simulationen erreicht werden? Während Baseline-Auswertungen verschiedener aktueller Modelle das Potenzial für hohe Beschleunigungen (ii) zeigen, offenbaren diese Ergebnisse auch deutliche Grenzen hinsichtlich der physikalischen Korrektheit (i). Dies unterstreicht die Notwendigkeit neuer Methoden zur Durchsetzung physikalischer Korrektheit. Daten, Baseline-Modelle und Evaluierungscode finden Sie unter http://www.physics-gen.org.
Effizientes Verständnis von Vision und Sprache für große Fernerkundungsbilder (RSIs) ist bedeutsam, aber herausfordernd. Aktuelle Große Vision-Sprach-Modelle (LVLMs) verwenden typischerweise begrenzte vordefinierte Raster zur Bildverarbeitung, was zu Informationsverlusten bei der Handhabung von Gigapixel-RSIs führt. Umgekehrt erhöht die Verwendung unbegrenzter Raster die Rechenkosten erheblich. Um Bilddetails zu bewahren und gleichzeitig die Rechenkomplexität zu reduzieren, schlagen wir eine textgeführte Token-Reduktionsmethode mit Integration einer Dynamischen Bildpyramide (DIP) vor. Unsere Methode führt ein: (i) ein Region Focus Module (RFM), das textbewusste Regionenlokalisierungsfähigkeiten nutzt, um kritische Vision-Tokens zu identifizieren, und (ii) eine grob-zu-feine Bildkachelauswahl und Vision-Token-Reduktionsstrategie basierend auf DIP, die durch die Ausgaben des RFM gesteuert wird und die direkte Verarbeitung des gesamten großen Bildmaterials vermeidet. Zusätzlich leiden bestehende Benchmarks zur Bewertung der Wahrnehmungsfähigkeit von LVLMs auf großen RSIs unter begrenzter Fragevielfalt und eingeschränkten Bildgrößen. Wir erstellen einen neuen Benchmark namens LRS-VQA, der 7.333 Frage-Antwort-Paare in 8 Kategorien enthält, mit Bildlängen von bis zu 27.328 Pixeln. Unsere Methode übertrifft bestehende Hochauflösungsstrategien auf vier Datensätzen unter Verwendung derselben Daten. Darüber hinaus zeigt unser Ansatz im Vergleich zu bestehenden Token-Reduktionsmethoden eine höhere Effizienz in Hochauflösungsszenarien. Datensatz und Code sind unter https://github.com/VisionXLab/LRS-VQA verfügbar.
Large Action Models (LAMs) haben die intelligente Automatisierung revolutioniert, doch ihre Anwendung im Gesundheitswesen steht vor Herausforderungen wie Datenschutzbedenken, Latenzzeiten und der Abhängigkeit von Internetzugang. Dieser Bericht stellt einen On-Device-Multi-Agenten-Gesundheitsassistenten vor, der diese Einschränkungen überwindet. Das System nutzt kleinere, aufgabenorientierte Agenten, um Ressourcen zu optimieren, Skalierbarkeit und hohe Leistung zu gewährleisten. Unser vorgeschlagenes System fungiert als All-in-One-Lösung für Gesundheitsbedürfnisse mit Funktionen wie Terminbuchung, Gesundheitsüberwachung, Medikationserinnerungen und täglichen Gesundheitsberichten. Angetrieben durch das Qwen Code Instruct 2.5 7B-Modell erreichen die Planner- und Caller-Agenten durchschnittliche RougeL-Werte von 85,5 für die Planung und 96,5 für die Anrufausführung bei unseren Aufgaben, während sie gleichzeitig leichtgewichtig für die On-Device-Bereitstellung sind. Dieser innovative Ansatz vereint die Vorteile von On-Device-Systemen mit Multi-Agenten-Architekturen und ebnet den Weg für nutzerzentrierte Gesundheitslösungen.
Latent Diffusion Models (LDMs) sind dafür bekannt, einen instabilen Generierungsprozess zu haben, bei dem selbst kleine Störungen oder Verschiebungen im Eingangsrauschen zu deutlich unterschiedlichen Ausgaben führen können. Dies schränkt ihre Anwendbarkeit in Bereichen ein, die konsistente Ergebnisse erfordern. In dieser Arbeit gestalten wir LDMs neu, um ihre Konsistenz durch die Einführung von Verschiebungsäquivarianz zu verbessern. Während die Einführung von Anti-Aliasing-Operationen die Verschiebungsäquivarianz teilweise verbessern kann, bleiben erhebliche Aliasing-Effekte und Inkonsistenzen aufgrund der spezifischen Herausforderungen in LDMs bestehen, darunter 1) die Verstärkung von Aliasing während des VAE-Trainings und mehrfacher U-Net-Inferenzen sowie 2) Self-Attention-Module, die von Natur aus keine Verschiebungsäquivarianz aufweisen. Um diese Probleme zu lösen, gestalten wir die Attention-Module neu, um sie verschiebungsäquivariant zu machen, und schlagen einen Äquivarianzverlust vor, der die Frequenzbandbreite der Merkmale im kontinuierlichen Bereich effektiv unterdrückt. Das resultierende aliasfreie LDM (AF-LDM) erreicht eine starke Verschiebungsäquivarianz und ist auch robust gegenüber unregelmäßigen Verzerrungen. Umfangreiche Experimente zeigen, dass AF-LDM in verschiedenen Anwendungen, einschließlich Videobearbeitung und Bild-zu-Bild-Übersetzung, deutlich konsistentere Ergebnisse liefert als das herkömmliche LDM. Der Code ist verfügbar unter: https://github.com/SingleZombie/AFLDM.
Die Entwicklung effektiver und effizienter Transformer-basierter großer Sprachmodelle (LLMs) hat sich in letzter Zeit zu einem Forschungsschwerpunkt entwickelt, bei dem es darum geht, die Sprachfähigkeiten der Modelle zu maximieren und gleichzeitig die Trainings- und Bereitstellungskosten zu minimieren. Bisherige Bemühungen haben hauptsächlich komplexe Zusammenhänge zwischen Modellleistung, Parametergröße und Datenmenge beschrieben sowie nach der optimalen Rechenressourcenverteilung für das Training von LLMs gesucht. Dabei wurden jedoch die Auswirkungen der Kontextlänge und der Konfiguration der Aufmerksamkeitsköpfe (die Anzahl der Query- und Key-Value-Köpfe in der gruppierten Query-Aufmerksamkeit) auf Training und Inferenz übersehen. In diesem Artikel vergleichen wir systematisch Modelle mit unterschiedlichen Parametergrößen, Kontextlängen und Aufmerksamkeitskopf-Konfigurationen hinsichtlich Modellleistung, Rechenkosten und Speicherbedarf. Anschließend erweitern wir die bestehenden Skalierungsmethoden, die ausschließlich auf Parametergröße und Trainingsrechenleistung basieren, um die Konstruktion kosteneffizienter LLMs sowohl während des Trainings als auch der Inferenz zu leiten. Unsere quantitativen Skalierungsstudien zeigen, dass bei der Verarbeitung ausreichend langer Sequenzen ein größeres Modell mit weniger Aufmerksamkeitsköpfen einen geringeren Verlust erzielen kann, während gleichzeitig die Rechen- und Speicherkosten reduziert werden. Unsere Erkenntnisse bieten wertvolle Einblicke für die Entwicklung praktischer LLMs, insbesondere in Szenarien mit langen Kontexten. Wir werden unseren Code und unsere Daten öffentlich zugänglich machen.
Retrieval-Augmented Generation (RAG), das als sinnvolle Ergänzung zu großen Sprachmodellen (LLMs) dient, übersieht oft den entscheidenden Aspekt der Textsegmentierung innerhalb seiner Pipeline. Dieses Papier führt zunächst eine duale Metrik zur Bewertung ein, bestehend aus Boundary Clarity und Chunk Stickiness, um die direkte Quantifizierung der Segmentierungsqualität zu ermöglichen. Mithilfe dieser Bewertungsmethode heben wir die inhärenten Grenzen traditioneller und semantischer Segmentierung bei der Handhabung komplexer kontextueller Nuancen hervor und untermauern damit die Notwendigkeit, LLMs in den Segmentierungsprozess zu integrieren. Um den inhärenten Kompromiss zwischen Recheneffizienz und Segmentierungspräzision bei LLM-basierten Ansätzen zu adressieren, entwickeln wir das granularitätsbewusste Mixture-of-Chunkers (MoC)-Framework, das aus einem dreistufigen Verarbeitungsmechanismus besteht. Unser Ziel ist es insbesondere, den Segmentierer dazu zu führen, eine strukturierte Liste von Segmentierungsregulären Ausdrücken zu generieren, die anschließend zur Extraktion von Segmenten aus dem Originaltext verwendet werden. Umfangreiche Experimente zeigen, dass sowohl unsere vorgeschlagenen Metriken als auch das MoC-Framework die Herausforderungen der Segmentierungsaufgabe effektiv lösen, den Segmentierungskern offenlegen und die Leistung des RAG-Systems verbessern.
Vortrainierte Sprachmodelle (Pre-trained Language Models, PLMs) haben die wissenschaftliche Forschung revolutioniert, doch ihre Anwendung in der Einzelzellanalyse bleibt begrenzt. Text-PLMs können Einzelzell-RNA-Sequenzierungsdaten nicht verarbeiten, während Zell-PLMs nicht in der Lage sind, Freitext zu verarbeiten, was ihre Nutzung in multimodalen Aufgaben einschränkt. Bestehende Bemühungen, diese Modalitäten zu verbinden, leiden oft unter Informationsverlust oder unzureichendem vortrainiertem Einzelmodalitätsmodell, was zu suboptimalen Leistungen führt. Um diese Herausforderungen zu bewältigen, schlagen wir den Single-Cell MultiModal Generative Pre-trained Transformer (scMMGPT) vor, ein einheitliches PLM für die gemeinsame Modellierung von Zellen und Text. scMMGPT integriert effektiv die modernsten Zell- und Text-PLMs und erleichtert den cross-modalen Wissensaustausch für verbesserte Leistungen. Um die Text-Zell-Modalitätslücke zu überbrücken, nutzt scMMGPT spezielle cross-modale Projektoren und durchläuft ein umfangreiches Vortraining auf 27 Millionen Zellen – dem bisher größten Datensatz für multimodale Zell-Text-PLMs. Dieses groß angelegte Vortraining ermöglicht es scMMGPT, in gemeinsamen Zell-Text-Aufgaben hervorragende Leistungen zu erbringen, mit einer 84\%igen relativen Verbesserung der textuellen Diskrepanz bei der Zellbeschreibungserzeugung, einer 20,5\% höheren Genauigkeit bei der Zelltyp-Annotation und einer 4\%igen Verbesserung der k-NN-Genauigkeit bei der textbedingten Pseudozellgenerierung, wodurch die Baselines übertroffen werden.
Video Question Answering (VQA) in langen Videos stellt die zentrale Herausforderung dar, relevante Informationen zu extrahieren und langreichweitige Abhängigkeiten aus vielen redundanten Frames zu modellieren. Der Self-Attention-Mechanismus bietet eine allgemeine Lösung für die Sequenzmodellierung, ist jedoch mit einem prohibitiv hohen Aufwand verbunden, wenn er auf eine massive Anzahl von raumzeitlichen Tokens in langen Videos angewendet wird. Die meisten bisherigen Methoden verlassen sich auf Kompressionsstrategien, um die Rechenkosten zu senken, wie z. B. die Reduzierung der Eingabelänge durch spärliches Frame-Sampling oder die Komprimierung der Ausgabesequenz, die an das Large Language Model (LLM) übergeben wird, durch Raum-Zeit-Pooling. Diese naiven Ansätze überrepräsentieren jedoch redundante Informationen und übersehen oft wichtige Ereignisse oder schnell auftretende raumzeitliche Muster. In dieser Arbeit stellen wir BIMBA vor, ein effizientes State-Space-Modell zur Verarbeitung von langen Videos. Unser Modell nutzt den Selective-Scan-Algorithmus, um zu lernen, kritische Informationen aus hochdimensionalen Videos effektiv auszuwählen und in eine reduzierte Token-Sequenz für die effiziente Verarbeitung durch das LLM zu transformieren. Umfangreiche Experimente zeigen, dass BIMBA state-of-the-art Genauigkeit auf mehreren Benchmarks für langformige VQA erreicht, darunter PerceptionTest, NExT-QA, EgoSchema, VNBench, LongVideoBench und Video-MME. Code und Modelle sind öffentlich verfügbar unter https://sites.google.com/view/bimba-mllm.
Random Sample Consensus (RANSAC) ist ein grundlegender Ansatz zur robusten Schätzung parametrischer Modelle aus verrauschten Daten. Bestehende lernbasierte RANSAC-Methoden nutzen Deep Learning, um die Robustheit von RANSAC gegenüber Ausreißern zu verbessern. Diese Ansätze werden jedoch auf Daten trainiert und getestet, die von denselben Algorithmen generiert werden, was zu einer begrenzten Generalisierungsfähigkeit auf außerhalb der Verteilung liegende Daten während der Inferenz führt. Daher stellen wir in diesem Artikel ein neuartiges, diffusionsbasiertes Paradigma vor, das schrittweise Rauschen in Ground-Truth-Daten einfügt und so die verrauschten Bedingungen für das Training lernbasierter RANSAC-Methoden simuliert. Um die Datenvielfalt zu erhöhen, integrieren wir Monte-Carlo-Sampling in das Diffusionsparadigma, wodurch verschiedene Datenverteilungen durch die Einführung unterschiedlicher Arten von Zufälligkeit in mehreren Stufen angenähert werden. Wir bewerten unseren Ansatz im Kontext der Merkmalszuordnung durch umfangreiche Experimente auf den Datensätzen ScanNet und MegaDepth. Die experimentellen Ergebnisse zeigen, dass unser Monte-Carlo-Diffusionsmechanismus die Generalisierungsfähigkeit lernbasierter RANSAC-Methoden signifikant verbessert. Zudem führen wir umfangreiche Ablationsstudien durch, die die Wirksamkeit der Schlüsselkomponenten unseres Frameworks hervorheben.
Machine Learning Force Fields (MLFFs) stellen eine vielversprechende Alternative zu teuren ab-initio-Quantenmechanik-Molekülsimulationen dar. Angesichts der Vielfalt der chemischen Räume, die von Interesse sind, und der Kosten für die Generierung neuer Daten, ist es wichtig zu verstehen, wie MLFFs über ihre Trainingsverteilungen hinaus generalisieren. Um Verschiebungen in den Verteilungen von MLFFs zu charakterisieren und besser zu verstehen, führen wir diagnostische Experimente mit chemischen Datensätzen durch, die häufige Verschiebungen aufdecken, die erhebliche Herausforderungen darstellen, selbst für große Foundation-Modelle, die mit umfangreichen Daten trainiert wurden. Basierend auf diesen Beobachtungen stellen wir die Hypothese auf, dass aktuelle überwachte Trainingsmethoden MLFFs unzureichend regularisieren, was zu Overfitting und schlechten Repräsentationen von Out-of-Distribution-Systemen führt. Wir schlagen dann zwei neue Methoden als erste Schritte zur Minderung von Verteilungsverschiebungen für MLFFs vor. Unsere Methoden konzentrieren sich auf Testzeit-Verfeinerungsstrategien, die mit minimalem Rechenaufwand verbunden sind und keine teuren ab-initio-Referenzlabels verwenden. Die erste Strategie, basierend auf der spektralen Graphentheorie, modifiziert die Kanten von Testgraphen, um sie mit den während des Trainings gesehenen Graphenstrukturen in Einklang zu bringen. Unsere zweite Strategie verbessert die Repräsentationen für Out-of-Distribution-Systeme zur Testzeit, indem Gradientenschritte unter Verwendung eines Hilfsziels, wie eines kostengünstigen physikalischen Priors, durchgeführt werden. Unsere Testzeit-Verfeinerungsstrategien reduzieren die Fehler bei Out-of-Distribution-Systemen erheblich, was darauf hindeutet, dass MLFFs in der Lage sind und sich darauf zubewegen können, diverse chemische Räume zu modellieren, aber nicht effektiv dafür trainiert werden. Unsere Experimente etablieren klare Benchmarks für die Bewertung der Generalisierungsfähigkeiten der nächsten Generation von MLFFs. Unser Code ist verfügbar unter https://tkreiman.github.io/projects/mlff_distribution_shifts/.