Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Erweiterung der Kontextlänge von Sprachmodellen (LMs) durch die Verbesserung der Rotierenden Positions-Einbettung (RoPE) ist zu einem Trend geworden. Während bestehende Arbeiten hauptsächlich die Grenzen von RoPE innerhalb des Aufmerksamkeitsmechanismus ansprechen, liefert dieses Papier eine Analyse nahezu aller Teile von LMs und deckt deren nachteilige Auswirkungen auf die Längenverallgemeinerung für die auf RoPE basierende Aufmerksamkeit auf. Unter Verwendung der Theorie der Diskreten Signalverarbeitung zeigen wir, dass RoPE periodische Aufmerksamkeit ermöglicht, indem sie implizit die Nicht-Uniforme Diskrete Fourier-Transformation erreicht. Diese Periodizität wird jedoch durch den spektralen Schaden untergraben, der durch 1) lineare Schichten und Aktivierungsfunktionen außerhalb der Aufmerksamkeit und 2) unzureichend trainierte Frequenzkomponenten verursacht wird, die durch die Zeitbereichstrunkierung entstehen. Basierend auf unseren Beobachtungen schlagen wir die Fourier-Positions-Einbettung (FoPE) vor, die die frequenzdomäneneigenschaften der Aufmerksamkeit verbessert, um sowohl ihre periodische Erweiterung als auch die Längenverallgemeinerung zu verbessern. FoPE konstruiert Fourier-Reihen und eliminiert die zerstörerischen Frequenzkomponenten, um die Modellrobustheit gegenüber dem spektralen Schaden zu erhöhen. Experimente über verschiedene Modellskalen zeigen, dass FoPE in verschiedenen Kontextfenstern eine stabilere Perplexität aufrechterhalten kann und in einer Nadel-im-Heuhaufen-Aufgabe im Vergleich zu RoPE und ALiBi eine konsistentere Genauigkeit aufweist. Mehrere Analysen und Ablationen stützen unsere Methode und theoretische Modellierung weiter.
Ein 3D Szenengraph repräsentiert ein kompaktes Szenenmodell, das Informationen über die Objekte und die semantischen Beziehungen zwischen ihnen speichert, was seine Verwendung für robotische Aufgaben vielversprechend macht. Bei der Interaktion mit einem Benutzer sollte ein verkörperter intelligenter Agent in der Lage sein, auf verschiedene Anfragen über die Szene in natürlicher Sprache zu antworten. Große Sprachmodelle (LLMs) sind vorteilhafte Lösungen für die Benutzer-Roboter-Interaktion aufgrund ihrer Fähigkeiten im Verständnis und Schlussfolgern natürlicher Sprache. Aktuelle Methoden zur Erstellung erlernbarer Repräsentationen von 3D-Szenen haben das Potenzial gezeigt, die Qualität der Antworten von LLMs zu verbessern, indem sie sich an die 3D-Welt anpassen. Allerdings nutzen die bestehenden Methoden nicht explizit Informationen über die semantischen Beziehungen zwischen Objekten, sondern beschränken sich auf Informationen über deren Koordinaten. In dieser Arbeit schlagen wir die Methode 3DGraphLLM zur Konstruktion einer erlernbaren Repräsentation eines 3D-Szenengraphen vor. Die erlernbare Repräsentation wird als Eingabe für LLMs verwendet, um 3D-Vision-Sprach-Aufgaben auszuführen. In unseren Experimenten mit den beliebten Datensätzen ScanRefer, RIORefer, Multi3DRefer, ScanQA, Sqa3D und Scan2cap zeigen wir den Vorteil dieses Ansatzes gegenüber Basismethoden, die keine Informationen über die semantischen Beziehungen zwischen Objekten verwenden. Der Code ist öffentlich verfügbar unter https://github.com/CognitiveAISystems/3DGraphLLM.
Fehlende Werte bleiben eine häufige Herausforderung für Tiefendaten in einem breiten Anwendungsbereich, die aus verschiedenen Gründen wie unvollständiger Datenerfassung und Perspektivenänderung resultieren. Diese Arbeit überbrückt diese Lücke mit DepthLab, einem grundlegenden Tiefen-Inpainting-Modell, das auf Bild-Diffusionsprioritäten basiert. Unser Modell weist zwei bemerkenswerte Stärken auf: (1) Es zeigt eine Widerstandsfähigkeit gegenüber tiefendefizienten Regionen und bietet eine zuverlässige Vervollständigung sowohl für kontinuierliche Bereiche als auch für isolierte Punkte, und (2) es bewahrt maßstabsgetreu die Skalenkonsistenz mit der bedingten bekannten Tiefe beim Ausfüllen fehlender Werte. Basierend auf diesen Vorteilen zeigt unser Ansatz seinen Wert in verschiedenen nachgelagerten Aufgaben, einschließlich 3D-Szenen-Inpainting, Text-zu-3D-Szenen-Generierung, Sparse-View-Rekonstruktion mit DUST3R und LiDAR-Tiefenvervollständigung, wobei er aktuelle Lösungen sowohl in numerischer Leistung als auch in visueller Qualität übertrifft. Unsere Projektseite mit dem Quellcode ist unter https://johanan528.github.io/depthlab_web/ verfügbar.
Sora-ähnliche Video-generierende Modelle haben bemerkenswerte Fortschritte mit einer Multi-Modalen Diffusions-Transformer MM-DiT Architektur erzielt. Allerdings konzentrieren sich die aktuellen Video-generierenden Modelle hauptsächlich auf Einzelanfragen und haben Schwierigkeiten, kohärente Szenen mit mehreren aufeinanderfolgenden Anfragen zu erzeugen, die realistischere dynamische Szenarien widerspiegeln. Während einige wegweisende Arbeiten die Video-generierung mit mehreren Anfragen erkundet haben, stehen sie vor erheblichen Herausforderungen, darunter strenge Trainingsdatenanforderungen, schwache Anfrageverfolgung und unnatürliche Übergänge. Um diese Probleme anzugehen, schlagen wir DiTCtrl vor, eine trainingsfreie Methode zur Video-generierung mit mehreren Anfragen unter MM-DiT-Architekturen zum ersten Mal. Unsere Schlüsselidee besteht darin, die Video-generierung mit mehreren Anfragen als zeitliche Videobearbeitung mit sanften Übergängen zu betrachten. Um dieses Ziel zu erreichen, analysieren wir zunächst den Aufmerksamkeitsmechanismus von MM-DiT und stellen fest, dass die 3D-Voll-Aufmerksamkeit ähnlich wie die Kreuz-/Selbstaufmerksamkeitsblöcke in den UNet-ähnlichen Diffusionsmodellen funktioniert, wodurch eine maskengeführte präzise semantische Steuerung über verschiedene Anfragen hinweg mit Aufmerksamkeitsteilung für die Video-generierung mit mehreren Anfragen ermöglicht wird. Basierend auf unserem sorgfältigen Design erzielt das von DiTCtrl generierte Video sanfte Übergänge und konsistente Objektbewegungen bei mehreren aufeinanderfolgenden Anfragen ohne zusätzliches Training. Darüber hinaus präsentieren wir MPVBench, einen neuen Benchmark, der speziell für die Video-generierung mit mehreren Anfragen entwickelt wurde, um die Leistung der mehrfachen Anfragegenerierung zu bewerten. Umfangreiche Experimente zeigen, dass unsere Methode eine Spitzenleistung ohne zusätzliches Training erreicht.
Text- oder Bild-zu-3D-Generatoren und 3D-Scanner können nun 3D-Assets mit hochwertigen Formen und Texturen erzeugen. Diese Assets bestehen in der Regel aus einer einzigen, verschmolzenen Darstellung, wie einem impliziten neuronalen Feld, einer Gauß'schen Mischung oder einem Netz, ohne jegliche nützliche Struktur. Die meisten Anwendungen und kreativen Workflows erfordern jedoch, dass Assets aus mehreren sinnvollen Teilen bestehen, die unabhängig voneinander manipuliert werden können. Um diese Lücke zu schließen, stellen wir PartGen vor, einen neuartigen Ansatz, der 3D-Objekte aus sinnvollen Teilen generiert, die von Text, einem Bild oder einem unstrukturierten 3D-Objekt ausgehen. Zunächst extrahiert ein Multi-View-Diffusionsmodell anhand mehrerer Ansichten eines 3D-Objekts, die generiert oder gerendert wurden, eine Reihe plausibler und ansichtskonsistenter Teilsegmentierungen, die das Objekt in Teile unterteilen. Anschließend nimmt ein zweites Multi-View-Diffusionsmodell jeden Teil separat, füllt die Okklusionen aus und verwendet diese vervollständigten Ansichten für die 3D-Rekonstruktion, indem sie sie einem 3D-Rekonstruktionsnetzwerk zuführt. Dieser Vervollständigungsprozess berücksichtigt den Kontext des gesamten Objekts, um sicherzustellen, dass die Teile nahtlos integriert werden. Das generative Vervollständigungsmodell kann die aufgrund von Okklusionen fehlenden Informationen ausgleichen; in extremen Fällen kann es vollständig unsichtbare Teile basierend auf dem Eingabe-3D-Asset halluzinieren. Wir evaluieren unsere Methode an generierten und realen 3D-Assets und zeigen, dass sie Segmentierungs- und Teil-Extraktions-Baselines bei weitem übertrifft. Wir präsentieren auch nachgelagerte Anwendungen wie die 3D-Teilbearbeitung.
Trotz der jüngsten Fortschritte bei großen Sprachmodellen haben Open-Source-Modelle oft Schwierigkeiten, bei komplexen Denkaufgaben konsistent gute Leistungen zu erbringen. Bestehende Ensemble-Methoden, ob auf Token- oder Ausgabeebene angewendet, scheitern daran, diese Herausforderungen anzugehen. Als Antwort präsentieren wir Language Model Ensemble with Monte Carlo Tree Search (LE-MCTS), ein neuartiges Framework zur Prozess-Ensemblebildung von Sprachmodellen. LE-MCTS formuliert schrittweises Denken mit einem Ensemble von Sprachmodellen als Markow-Entscheidungsprozess. In diesem Rahmen stellen Zustände intermediäre Denkpfade dar, während Aktionen darin bestehen, den nächsten Denkschritt zu generieren, indem eines der Sprachmodelle aus einem vordefinierten Pool ausgewählt wird. Geführt von einem prozessbasierten Belohnungsmodell durchsucht LE-MCTS die Denkschritte, die von verschiedenen Sprachmodellen generiert werden, und identifiziert die genaueste Denkfolge. Experimentelle Ergebnisse zu fünf mathematischen Denkaufgaben zeigen, dass unser Ansatz sowohl einzelne Sprachmodell-Decodierungsalgorithmen als auch Sprachmodell-Ensemble-Methoden übertrifft. Bemerkenswert verbessert LE-MCTS die Leistung um 3,6 % bzw. 4,3 % auf den MATH- und MQA-Datensätzen und unterstreicht damit seine Wirksamkeit bei der Lösung komplexer Denkaufgaben.
Die ARC Challenge erscheint für moderne LLMs anscheinend schwieriger als ARC Easy, hauptsächlich aufgrund eines Bewertungsaufbaus, der einen direkten Vergleich von Antwortmöglichkeiten verhindert, anstatt einer inhärenten Komplexität. Obwohl einige Forscher im letzten Jahr leise zu einem angemesseneren Schema übergegangen sind, sind die Auswirkungen dieses Wechsels noch nicht weit verbreitet anerkannt. Wir heben diese übersehene Veränderung hervor, zeigen, wie ähnliche Bewertungspraktiken fälschlicherweise auf Schlussfolgerungsdefizite in anderen Benchmarks hinweisen und zeigen, dass gerechtere Methoden Leistungsunterschiede dramatisch reduzieren (z. B. bei SIQA) und sogar übermenschliche Ergebnisse erzielen (OpenBookQA). Dabei enthüllen wir, wie die Bewertung die wahrgenommene Schwierigkeit formt, und bieten Richtlinien an, um sicherzustellen, dass Multiple-Choice-Bewertungen die tatsächlichen Modellfähigkeiten genau widerspiegeln.
Spärlich aktiviert Mixture-of-Experts (MoE) Modelle werden weit verbreitet eingesetzt, um die Modellkapazität zu erhöhen, ohne das Berechnungsbudget zu erhöhen. Allerdings werden herkömmliche TopK-Router auf eine diskontinuierliche, nicht differenzierbare Weise trainiert, was ihre Leistungsfähigkeit und Skalierbarkeit einschränkt. Um dieses Problem zu lösen, schlagen wir ReMoE vor, eine vollständig differenzierbare MoE-Architektur, die einen einfachen, aber effektiven Ersatz für die herkömmliche TopK+Softmax-Routing bietet und dabei ReLU als Router verwendet. Wir schlagen außerdem Methoden vor, um die Sparsamkeit des Routers zu regulieren und die Last zwischen den Experten auszugleichen. Die kontinuierliche Natur von ReMoE ermöglicht eine effiziente dynamische Zuweisung von Berechnungen über Token und Schichten hinweg und zeigt auch Domänenspezialisierung. Unsere Experimente zeigen, dass ReMoE konsequent bessere Leistungen erbringt als herkömmliche TopK-geroutete MoE-Modelle bei verschiedenen Modellgrößen, Expertenzahlen und Granularitätsstufen. Darüber hinaus zeigt ReMoE eine überlegene Skalierbarkeit in Bezug auf die Anzahl der Experten und übertrifft traditionelle MoE-Architekturen. Die Implementierung basierend auf Megatron-LM ist verfügbar unter https://github.com/thu-ml/ReMoE.
Retrieval-augmented Generation (RAG)-Systeme sind entscheidend geworden, um umfangreiche Korpora zu nutzen, um informierte und kontextuell relevante Antworten zu generieren, wodurch insbesondere Halluzinationen in großen Sprachmodellen reduziert werden. Trotz bedeutender Fortschritte haben diese Systeme Schwierigkeiten, Informationen effizient aus großen Datensätzen abzurufen und zu verarbeiten, während sie ein umfassendes Verständnis des Kontexts aufrechterhalten. Dieses Papier stellt SKETCH vor, eine neuartige Methodik, die den RAG-Abrufprozess durch die Integration von semantischer Textsuche mit Wissensgraphen verbessert, wodurch strukturierte und unstrukturierte Daten für ein ganzheitlicheres Verständnis zusammengeführt werden. SKETCH zeigt signifikante Verbesserungen in der Abrufleistung und behält im Vergleich zu traditionellen Methoden eine überlegene Kontextintegrität bei. Über vier verschiedene Datensätze evaluiert - QuALITY, QASPER, NarrativeQA und Italian Cuisine - übertrifft SKETCH konstant Basismethoden in Schlüsselmetriken des RAGAS wie Antwortrelevanz, Treue, Kontextpräzision und Kontextabruf. Insbesondere auf dem Datensatz Italian Cuisine erzielte SKETCH eine Antwortrelevanz von 0,94 und eine Kontextpräzision von 0,99, was die höchste Leistung in allen evaluierten Metriken darstellt. Diese Ergebnisse unterstreichen die Fähigkeit von SKETCH, genauere und kontextuell relevantere Antworten zu liefern und setzen neue Maßstäbe für zukünftige Abrufsysteme.
Der Fortschritt in der KI wird weitgehend durch den Umfang und die Qualität der Trainingsdaten vorangetrieben. Trotzdem besteht ein Mangel an empirischen Analysen, die die Merkmale etablierter Datensätze jenseits von Text untersuchen. In dieser Arbeit führen wir die größte und erstmalige longitudinale Überprüfung über Modalitäten hinweg durch - beliebte Text-, Sprach- und Videodatensätze - von ihren detaillierten Beschaffungstrends und Nutzungsbeschränkungen bis hin zu ihrer geografischen und sprachlichen Repräsentation. Unsere manuelle Analyse umfasst fast 4000 öffentliche Datensätze zwischen 1990 und 2024, die 608 Sprachen, 798 Quellen, 659 Organisationen und 67 Länder abdecken. Wir stellen fest, dass multimodale maschinelle Lernanwendungen überwiegend auf Web-Crawling, synthetische und soziale Medienplattformen wie YouTube für ihre Trainingsdaten zurückgegriffen haben und seit 2019 alle anderen Quellen übertreffen. Zweitens zeigen wir durch die Verfolgung der Kette von Datensatzableitungen, dass zwar weniger als 33% der Datensätze restriktiv lizenziert sind, über 80% der Quellinhalte in weit verbreiteten Text-, Sprach- und Videodatensätzen nicht-kommerzielle Beschränkungen aufweisen. Schließlich, entgegen der steigenden Anzahl von Sprachen und geografischen Regionen in öffentlichen KI-Trainingsdatensätzen, zeigt unsere Überprüfung, dass Maßnahmen zur relativen geografischen und mehrsprachigen Repräsentation seit 2013 nicht signifikant verbessert wurden. Wir glauben, dass die Breite unserer Überprüfung es uns ermöglicht, Trends bei der Datenerfassung, Beschränkungen und der westlichen Zentrierung auf Ökosystemebene empirisch zu untersuchen, und dass Einblicke in diese Fragen für den Fortschritt in der verantwortungsbewussten KI unerlässlich sind. Als Beitrag zu laufenden Verbesserungen bei der Datentransparenz und dem verantwortungsbewussten Einsatz veröffentlichen wir unsere gesamte multimodale Überprüfung, um Praktikern zu ermöglichen, die Datenherkunft über Text, Sprache und Video zurückzuverfolgen.
Die Generierung von Text-Bild-zu-Video (TI2V) zielt darauf ab, ein Video aus einem Bild gemäß einer Textbeschreibung zu generieren, was auch als textgesteuerte Bildanimation bezeichnet wird. Die meisten bestehenden Methoden haben Schwierigkeiten, Videos zu generieren, die gut mit den Textvorgaben übereinstimmen, insbesondere wenn Bewegungen spezifiziert sind. Um diese Einschränkung zu überwinden, stellen wir MotiF vor, einen einfachen, aber effektiven Ansatz, der das Lernen des Modells auf die Regionen mit mehr Bewegung lenkt und somit die Textausrichtung und Bewegungsgenerierung verbessert. Wir verwenden optischen Fluss, um eine Bewegungswärmebildkarte zu generieren und den Verlust entsprechend der Intensität der Bewegung zu gewichten. Dieses modifizierte Ziel führt zu spürbaren Verbesserungen und ergänzt bestehende Methoden, die Bewegungsprioritäten als Modellinputs nutzen. Zusätzlich schlagen wir aufgrund des Mangels an einem vielfältigen Benchmark zur Bewertung der TI2V-Generierung TI2V Bench vor, ein Datensatz bestehend aus 320 Bild-Text-Paaren für eine robuste Bewertung. Wir präsentieren ein menschliches Bewertungsprotokoll, das die Annotatoren bittet, eine Gesamtpräferenz zwischen zwei Videos auszuwählen, gefolgt von ihren Begründungen. Durch eine umfassende Bewertung auf TI2V Bench übertrifft MotiF neun Open-Source-Modelle und erzielt eine durchschnittliche Präferenz von 72%. Der TI2V Bench ist unter https://wang-sj16.github.io/motif/ verfügbar.