Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen den Byte Latent Transformer (BLT) vor, eine neue LLM-Architektur auf Byte-Ebene, die erstmals die Leistung tokenisierungsbasierter LLMs im großen Maßstab mit signifikanten Verbesserungen in Effizienz und Robustheit bei der Inferenz erreicht. BLT kodiert Bytes in dynamisch dimensionierte Patches, die als primäre Berechnungseinheiten dienen. Patches werden basierend auf der Entropie des nächsten Bytes segmentiert, wobei mehr Rechenleistung und Modellkapazität dort zugewiesen werden, wo eine erhöhte Datenkomplexität erforderlich ist. Wir präsentieren die erste FLOP-gesteuerte Skalierungsstudie von Byte-Level-Modellen mit bis zu 8 Milliarden Parametern und 4 Billionen Trainingsbytes. Unsere Ergebnisse zeigen die Machbarkeit der Skalierung von Modellen, die auf Rohbytes trainiert sind, ohne ein festes Vokabular. Sowohl die Trainings- als auch die Inferenzeffizienz verbessern sich durch die dynamische Auswahl langer Patches, wenn die Daten vorhersehbar sind, zusammen mit qualitativen Verbesserungen bei der Argumentation und der Generalisierung von langen Schwänzen. Insgesamt zeigt BLT bei festen Inferenzkosten eine deutlich bessere Skalierung als tokenisierungsbasierte Modelle, indem sowohl Patch- als auch Modellgröße gleichzeitig erhöht werden.
Große Sprachmodelle (LLMs) zeigen bemerkenswerte generative Fähigkeiten, leiden jedoch oft unter Halluzinationen. Die abrufgestützte Generierung (RAG) bietet eine effektive Lösung, indem externe Kenntnisse integriert werden, aber bestehende Methoden stehen noch vor mehreren Einschränkungen: zusätzliche Bereitstellungskosten für separate Abrufer, redundante Eingabetoken aus abgerufenen Textabschnitten und das Fehlen einer gemeinsamen Optimierung von Abruf und Generierung. Um diese Probleme zu lösen, schlagen wir RetroLLM vor, ein vereinheitlichtes Framework, das Abruf und Generierung in einen einzigen, zusammenhängenden Prozess integriert, wodurch LLMs in der Lage sind, direkt fein abgestufte Beweise aus dem Korpus mit eingeschränktem Decodieren zu generieren. Darüber hinaus, um falsches Beschneiden im Prozess der eingeschränkten Beweisgenerierung zu mildern, führen wir ein (1) hierarchisches FM-Index-Konzept ein, das korpusbeschränkte Hinweise generiert, um eine Teilmenge relevanter Dokumente vor der Beweisgenerierung zu identifizieren, wodurch der irrelevante Decodieraum reduziert wird; und (2) eine vorwärtsgerichtete eingeschränkte Decodierstrategie, die die Relevanz zukünftiger Sequenzen berücksichtigt, um die Beweisgenauigkeit zu verbessern. Umfangreiche Experimente an fünf Open-Domain-QA-Datensätzen zeigen die überlegene Leistung von RetroLLM sowohl bei in-domain als auch bei out-of-domain Aufgaben. Der Code ist verfügbar unter https://github.com/sunnynexus/RetroLLM.
Jüngste Fortschritte bei visuellen generativen Modellen haben hochwertige Bild- und Videoerzeugung ermöglicht und verschiedene Anwendungen eröffnet. Die Bewertung dieser Modelle erfordert jedoch oft das Samplen von Hunderten oder Tausenden von Bildern oder Videos, was den Prozess rechnerisch aufwendig macht, insbesondere für Diffusions-basierte Modelle mit von Natur aus langsamer Abtastung. Darüber hinaus stützen sich bestehende Bewertungsmethoden auf starre Abläufe, die spezifische Benutzeranforderungen übersehen und numerische Ergebnisse ohne klare Erklärungen liefern. Im Gegensatz dazu können Menschen schnell Eindrücke von den Fähigkeiten eines Modells gewinnen, indem sie nur wenige Beispiele betrachten. Um dies nachzuahmen, schlagen wir das Evaluation Agent Framework vor, das menschenähnliche Strategien für effiziente, dynamische, mehrstufige Bewertungen unter Verwendung nur weniger Beispiele pro Runde einsetzt und dabei detaillierte, auf den Benutzer zugeschnittene Analysen bietet. Es bietet vier Hauptvorteile: 1) Effizienz, 2) anpassbare Bewertung, die auf vielfältige Benutzeranforderungen zugeschnitten ist, 3) Erklärbarkeit über einzelne numerische Werte hinaus und 4) Skalierbarkeit über verschiedene Modelle und Tools hinweg. Experimente zeigen, dass das Evaluation Agent Framework die Bewertungszeit im Vergleich zu traditionellen Methoden auf 10% reduziert, während vergleichbare Ergebnisse erzielt werden. Das Evaluation Agent Framework ist vollständig Open Source, um die Forschung in visuellen generativen Modellen und ihrer effizienten Bewertung voranzutreiben.
Die Bildbearbeitung hat sich erheblich weiterentwickelt durch die Entwicklung von Diffusionsmodellen, die sowohl auf Inversions- als auch auf Anweisungsbasierten Methoden beruhen. Allerdings haben aktuelle Inversionsansätze Schwierigkeiten mit großen Modifikationen (z. B. Hinzufügen oder Entfernen von Objekten) aufgrund der strukturierten Natur des Inversionsrauschens, was wesentliche Änderungen behindert. Andererseits beschränken Anweisungsbasierte Methoden die Benutzer oft auf Black-Box-Operationen, was die direkte Interaktion zur Spezifizierung von Bearbeitungsregionen und Intensität einschränkt. Um diese Einschränkungen zu beheben, schlagen wir BrushEdit vor, ein neuartiges Inpainting-basiertes, anweisungsgesteuertes Bildbearbeitungsparadigma, das auf multimodalen großen Sprachmodellen (MLLMs) und Bildinpainting-Modellen basiert, um autonome, benutzerfreundliche und interaktive freiformale Anweisungsbearbeitung zu ermöglichen. Konkret entwickeln wir ein System, das freiformale Anweisungsbearbeitung durch Integration von MLLMs und einem Dual-Branch-Bildinpainting-Modell in einem agentenkooperativen Rahmen ermöglicht, um Bearbeitungskategorienklassifizierung, Hauptobjektidentifikation, Maskenerwerb und Bearbeitungsbereichsinpainting durchzuführen. Umfangreiche Experimente zeigen, dass unser Framework MLLMs und Inpainting-Modelle effektiv kombiniert und über sieben Metriken hinweg eine überlegene Leistung erzielt, einschließlich Maskenregionserhaltung und Bearbeitungseffektkohärenz.
Die Anpassung von Anweisungen wurde weit verbreitet eingesetzt, um das volle Potenzial großer Sprachmodelle freizusetzen. Insbesondere komplexe und vielfältige Anweisungen sind von erheblicher Bedeutung, da sie Modelle effektiv mit verschiedenen nachgelagerten Aufgaben abstimmen können. Allerdings bevorzugen aktuelle Ansätze zur Konstruktion von groß angelegten Anweisungen überwiegend leistungsstarke Modelle wie GPT-4 oder solche mit über 70 Milliarden Parametern, unter der empirischen Annahme, dass solche größeren Sprachmodelle (LLMs) inhärent verbesserte Fähigkeiten besitzen. In dieser Studie hinterfragen wir diese weit verbreitete Annahme und führen eine eingehende Untersuchung des Potenzials kleinerer Sprachmodelle (SLMs) im Kontext der Anweisungsevolution durch. Umfangreiche Experimente in drei Szenarien der Anweisungsevolution zeigen, dass kleinere Sprachmodelle (SLMs) wirksamere Anweisungen als LLMs synthetisieren können. Eine weitere Analyse zeigt, dass SLMs während der Anweisungsevolution über einen breiteren Ausgabebereich verfügen, was zu komplexeren und vielfältigeren Varianten führt. Wir beobachten auch, dass die bestehenden Metriken den Einfluss der Anweisungen nicht angemessen berücksichtigen. Daher schlagen wir Instruction Complex-Aware IFD (IC-IFD) vor, das die Anweisungskomplexität in den ursprünglichen IFD-Score einführt, um die Wirksamkeit von Anweisungsdaten genauer zu bewerten. Unser Quellcode ist verfügbar unter: https://github.com/HypherX/Evolution-Analysis.
Die automatische Kolorierung von schwarz-weißen Bildsequenzen unter Beibehaltung von Charakter- und Objektidentität ist eine komplexe Aufgabe mit erheblicher Marktnachfrage, beispielsweise bei der Kolorierung von Cartoon- oder Comicserien. Trotz Fortschritten bei der visuellen Kolorierung mithilfe von groß angelegten generativen Modellen wie Diffusionsmodellen bestehen Herausforderungen hinsichtlich Steuerbarkeit und Identitätskonsistenz, wodurch aktuelle Lösungen für industrielle Anwendungen ungeeignet sind. Um dies zu bewältigen, schlagen wir ColorFlow vor, ein auf drei Stufen basierendes Diffusionsframework, das speziell für die Kolorierung von Bildsequenzen in industriellen Anwendungen entwickelt wurde. Im Gegensatz zu bestehenden Methoden, die eine Feinabstimmung pro Identität erfordern oder eine explizite Identitätseinbettungsextraktion erfordern, schlagen wir eine neuartige robuste und generalisierbare Retrieval-augmentierte Kolorierungspipeline für die Kolorierung von Bildern mit relevanten Farbverweisen vor. Unsere Pipeline verfügt auch über ein Zweigdesign: ein Zweig für die Extraktion von Farbidentität und der andere für die Kolorierung, wobei die Stärken von Diffusionsmodellen genutzt werden. Wir verwenden den Selbst-Aufmerksamkeitsmechanismus in Diffusionsmodellen für starkes kontextbezogenes Lernen und Farbidentitätsabgleich. Zur Bewertung unseres Modells führen wir ColorFlow-Bench ein, einen umfassenden Benchmark für referenzbasierte Kolorierung. Die Ergebnisse zeigen, dass ColorFlow bestehende Modelle in mehreren Metriken übertrifft und einen neuen Standard in der sequenziellen Bildkolorierung setzt, was möglicherweise der Kunstindustrie zugutekommt. Wir veröffentlichen unseren Code und unsere Modelle auf unserer Projektseite: https://zhuang2002.github.io/ColorFlow/.
Wir stellen Causal Diffusion als das autoregressive (AR) Pendant zu Diffusionsmodellen vor. Es handelt sich um ein Framework zur Vorhersage des nächsten Tokens, das sowohl für diskrete als auch kontinuierliche Modalitäten geeignet ist und mit bestehenden Modellen zur Vorhersage des nächsten Tokens wie LLaMA und GPT kompatibel ist. Während aktuelle Arbeiten versuchen, Diffusion mit AR-Modellen zu kombinieren, zeigen wir, dass die Einführung einer sequenziellen Faktorisierung in ein Diffusionsmodell seine Leistung erheblich verbessern kann und einen reibungslosen Übergang zwischen AR- und Diffusionsgenerierungsmodi ermöglicht. Daher schlagen wir CausalFusion vor - einen ausschließlich dekodierenden Transformer, der Daten über sequenzielle Tokens und Diffusionsrauschpegel dual faktorisiert, was zu Spitzenleistungen beim ImageNet-Generierungstest führt und gleichzeitig den AR-Vorteil bietet, eine beliebige Anzahl von Tokens für kontextbezogenes Denken zu generieren. Wir zeigen außerdem die multimodalen Fähigkeiten von CausalFusion durch ein gemeinsames Modell zur Bildgenerierung und Bildunterschrift sowie präsentieren die Fähigkeit von CausalFusion für Zero-Shot-In-Context-Bildmanipulationen. Wir hoffen, dass diese Arbeit der Gemeinschaft eine frische Perspektive auf das Training von multimodalen Modellen über diskrete und kontinuierliche Daten bieten könnte.
Das Befolgen von Anweisungen ist eine grundlegende Fähigkeit von Sprachmodellen, die erfordert, dass das Modell selbst die subtilsten Anforderungen in den Anweisungen erkennt und sie genau in seiner Ausgabe widerspiegelt. Eine solche Fähigkeit eignet sich gut für und wird oft durch Präferenzlernen optimiert. Allerdings sampeln bestehende Methoden oft direkt mehrere unabhängige Antworten des Modells, um Präferenzpaare zu erstellen. Eine solche Praxis kann Inhaltsvariationen einführen, die nicht relevant dafür sind, ob die Anweisung genau befolgt wird (z. B. unterschiedliche Ausdrücke über dieselbe Bedeutung), was das Ziel, den Modellen beizubringen, die wesentlichen Unterschiede zu erkennen, die zu einer verbesserten Anweisungsbefolgung führen, beeinträchtigen kann. Vor diesem Hintergrund stellen wir SPaR vor, ein Selbstspiel-Framework, das die Selbstverfeinerung der Baum-Suche integriert, um gültige und vergleichbare Präferenzpaare frei von Ablenkungen zu erzeugen. Indem es gegen sich selbst spielt, verwendet ein LLM eine Baum-Suche-Strategie, um seine vorherigen Antworten in Bezug auf die Anweisung zu verfeinern und unnötige Variationen zu minimieren. Unsere Experimente zeigen, dass ein LLaMA3-8B-Modell, das über drei Iterationen durch SPaR geleitet wurde, den GPT-4-Turbo auf dem IFEval-Benchmark übertrifft, ohne dabei die allgemeinen Fähigkeiten zu verlieren. Darüber hinaus zeigt SPaR vielversprechende Skalierbarkeit und Übertragbarkeit und verbessert Modelle wie GLM-4-9B und LLaMA3-70B erheblich. Wir identifizieren auch, wie die Inferenzskalierung in der Baum-Suche die Leistung des Modells beeinflussen würde. Unser Code und unsere Daten sind öffentlich unter https://github.com/thu-coai/SPaR verfügbar.
Dieses Paper behandelt eine herausfordernde Frage: Wie können hochwertige, umfangreiche 3D-Szenen effizient aus einem einzigen beliebigen Bild erstellt werden? Bestehende Methoden stehen vor mehreren Einschränkungen, wie dem Bedarf an Multi-View-Daten, zeitaufwändiger Szenenoptimierung, geringer visueller Qualität in Hintergründen und verzerrten Rekonstruktionen in nicht gesehenen Bereichen. Wir schlagen eine neuartige Pipeline vor, um diese Einschränkungen zu überwinden. Konkret führen wir ein groß angelegtes Rekonstruktionsmodell ein, das Latente aus einem Video-Diffusionsmodell verwendet, um 3D-Gaußsche Splattings für die Szenen auf eine Feed-Forward-Art vorherzusagen. Das Video-Diffusionsmodell ist darauf ausgelegt, Videos präzise gemäß festgelegter Kameratrajektorien zu erstellen, was es ermöglicht, komprimierte Video-Latente zu generieren, die Multi-View-Informationen enthalten und gleichzeitig 3D-Konsistenz bewahren. Wir trainieren das 3D-Rekonstruktionsmodell darauf, im Video-Latenzraum mit einer progressiven Trainingsstrategie zu arbeiten, was die effiziente Generierung hochwertiger, umfangreicher und generischer 3D-Szenen ermöglicht. Umfangreiche Evaluationen über verschiedene Datensätze hinweg zeigen, dass unser Modell bestehende Methoden für die Generierung von 3D-Szenen aus einem einzigen Blickwinkel signifikant übertrifft, insbesondere bei Bildern außerhalb des Domänenbereichs. Zum ersten Mal zeigen wir, dass ein 3D-Rekonstruktionsmodell effektiv auf dem Latenzraum eines Diffusionsmodells aufgebaut werden kann, um eine effiziente Generierung von 3D-Szenen zu realisieren.
Die Schätzung physikalischer Eigenschaften für visuelle Daten ist eine entscheidende Aufgabe in der Computer Vision, Grafik und Robotik, die Anwendungen wie erweiterte Realität, physikalische Simulation und robotergestütztes Greifen unterstützt. Allerdings ist dieses Gebiet aufgrund der inhärenten Mehrdeutigkeiten bei der Schätzung physikalischer Eigenschaften noch wenig erforscht. Um diesen Herausforderungen zu begegnen, stellen wir GaussianProperty vor, ein trainingsfreies Framework, das physikalische Eigenschaften von Materialien 3D-Gaußschen zuweist. Konkret integrieren wir die Segmentierungsfähigkeit von SAM mit der Erkennungsfähigkeit von GPT-4V(ision), um ein globales-lokales Modul für die physikalische Eigenschaftsüberlegung für 2D-Bilder zu formulieren. Anschließend projizieren wir die physikalischen Eigenschaften von Multi-View-2D-Bildern auf 3D-Gaußsche mithilfe einer Abstimmungsstrategie. Wir zeigen, dass 3D-Gaußsche mit physikalischen Eigenschaftsanmerkungen Anwendungen in physikbasierten dynamischen Simulationen und robotergestütztem Greifen ermöglichen. Für physikbasierte dynamische Simulationen nutzen wir die Materialpunkt-Methode (MPM) für realistische dynamische Simulationen. Für das Roboter-Greifen entwickeln wir eine Greifkraftvorhersagestrategie, die einen sicheren Kraftbereich schätzt, der für das Greifen von Objekten basierend auf den geschätzten physikalischen Eigenschaften erforderlich ist. Umfangreiche Experimente zur Materialsegmentierung, physikbasierten dynamischen Simulation und robotergestütztem Greifen bestätigen die Wirksamkeit unserer vorgeschlagenen Methode und unterstreichen ihre entscheidende Rolle beim Verständnis physikalischer Eigenschaften aus visuellen Daten. Online-Demo, Code, weitere Fälle und annotierte Datensätze sind verfügbar unter https://Gaussian-Property.github.io.
Die Erfassung geometrischer und materieller Informationen aus Bildern bleibt eine grundlegende Herausforderung in der Computer Vision und Grafik. Traditionelle optimierungsbasierte Methoden erfordern oft Stunden an Rechenzeit, um Geometrie, Materialeigenschaften und Umgebungsbeleuchtung aus dichten Multi-View-Eingaben zu rekonstruieren, während sie immer noch mit inhärenten Mehrdeutigkeiten zwischen Beleuchtung und Material zu kämpfen haben. Auf der anderen Seite nutzen lernbasierte Ansätze reiche Materialeigenschaften aus vorhandenen 3D-Objektdatensätzen, haben jedoch Schwierigkeiten, eine Multi-View-Konsistenz aufrechtzuerhalten. In diesem Artikel stellen wir IDArb vor, ein diffusionsbasiertes Modell, das für die intrinsische Zerlegung in einer beliebigen Anzahl von Bildern unter variierenden Beleuchtungen entwickelt wurde. Unsere Methode erzielt eine genaue und konsistente Schätzung von Oberflächennormalen und Materialeigenschaften aus verschiedenen Blickwinkeln. Dies wird durch ein neuartiges Cross-View, Cross-Domain Attention-Modul und eine Beleuchtungs-augmentierte, Blickwinkel-adaptive Trainingsstrategie ermöglicht. Darüber hinaus stellen wir ARB-Objaverse vor, einen neuen Datensatz, der groß angelegte Multi-View-Intrinsikdaten und Renderings unter verschiedenen Beleuchtungsbedingungen bereitstellt und ein robustes Training unterstützt. Umfangreiche Experimente zeigen, dass IDArb sowohl qualitativ als auch quantitativ leistungsfähiger ist als aktuelle Methoden. Darüber hinaus erleichtert unser Ansatz eine Reihe von nachgelagerten Aufgaben, einschließlich Einzelbild-Neubeleuchtung, photometrischer Stereo und 3D-Rekonstruktion, was seine breite Anwendung in der realistischen 3D-Inhalteerstellung unterstreicht.
Video-Gesichtsaustausch wird in verschiedenen Anwendungen immer beliebter, doch bestehende Methoden konzentrieren sich hauptsächlich auf statische Bilder und haben Schwierigkeiten mit dem Video-Gesichtsaustausch aufgrund von zeitlicher Konsistenz und komplexen Szenarien. In diesem Artikel präsentieren wir das erste auf Diffusion basierende Framework, das speziell für den Video-Gesichtsaustausch entwickelt wurde. Unser Ansatz führt ein neuartiges Bild-Video-Hybrid-Trainingsframework ein, das sowohl reichlich vorhandene statische Bilddaten als auch zeitliche Videosequenzen nutzt und die inhärenten Einschränkungen des ausschließlich auf Video basierenden Trainings anspricht. Das Framework integriert ein speziell entwickeltes Diffusionsmodell in Verbindung mit einem VidFaceVAE, das beide Datentypen effektiv verarbeitet, um die zeitliche Kohärenz der generierten Videos besser zu erhalten. Um Identitäts- und Pose-Merkmale weiter zu entflechten, erstellen wir den Attribute-Identity Disentanglement Triplet (AIDT) Datensatz, bei dem jedes Triplet drei Gesichtsbilder enthält, wobei zwei Bilder die gleiche Pose teilen und zwei die gleiche Identität. Dieser Datensatz wird durch eine umfassende Okklusionsaugmentierung verbessert, um die Robustheit gegenüber Okklusionen zu erhöhen. Darüber hinaus integrieren wir 3D-Rekonstruktionstechniken als Eingabebedingung in unser Netzwerk, um große Pose-Variationen zu handhaben. Umfangreiche Experimente zeigen, dass unser Framework eine überlegene Leistung bei der Identitätserhaltung, der zeitlichen Konsistenz und der visuellen Qualität im Vergleich zu bestehenden Methoden erzielt, während weniger Inferenzschritte erforderlich sind. Unser Ansatz mildert effektiv zentrale Herausforderungen beim Video-Gesichtsaustausch, einschließlich zeitlichem Flimmern, Identitätserhaltung sowie Robustheit gegenüber Okklusionen und Pose-Variationen.
Große Sprachmodelle (LLMs) haben eine herausragende Leistung in einer Vielzahl von natürlichsprachlichen Verarbeitungsaufgaben gezeigt. Ihre beträchtlichen Größen stellen jedoch erhebliche Herausforderungen dar, insbesondere in Bezug auf den Rechenaufwand und die Inferenzgeschwindigkeit aufgrund ihrer quadratischen Komplexität. In dieser Arbeit haben wir ein Schlüsselmuster identifiziert: Bestimmte scheinbar bedeutungslose spezielle Token (d.h. Separator) tragen im Vergleich zu semantisch bedeutsamen Tokens unverhältnismäßig stark zu Aufmerksamkeitswerten bei. Diese Beobachtung legt nahe, dass Informationen über die Segmente zwischen diesen Separator-Tokens effektiv in den Separator-Tokens selbst kondensiert werden können, ohne signifikanten Informationsverlust. Basierend auf dieser Erkenntnis stellen wir SepLLM vor, ein Plug-and-Play-Framework, das die Inferenz beschleunigt, indem es diese Segmente komprimiert und überflüssige Tokens eliminiert. Darüber hinaus implementieren wir effiziente Kerne für die Beschleunigung des Trainings. Experimentelle Ergebnisse in trainingsfreien, Trainieren-von-Grund-auf- und Post-Training-Einstellungen zeigen die Wirksamkeit von SepLLM. Bemerkenswert ist, dass SepLLM unter Verwendung des Llama-3-8B-Backbones auf dem GSM8K-CoT-Benchmark eine über 50%ige Reduzierung des KV-Caches erreicht, während die Leistung vergleichbar bleibt. Darüber hinaus verarbeitet SepLLM in Streaming-Einstellungen effektiv Sequenzen von bis zu 4 Millionen Tokens oder mehr, während es konsistente Sprachmodellierungsfähigkeiten beibehält.
Während ein Haarschnitt eine ausgeprägte Persönlichkeit anzeigt, versagen bestehende Methoden zur Avatar-Generierung darin, praktisches Haar aufgrund der allgemeinen oder verwickelten Darstellung zu modellieren. Wir schlagen StrandHead vor, eine neuartige Methode zur Generierung von 3D-Kopf-Avataren aus Text, die in der Lage ist, entwirrtes 3D-Haar mit Strangdarstellung zu erzeugen. Ohne 3D-Daten zur Überwachung zu verwenden, zeigen wir, dass realistische Haarsträhnen aus Anweisungen generiert werden können, indem 2D-generative Diffusionsmodelle destilliert werden. Zu diesem Zweck schlagen wir eine Reihe zuverlässiger Voraussetzungen für die Forminitialisierung, geometrische Primitive und statistische Haarschnittmerkmale vor, die zu einer stabilen Optimierung und einer leistungsstarken Textausrichtung führen. Umfangreiche Experimente zeigen, dass StrandHead den Stand der Technik in Bezug auf Realität und Vielfalt von generierten 3D-Köpfen und Haaren erreicht. Das generierte 3D-Haar kann auch leicht in die Unreal Engine für physikalische Simulation und andere Anwendungen implementiert werden. Der Code wird unter https://xiaokunsun.github.io/StrandHead.github.io verfügbar sein.
Große Sprachmodelle (LLMs) markieren eine wesentliche Veränderung in der natürlichen Sprachverarbeitung (NLP), da sie die Textgenerierung, Übersetzung und domänenspezifisches Denken vorantreiben. Geschlossene Modelle wie GPT-4, die auf proprietären Datensätzen und umfangreichen Rechenressourcen basieren, führen heute mit modernster Leistung. Sie werden jedoch für ihre "Black-Box"-Natur und die eingeschränkte Zugänglichkeit kritisiert, die die Reproduzierbarkeit und die gerechte Entwicklung von KI behindern. Im Gegensatz dazu legen Open-Source-Initiativen wie LLaMA und BLOOM den Schwerpunkt auf Demokratisierung durch eine von der Gemeinschaft getriebene Entwicklung und Recheneffizienz. Diese Modelle haben die Leistungslücken erheblich reduziert, insbesondere in Bezug auf sprachliche Vielfalt und domänenspezifische Anwendungen, und bieten gleichzeitig zugängliche Werkzeuge für globale Forscher und Entwickler. Beachtenswert ist, dass beide Ansätze auf grundlegenden architektonischen Innovationen beruhen, wie dem Transformer-Framework von Vaswani et al. (2017). Geschlossene Modelle zeichnen sich durch effektives Skalieren aus, während Open-Source-Modelle sich an realen Anwendungen in unterrepräsentierten Sprachen und Domänen anpassen. Techniken wie Low-Rank Adaptation (LoRA) und Anweisungsabstimmungsdatensätze ermöglichen es Open-Source-Modellen, trotz begrenzter Ressourcen wettbewerbsfähige Ergebnisse zu erzielen. Die Spannung zwischen geschlossenen und Open-Source-Ansätzen verdeutlicht eine breitere Debatte über Transparenz versus proprietäre Kontrolle in der KI. Ethische Überlegungen betonen diese Kluft weiter. Geschlossene Systeme beschränken die externe Überprüfung, während Open-Source-Modelle die Reproduzierbarkeit und Zusammenarbeit fördern, jedoch über keine standardisierten Prüfdokumentationsrahmen zur Vermeidung von Voreingenommenheit verfügen. Hybridansätze, die die Stärken beider Paradigmen nutzen, werden voraussichtlich die Zukunft der LLM-Innovation prägen und so Zugänglichkeit, wettbewerbsfähige technische Leistung und ethische Bereitstellung sicherstellen.
Traditionelle robotergesteuerte Steuerungsmethoden basierend auf Verstärkungslernen sind oft auf bestimmte Aufgaben beschränkt und können nicht generalisieren über verschiedene Umgebungen oder unbekannte Objekte und Anweisungen. Visuelle Sprachmodelle (VLMs) zeigen eine starke Szenenverständnis- und Planungsfähigkeit, aber es fehlt die Fähigkeit, handlungsfähige Richtlinien zu generieren, die auf spezifische robotische Verkörperungen zugeschnitten sind. Um dies zu lösen, sind Visual-Language-Action (VLA)-Modelle entstanden, die jedoch vor Herausforderungen in langfristigem räumlichem Denken und fundierter Aufgabenplanung stehen. In dieser Arbeit schlagen wir das Embodied Multimodal Action Model mit fundiertem Gedankenketten- und vorausschauendem räumlichem Denken, Emma-X, vor. Emma-X nutzt unser konstruiertes hierarchisches Verkörperungsdatenset basierend auf BridgeV2, das 60.000 Roboter-Manipulationstrajectories enthält, die automatisch mit fundierter Aufgabenbegründung und räumlicher Anleitung annotiert sind. Darüber hinaus führen wir eine Trajektoriensegmentierungsstrategie basierend auf Greiferzuständen und Bewegungstrajectories ein, die helfen kann, Halluzinationen bei der Begründung von Teilaufgaben zu reduzieren. Experimentelle Ergebnisse zeigen, dass Emma-X eine überlegene Leistung gegenüber wettbewerbsfähigen Baselines erzielt, insbesondere bei realen robotergesteuerten Aufgaben, die räumliches Denken erfordern.
Um das Grundlagenmodell effizienter und effektiver zu gestalten, besteht unsere Idee darin, Sequenztransformation und Zustandstransformation zu kombinieren. Zunächst weisen wir die Verfügbarkeit der Rotationseinbettung im Zustandsraum-Dualitätsalgorithmus nach, was die Unklarheit der hybriden quadratischen kausalen Selbst-Aufmerksamkeit und Zustandsraum-Dualität um mehr als 4% reduziert, um sicherzustellen, dass die Kombination der Sequenztransformation die Positionscodierung vereinheitlicht. Zweitens schlagen wir dynamische Maskenaufmerksamkeit vor, die in der anspruchsvolleren Multi-Query assoziativen Abrufaufgabe eine Genauigkeit von 100% beibehält und im Vergleich zur quadratischen kausalen Selbst-Aufmerksamkeit und Zustandsraum-Dualität um mehr als 150% verbessert wird, um sicherzustellen, dass die Kombination der Sequenztransformation selektiv relevante Informationen filtert. Drittens entwerfen wir ein Cross-Domain-Mixture-of-Experts, das die Rechengeschwindigkeit der Expertenabfrage mit mehr als 1024 Experten um das 8- bis 10-fache schneller macht als das Mixture-of-Experts, um sicherzustellen, dass die Kombination der Zustandstransformation die Mischung schnell abruft. Schließlich fassen wir diese Matrixalgorithmen zusammen, die das Grundlagenmodell bilden können: Wunderbare Matrizen, die ein Konkurrent zu beliebten Modellarchitekturen sein können.
Die steigende Nachfrage nach immersiven AR/VR-Anwendungen und räumlicher Intelligenz hat die Notwendigkeit erhöht, hochwertige Szenen- und 360{\deg}-Panoramavideos zu generieren. Die meisten Videodiffusionsmodelle sind jedoch durch begrenzte Auflösung und Seitenverhältnis eingeschränkt, was ihre Anwendbarkeit auf die Synthese von dynamischen Inhalten auf Szenenebene einschränkt. In dieser Arbeit schlagen wir den DynamicScaler vor, der diese Herausforderungen durch die Ermöglichung von räumlich skalierbarer und panoramischer dynamischer Szenensynthese angeht, die Kohärenz über Panoramaszenen beliebiger Größe hinweg bewahrt. Konkret führen wir einen Offset Shifting Denoiser ein, der effizientes, synchrones und kohärentes Denoising von panoramischen dynamischen Szenen über ein Diffusionsmodell mit fester Auflösung durch ein nahtloses rotierendes Fenster ermöglicht, das nahtlose Übergänge an den Grenzen und Konsistenz über den gesamten panoramischen Raum sicherstellt, um unterschiedliche Auflösungen und Seitenverhältnisse zu berücksichtigen. Darüber hinaus verwenden wir einen Mechanismus für globale Bewegungssteuerung, um sowohl die lokale Detailtreue als auch die globale Bewegungskontinuität sicherzustellen. Umfangreiche Experimente zeigen, dass unsere Methode eine überlegene Inhalts- und Bewegungsqualität bei der Erzeugung von Panoramavideos auf Szenenebene bietet und eine trainingsfreie, effiziente und skalierbare Lösung für die immersive Erstellung dynamischer Szenen mit konstantem VRAM-Verbrauch unabhängig von der Ausgabevideoauflösung darstellt. Unsere Projektseite ist unter https://dynamic-scaler.pages.dev/ verfügbar.
Die Synthese neuer Ansichten aus monokularen Videos in natürlicher Umgebung ist aufgrund der Szenendynamik und des Mangels an Multi-View-Hinweisen eine Herausforderung. Um dies zu bewältigen, schlagen wir SplineGS vor, ein COLMAP-freies dynamisches 3D-Gauß-Splatting (3DGS)-Framework für hochwertige Rekonstruktion und schnelles Rendern aus monokularen Videos. Im Kern steht eine neuartige Motion-Adaptive Spline (MAS)-Methode, die kontinuierliche dynamische 3D-Gauß-Trajektorien mithilfe kubischer Hermite-Splines mit einer geringen Anzahl von Kontrollpunkten darstellt. Für MAS führen wir eine Motion-Adaptive Control Points Pruning (MACP)-Methode ein, um die Deformation jedes dynamischen 3D-Gauß über verschiedene Bewegungen hinweg zu modellieren, wobei schrittweise Kontrollpunkte beschnitten werden, während die Integrität des dynamischen Modells erhalten bleibt. Darüber hinaus präsentieren wir eine gemeinsame Optimierungsstrategie für die Schätzung der Kameraparameter und der 3D-Gauß-Merkmale, die photometrische und geometrische Konsistenz nutzt. Dies beseitigt die Notwendigkeit einer Struktur-aus-Bewegung-Vorverarbeitung und verbessert die Robustheit von SplineGS unter realen Bedingungen. Experimente zeigen, dass SplineGS die Leistung von State-of-the-Art-Methoden bei der Qualität der Synthese neuer Ansichten für dynamische Szenen aus monokularen Videos signifikant übertrifft und eine um Tausende Male schnellere Rendegeschwindigkeit erreicht.
Die Umnutzung vortrainierter Diffusionsmodelle hat sich als wirksam für NVS erwiesen. Diese Methoden sind jedoch hauptsächlich auf ein einzelnes Objekt beschränkt; die direkte Anwendung solcher Methoden auf zusammengesetzte Szenarien mit mehreren Objekten führt zu minderwertigen Ergebnissen, insbesondere zu falscher Objektplatzierung und inkonsistenter Form und Erscheinung unter neuen Ansichten. Wie die Cross-View-Konsistenz solcher Modelle verbessert und systematisch bewertet werden kann, ist noch wenig erforscht. Um dieses Problem anzugehen, schlagen wir MOVIS vor, um das strukturelle Bewusstsein des ansichtskonditionierten Diffusionsmodells für mehrere Objekte NVS in Bezug auf Modellinputs, Hilfsaufgaben und Trainingsstrategie zu verbessern. Zunächst injizieren wir strukturbewusste Merkmale, einschließlich Tiefe und Objektmaske, in das Rauschunterdrückungs-U-Net, um das Verständnis des Modells für Objektinstanzen und deren räumliche Beziehungen zu verbessern. Zweitens führen wir eine Hilfsaufgabe ein, bei der das Modell gleichzeitig neuartige Ansichtsobjektmasken vorhersagen muss, um die Fähigkeit des Modells zur Unterscheidung und Platzierung von Objekten weiter zu verbessern. Schließlich führen wir eine eingehende Analyse des Diffusionsabtastprozesses durch und entwickeln sorgfältig einen strukturgeführten Zeitschritt-Abtastplan während des Trainings, der das Lernen der globalen Objektplatzierung und die feinkörnige Detailwiederherstellung ausbalanciert. Um die Plausibilität synthetisierter Bilder systematisch zu bewerten, schlagen wir vor, die Cross-View-Konsistenz und die Platzierung von neuartigen Ansichtsobjekten neben bestehenden bildbasierten NVS-Metriken zu bewerten. Umfangreiche Experimente mit anspruchsvollen synthetischen und realistischen Datensätzen zeigen, dass unsere Methode starke Verallgemeinerungsfähigkeiten aufweist und konsistente Neuansichtssynthesen erzeugt, was ihr Potenzial verdeutlicht, zukünftige 3D-bewusste Multi-Objekt-NVS-Aufgaben zu leiten.
Reinforcement-Learning (RL)-Algorithmen zielen darauf ab, die aktuell beste Strategie auszunutzen und gleichzeitig neue Optionen zu erkunden, die zu höheren Belohnungen führen könnten. Die meisten gängigen RL-Algorithmen verwenden eine ungerichtete Exploration, d.h. sie wählen zufällige Sequenzen von Aktionen aus. Die Exploration kann auch durch intrinsische Belohnungen gesteuert werden, wie Neugierde oder Modell-Epistemische Unsicherheit. Das effektive Ausbalancieren von Aufgaben- und intrinsischen Belohnungen ist jedoch herausfordernd und oft auf die Aufgabe bezogen. In dieser Arbeit stellen wir ein Framework, MaxInfoRL, zur Ausbalancierung von intrinsischer und extrinsischer Exploration vor. MaxInfoRL lenkt die Exploration auf informative Übergänge, indem es intrinsische Belohnungen maximiert, wie den Informationsgewinn über die zugrunde liegende Aufgabe. Bei Kombination mit Boltzmann-Exploration tauscht dieser Ansatz natürlicherweise die Maximierung der Wertefunktion mit der Entropie über Zustände, Belohnungen und Aktionen aus. Wir zeigen, dass unser Ansatz im vereinfachten Setting von Multi-Armed Bandits sublineare Reue erreicht. Anschließend wenden wir diese allgemeine Formulierung auf eine Vielzahl von Off-Policy-Modellfreien RL-Methoden für kontinuierliche Zustands-Aktionsräume an, was zu neuen Algorithmen führt, die überlegene Leistungen bei schwierigen Explorationsproblemen und komplexen Szenarien wie visuellen Steuerungsaufgaben erzielen.
Die Ausnutzung des Potenzials der jüngsten Fortschritte im Bereich des Imitationslernens für mobile Manipulation erfordert die Sammlung einer großen Anzahl von menschengeführten Demonstrationen. Dieser Artikel schlägt ein Open-Source-Design für einen kostengünstigen, robusten und flexiblen mobilen Manipulator vor, der beliebige Arme unterstützen kann und somit eine Vielzahl von realen Haushaltsaufgaben für mobile Manipulation ermöglicht. Entscheidend ist, dass unser Design motorisierte Lenkrollen verwendet, um es der mobilen Basis zu ermöglichen, vollständig holonom zu sein, und somit alle planaren Freiheitsgrade unabhängig und gleichzeitig steuern zu können. Diese Eigenschaft macht die Basis wendiger und vereinfacht viele mobile Manipulationsaufgaben, indem sie die kinematischen Einschränkungen beseitigt, die komplexe und zeitaufwändige Bewegungen in nicht-holonomischen Basen verursachen. Wir statten unseren Roboter mit einer intuitiven mobilen Telefon-Fernsteuerungsschnittstelle aus, um eine einfache Datenerfassung für das Imitationslernen zu ermöglichen. In unseren Experimenten verwenden wir diese Schnittstelle, um Daten zu sammeln und zeigen, dass die resultierenden gelernten Richtlinien erfolgreich eine Vielzahl von gängigen Haushaltsaufgaben für mobile Manipulation ausführen können.
Trotz ihrer Kompetenz bei allgemeinen Aufgaben haben Multi-Modale Große Sprachmodelle (MLLMs) Schwierigkeiten mit der automatischen Lösung geometrischer Probleme (GPS), die das Verstehen von Diagrammen, die Interpretation von Symbolen und komplexe Schlussfolgerungen erfordert. Diese Einschränkung resultiert aus ihrem Vortraining auf natürlichen Bildern und Texten sowie dem Fehlen einer automatischen Überprüfung im Problemlösungsprozess. Darüber hinaus sind aktuelle geometrische Spezialisten durch ihre aufgabenspezifischen Designs begrenzt, was sie weniger effektiv für breitere geometrische Probleme macht. Zu diesem Zweck präsentieren wir GeoX, ein Multi-Modales Großes Modell, das sich auf geometrische Verständnis- und Schlussfolgerungsaufgaben konzentriert. Angesichts der signifikanten Unterschiede zwischen geometrischen Diagramm-Symbolen und natürlichen Bild-Texten führen wir unimodales Vortraining ein, um einen Diagramm-Encoder und einen Symbol-Decoder zu entwickeln, um das Verständnis geometrischer Bilder und Korpora zu verbessern. Darüber hinaus führen wir die Geometrie-Sprachausrichtung ein, ein effektives Vortrainingsparadigma, das die Modalitätslücke zwischen unimodalen geometrischen Experten überbrückt. Wir schlagen einen Generator-Und-Sampler-Transformer (GS-Former) vor, um diskriminierende Abfragen zu generieren und uninformative Darstellungen aus ungleich verteilten geometrischen Signalen zu eliminieren. Schließlich profitiert GeoX von der visuellen Anleitungsoptimierung, die es befähigt, geometrische Bilder und Fragen als Eingabe zu verwenden und überprüfbare Lösungen zu generieren. Experimente zeigen, dass GeoX sowohl Generalisten als auch geometrische Spezialisten auf öffentlich anerkannten Benchmarks wie GeoQA, UniGeo, Geometry3K und PGPS9k übertrifft.
Wir schlagen WHISPER-GPT vor: Ein generatives großes Sprachmodell (LLM) für Sprache und Musik, das es uns ermöglicht, gleichzeitig mit kontinuierlichen Audio-Repräsentationen und diskreten Tokens als Teil einer einzigen Architektur zu arbeiten. Es gab einen enormen Anstieg an generativen Audio-, Sprach- und Musikmodellen, die diskrete Audio-Tokens verwenden, die aus neuronalen Kompressionsalgorithmen abgeleitet sind, z.B. ENCODEC. Einer der Hauptnachteile dieses Ansatzes ist jedoch die Behandlung der Kontextlänge. Bei hochwertigen generativen Architekturen explodiert die Anzahl der zu berücksichtigenden Audioinhalte bei verschiedenen Frequenzen für die Vorhersage des nächsten Tokens. Durch die Kombination von kontinuierlicher Audio-Repräsentation wie dem Spektrogramm und diskreten akustischen Tokens behalten wir das Beste aus beiden Welten: Alle erforderlichen Informationen aus dem Audio zu einem bestimmten Zeitpunkt in einem einzigen Token, ermöglichen jedoch dem LLM die Vorhersage des zukünftigen Tokens, um das Abtasten und andere Vorteile des diskreten Raums zu ermöglichen. Wir zeigen, wie unsere Architektur im Vergleich zu einem auf Tokens basierenden LLM für Sprache und Musik die Perplexität und die negativen Log-Likelihood-Werte für die Vorhersage des nächsten Tokens verbessert.
Vertikales Föderiertes Lernen (VFL) zielt darauf ab, das gemeinsame Training von Deep-Learning-Modellen zu ermöglichen, während der Schutz der Privatsphäre gewährleistet bleibt. Allerdings weist das VFL-Verfahren immer noch Komponenten auf, die anfällig für Angriffe durch bösartige Parteien sind. In unserer Arbeit betrachten wir Feature-Rekonstruktionsangriffe, ein häufiges Risiko, das auf die Kompromittierung von Eingabedaten abzielt. Wir behaupten theoretisch, dass Feature-Rekonstruktionsangriffe ohne Kenntnis der vorherigen Verteilung von Daten nicht erfolgreich sein können. Folglich zeigen wir, dass selbst einfache Modellarchitektur-Transformationen den Schutz von Eingabedaten während des VFL erheblich beeinflussen können. Durch die Bestätigung dieser Ergebnisse mit experimentellen Resultaten zeigen wir, dass MLP-basierte Modelle gegen Feature-Rekonstruktionsangriffe auf dem neuesten Stand der Technik resistent sind.
Neueste Fortschritte in Diffusionsmodellen revolutionieren die Bildgenerierung, bringen jedoch Risiken des Missbrauchs mit sich, wie die Reproduktion von Kunstwerken oder die Erstellung von Deepfakes. Bestehende Methoden zum Schutz von Bildern haben Schwierigkeiten, Schutzwirksamkeit, Unsichtbarkeit und Latenz auszubalancieren, was die praktische Anwendung einschränkt. Wir stellen die Perturbation-Vortrainierung vor, um die Latenz zu reduzieren, und schlagen einen Ansatz mit einer Mischung von Perturbationen vor, der sich dynamisch an Eingabebilder anpasst, um die Leistungseinbußen zu minimieren. Unsere neuartige Trainingsstrategie berechnet den Schutzverlust über mehrere VAE-Merkmalräume, während ein adaptiver zielgerichteter Schutz bei der Inferenz die Robustheit und Unsichtbarkeit verbessert. Experimente zeigen vergleichbare Schutzleistung mit verbesserter Unsichtbarkeit und drastisch reduzierter Inferenzzeit. Der Code und die Demo sind verfügbar unter https://webtoon.github.io/impasto
Der rasante Fortschritt von Technologien im Bereich der natürlichen Sprachverarbeitung (NLP), wie beispielsweise anweisungsgesteuerte große Sprachmodelle (LLMs), erfordert die Entwicklung moderner Evaluierungsprotokolle mit menschlichem und maschinellem Feedback. Wir stellen Evalica vor, ein Open-Source-Toolkit, das die Erstellung zuverlässiger und reproduzierbarer Ranglisten von Modellen erleichtert. Dieses Papier präsentiert das Design, bewertet die Leistung und zeigt die Benutzerfreundlichkeit durch die Web-Benutzeroberfläche, die Befehlszeilenschnittstelle und die Python-API auf.
In jüngster Zeit haben Fortschritte bei den Grundlagenmodellen für Roboter die Entwicklung von Generalisten-Policies ermöglicht, die sich an verschiedene Aufgaben anpassen können. Obwohl diese Modelle eine beeindruckende Flexibilität zeigen, hängt ihre Leistung stark von der Qualität ihrer Trainingsdaten ab. In dieser Arbeit schlagen wir Reinforcement Learning Distilled Generalists (RLDG) vor, eine Methode, die auf Verstärkendem Lernen basiert, um hochwertige Trainingsdaten für das Feintuning von Generalisten-Policies zu generieren. Durch umfangreiche Experimente in der realen Welt mit präzisen Manipulationsaufgaben wie dem Einsetzen von Verbindungsstücken und der Montage zeigen wir, dass Generalisten-Policies, die mit RL-generierten Daten trainiert wurden, konsistent besser abschneiden als diejenigen, die mit menschlichen Demonstrationen trainiert wurden. Sie erreichen bis zu 40% höhere Erfolgsraten und generalisieren besser auf neue Aufgaben. Wir bieten auch eine detaillierte Analyse an, die zeigt, dass dieser Leistungsgewinn sowohl von optimierten Aktionsverteilungen als auch von verbesserter Zustandsabdeckung herrührt. Unsere Ergebnisse legen nahe, dass die Kombination von aufgabenspezifischem RL mit der Destillation von Generalisten-Policies einen vielversprechenden Ansatz für die Entwicklung von leistungsfähigeren und effizienteren Robotermanipulationssystemen bietet, die die Flexibilität der Grundlagenmodelle beibehalten und gleichzeitig die Leistung spezialisierter Controller erreichen. Videos und Code sind auf unserer Projektwebsite verfügbar: https://generalist-distillation.github.io