Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die raschen Fortschritte bei Vision-Language-Modellen (VLMs) haben großes Potenzial gezeigt, um mathematische Denkaufgaben mit visuellem Kontext anzugehen. Im Gegensatz zu Menschen, die Lösungsschritte zu ähnlichen Problemen mit geringfügigen Änderungen zuverlässig anwenden können, haben wir festgestellt, dass führende VLMs wie GPT-4o in diesen Szenarien konsistent versagen können, was Einschränkungen in ihren mathematischen Denkfähigkeiten aufzeigt. In diesem Papier untersuchen wir die Robustheit mathematischer Denkfähigkeiten in VLMs und bewerten, wie gut diese Modelle unter verschiedenen Varianten derselben Fragestellung abschneiden, wie z.B. Änderungen in visuellen numerischen Werten oder Funktionsgraphen. Obwohl mehrere auf Vision basierende mathematische Benchmarks entwickelt wurden, um die Problemlösungsfähigkeiten von VLMs zu bewerten, enthalten diese Benchmarks nur statische Problemmengen und können die Robustheit mathematischer Denkfähigkeiten nicht einfach bewerten. Um diese Lücke zu schließen, stellen wir DynaMath vor, einen dynamischen visuellen Mathematik-Benchmark, der für eine eingehende Bewertung von VLMs konzipiert ist. DynaMath umfasst 501 hochwertige, mehrere Themen umfassende Ausgangsfragen, die jeweils als Python-Programm dargestellt sind. Diese Programme sind sorgfältig entworfen und annotiert, um die automatische Generierung einer viel größeren Menge konkreter Fragen zu ermöglichen, einschließlich vieler verschiedener Arten von visuellen und textuellen Variationen. DynaMath ermöglicht es uns, die Verallgemeinerungsfähigkeit von VLMs zu bewerten, indem wir ihre Leistung unter variierenden Eingangsbedingungen einer Ausgangsfrage bewerten. Wir haben 14 führende VLMs mit 5.010 generierten konkreten Fragen ausgewertet. Unsere Ergebnisse zeigen, dass die Modellgenauigkeit im Worst-Case, definiert als Prozentsatz der korrekt beantworteten Ausgangsfragen in allen 10 Varianten, signifikant niedriger ist als die Durchschnittsgenauigkeit. Unsere Analyse betont die Notwendigkeit, die Robustheit der Denkfähigkeiten von VLMs zu untersuchen, und DynaMath liefert wertvolle Erkenntnisse, um die Entwicklung zuverlässigerer Modelle für mathematisches Denken zu leiten.
Mixture of Experts (MoEs) spielt eine wichtige Rolle bei der Entwicklung effizienterer und effektiverer großer Sprachmodelle (LLMs). Aufgrund der enormen Ressourcenanforderungen bleiben die Studien zu groß angelegten MoE-Algorithmen vielen Forschern unzugänglich. Diese Arbeit entwickelt LibMoE, ein umfassendes und modulares Framework zur Vereinfachung der Forschung, des Trainings und der Evaluation von MoE-Algorithmen. Basierend auf drei Kernprinzipien: (i) modulare Gestaltung, (ii) effizientes Training; (iii) umfassende Evaluation, macht LibMoE MoE in LLMs für eine breite Palette von Forschern zugänglicher, indem es die Trainings- und Evaluierungspipelines standardisiert. Unter Verwendung von LibMoE haben wir fünf führende MoE-Algorithmen über drei verschiedene LLMs und 11 Datensätze im Zero-Shot-Setting umfassend getestet. Die Ergebnisse zeigen, dass trotz der einzigartigen Eigenschaften alle MoE-Algorithmen bei einer Vielzahl von Aufgaben im Durchschnitt ähnlich abschneiden. Mit dem modularen Design und der umfangreichen Evaluation sind wir der Meinung, dass LibMoE für Forscher von unschätzbarem Wert sein wird, um bedeutende Fortschritte in Richtung der nächsten Generation von MoE und LLMs zu erzielen. Projektseite: https://fsoft-aic.github.io/fsoft-LibMoE.github.io.
Trotz der Beliebtheit der Quantisierung großer Sprachmodell (LLM) zur Beschleunigung der Inferenz bestehen erhebliche Unsicherheiten hinsichtlich der Genauigkeits-Leistungs-Abwägungen, die mit verschiedenen Quantisierungsformaten verbunden sind. Wir präsentieren eine umfassende empirische Studie zur quantisierten Genauigkeit, die beliebte Quantisierungsformate (FP8, INT8, INT4) anhand akademischer Benchmarks und realer Aufgaben im gesamten Llama-3.1-Modellfamilie bewertet. Darüber hinaus untersucht unsere Studie den Unterschied im von quantisierten Modellen im Vergleich zu ihren unkomprimierten Gegenstücken generierten Text. Neben Benchmarks präsentieren wir auch ein paar Quantisierungsverbesserungen, die es uns ermöglichten, Spitzenwerte bei der Genauigkeitswiederherstellung zu erzielen. Unsere Untersuchung, die über 500.000 einzelne Bewertungen umfasst, ergibt mehrere wichtige Erkenntnisse: (1) FP8-Gewichts- und Aktivitätsquantisierung (W8A8-FP) ist verlustfrei über alle Modellskalen hinweg, (2) INT8-Gewichts- und Aktivitätsquantisierung (W8A8-INT) verursacht bei ordnungsgemäßer Abstimmung überraschend geringe 1-3%ige Genauigkeitsverschlechterung und (3) INT4-Gewichtsquantisierung allein (W4A16-INT) ist konkurrenzfähig mit 8-Bit-Ganzzahl-Gewichts- und Aktivitätsquantisierung. Um die Frage nach dem "besten" Format für eine bestimmte Bereitstellungsumgebung zu beantworten, führen wir eine Inferenzleistungsanalyse unter Verwendung des beliebten Open-Source-vLLM-Frameworks auf verschiedenen GPU-Architekturen durch. Wir stellen fest, dass W4A16 die beste Kosten-Effizienz für synchrone Bereitstellungen bietet und für asynchrone Bereitstellung auf mittleren GPUs. Gleichzeitig zeichnen sich W8A8-Formate bei asynchronen "kontinuierlichen Stapelverarbeitungs"-Bereitstellungen von mittleren und großen Modellen auf High-End-GPUs aus. Unsere Ergebnisse liefern eine Reihe praktischer Leitlinien für die Bereitstellung quantisierter LLMs über verschiedene Skalen und Leistungsanforderungen hinweg.
Autonome Agenten sind zunehmend wichtig für die Interaktion mit der realen Welt geworden. Insbesondere Android-Agenten wurden in letzter Zeit häufig als Interaktionsmethode erwähnt. Allerdings fehlt es bestehenden Studien zur Schulung und Bewertung von Android-Agenten an systematischer Forschung sowohl bei Open-Source- als auch bei Closed-Source-Modellen. In dieser Arbeit schlagen wir AndroidLab als systematisches Framework für Android-Agenten vor. Es umfasst eine Betriebsumgebung mit verschiedenen Modalitäten, Aktionsraum und einem reproduzierbaren Benchmark. Es unterstützt sowohl große Sprachmodelle (LLMs) als auch multimodale Modelle (LMMs) im selben Aktionsraum. Der AndroidLab-Benchmark umfasst vordefinierte Android-Virtual Devices und 138 Aufgaben in neun Apps, die auf diesen Geräten erstellt wurden. Unter Verwendung der AndroidLab-Umgebung entwickeln wir einen Android-Instruktionsdatensatz und trainieren sechs Open-Source-LLMs und LMMs, wodurch die durchschnittlichen Erfolgsraten von 4,59 % auf 21,50 % für LLMs und von 1,93 % auf 13,28 % für LMMs gesteigert werden. AndroidLab ist Open Source und öffentlich unter https://github.com/THUDM/Android-Lab verfügbar.
Große Sprachmodelle (LLMs) haben ein bemerkenswertes Potenzial als autonome Agenten gezeigt, insbesondere bei webbasierten Aufgaben. Allerdings sind bestehende LLM-Webagenten stark auf teure proprietäre LLM-APIs angewiesen, während offene LLMs über die erforderlichen Entscheidungsfähigkeiten nicht verfügen. Dieser Artikel stellt WebRL vor, ein selbstentwickelndes Online-Lehrplan-Verstärkungslernframework, das darauf abzielt, leistungsstarke Webagenten unter Verwendung offener LLMs zu trainieren. WebRL begegnet drei zentralen Herausforderungen beim Aufbau von LLM-Webagenten, darunter die Knappheit von Trainingsaufgaben, spärliche Rückmeldesignale und die Drift der Richtlinienverteilung beim Online-Lernen. Konkret integriert WebRL 1) einen selbstentwickelnden Lehrplan, der neue Aufgaben aus erfolglosen Versuchen generiert, 2) ein robustes ergebnisüberwachtes Belohnungsmodell (ORM) und 3) adaptive Verstärkungslernstrategien, um kontinuierliche Verbesserungen sicherzustellen. Wir wenden WebRL an, um offene Llama-3.1- und GLM-4-Modelle in versierte Webagenten zu verwandeln. Auf WebArena-Lite verbessert WebRL die Erfolgsquote von Llama-3.1-8B von 4,8 % auf 42,4 % und von 6,1 % auf 43 % für GLM-4-9B. Diese offenen Modelle übertreffen signifikant die Leistung von GPT-4-Turbo (17,6 %) und GPT-4o (13,9 %) und übertrumpfen bisherige Spitzenleistungen von Webagenten, die auf offenen LLMs trainiert wurden (AutoWebGLM, 18,2 %). Unsere Ergebnisse zeigen die Wirksamkeit von WebRL bei der Überbrückung der Kluft zwischen offenen und proprietären LLM-basierten Webagenten auf und ebnet den Weg für zugänglichere und leistungsstärkere autonome Webinteraktionssysteme.
OpenAI's Sora hebt das Potenzial der Videogenerierung hervor, um Weltmodelle zu entwickeln, die den grundlegenden physikalischen Gesetzen entsprechen. Die Fähigkeit von Videogenerierungsmodellen, solche Gesetze rein aus visuellen Daten ohne menschliche Vorkenntnisse zu entdecken, kann jedoch in Frage gestellt werden. Ein Weltmodell, das das wahre Gesetz lernt, sollte Vorhersagen liefern, die gegenüber Feinheiten robust sind und in unbekannten Szenarien korrekt extrapolieren. In dieser Arbeit bewerten wir über drei Schlüsselszenarien: in der Verteilung, außerhalb der Verteilung und kombinatorische Verallgemeinerung. Wir haben eine 2D-Simulationstestumgebung für Objektbewegung und Kollisionen entwickelt, um Videos deterministisch zu generieren, die von einem oder mehreren klassischen Mechanikgesetzen gesteuert werden. Dies bietet eine unbegrenzte Datenmenge für groß angelegte Experimente und ermöglicht eine quantitative Bewertung, ob die generierten Videos den physikalischen Gesetzen entsprechen. Wir haben diffusionsbasierte Videogenerierungsmodelle trainiert, um Objektbewegungen basierend auf den Anfangsrahmen vorherzusagen. Unsere Skalierungsexperimente zeigen perfekte Verallgemeinerung innerhalb der Verteilung, messbares Skalierungsverhalten für kombinatorische Verallgemeinerung, aber Misserfolg in Szenarien außerhalb der Verteilung. Weitere Experimente enthüllen zwei Schlüsselerkenntnisse über die Verallgemeinerungsmechanismen dieser Modelle: (1) die Modelle versagen dabei, allgemeine physikalische Regeln abstrakt zu erfassen und zeigen stattdessen ein "fallbasiertes" Verallgemeinerungsverhalten, d.h. das Nachahmen des nächstgelegenen Trainingsbeispiels; (2) beim Verallgemeinern zu neuen Fällen wird beobachtet, dass die Modelle verschiedene Faktoren priorisieren, wenn sie auf Trainingsdaten verweisen: Farbe > Größe > Geschwindigkeit > Form. Unsere Studie legt nahe, dass allein die Skalierung für Videogenerierungsmodelle nicht ausreicht, um grundlegende physikalische Gesetze aufzudecken, trotz ihrer Rolle im breiteren Erfolg von Sora. Besuchen Sie unsere Projektseite unter https://phyworld.github.io.
Bestehende LLM-Agentensysteme wählen in der Regel Aktionen aus einem festen und vordefinierten Satz bei jedem Schritt aus. Obwohl dieser Ansatz in geschlossenen, eng umrissenen Umgebungen effektiv ist, argumentieren wir, dass er zwei Hauptprobleme bei der Bereitstellung von LLM-Agenten in realen Szenarien darstellt: (1) Die Auswahl aus einem festen Satz von Aktionen schränkt die Planungs- und Handlungsfähigkeiten von LLM-Agenten erheblich ein, und (2) dieser Ansatz erfordert erheblichen menschlichen Aufwand, um alle möglichen Aktionen aufzulisten und zu implementieren, was in komplexen Umgebungen mit einer Vielzahl potenzieller Aktionen unpraktisch wird. In dieser Arbeit schlagen wir ein LLM-Agentenframework vor, das die dynamische Erstellung und Zusammensetzung von Aktionen auf Online-Basis ermöglicht. In diesem Rahmen interagiert der Agent mit der Umgebung, indem er Programme in einer universellen Programmiersprache generiert und bei jedem Schritt ausführt. Darüber hinaus werden generierte Aktionen im Laufe der Zeit zur zukünftigen Wiederverwendung angesammelt. Unsere umfangreichen Experimente am GAIA-Benchmark zeigen, dass dieses Framework eine deutlich größere Flexibilität bietet und frühere Methoden übertrifft. Insbesondere ermöglicht es einem LLM-Agenten, sich in Szenarien zu erholen, in denen keine relevante Aktion im vordefinierten Satz vorhanden ist oder wenn vorhandene Aktionen aufgrund unvorhergesehener Randfälle versagen. Zum Zeitpunkt des Schreibens halten wir die Spitzenposition auf der öffentlichen GAIA-Rangliste. Unser Code ist unter folgendem Link verfügbar: https://github.com/adobe-research/dynasaur.
Diffusionsmodelle haben ausgezeichnete Fähigkeiten in der Text-zu-Bild-Erzeugung gezeigt. Ihre semantische Verständnisfähigkeit (d.h. Anweisungsnachfolge) wurde auch mit großen Sprachmodellen (z.B. T5, Llama) erheblich verbessert. Allerdings können bestehende Modelle lange und komplexe Textanweisungen, insbesondere wenn die Textanweisungen verschiedene Objekte mit zahlreichen Attributen und miteinander verbundenen räumlichen Beziehungen enthalten, nicht perfekt verarbeiten. Obwohl viele regionale Anweisungsmethoden für UNet-basierte Modelle vorgeschlagen wurden (SD1.5, SDXL), gibt es immer noch keine Implementierungen basierend auf der neueren Diffusions-Transformator (DiT) Architektur, wie SD3 und FLUX. In diesem Bericht schlagen wir regionale Anweisungen für FLUX.1 basierend auf der Aufmerksamkeitsmanipulation vor und setzen sie um, was es DiT ermöglicht, feinkörnige, zusammengesetzte Text-zu-Bild-Erzeugungsfähigkeiten auf eine trainingsfreie Weise zu haben. Der Code ist verfügbar unter https://github.com/antonioo-c/Regional-Prompting-FLUX.
Die Texturierung ist ein entscheidender Schritt im 3D-Asset-Produktionsworkflow, der die visuelle Attraktivität und Vielfalt von 3D-Assets verbessert. Trotz der jüngsten Fortschritte bei der Text-in-Textur (T2T)-Generierung liefern bestehende Methoden oft unterdurchschnittliche Ergebnisse, hauptsächlich aufgrund lokaler Diskontinuitäten, Inkonsistenzen über mehrere Ansichten hinweg und ihrer starken Abhängigkeit von den Ergebnissen des UV-Entfaltens. Um diese Herausforderungen anzugehen, schlagen wir ein neuartiges Generierungs-Verfeinerungs-3D-Texturierungsframework namens MVPaint vor, das hochauflösende, nahtlose Texturen generieren kann, wobei die Konsistenz über mehrere Ansichten betont wird. MVPaint besteht hauptsächlich aus drei Schlüsselmodulen. 1) Synchronisierte Multi-View-Generierung (SMG). MVPaint generiert zunächst gleichzeitig Multi-View-Bilder, indem ein SMG-Modell auf ein 3D-Mesh-Modell angewendet wird, was zu groben Texturierungsergebnissen mit unpainted Teilen aufgrund fehlender Beobachtungen führt. 2) Räumlich-orientiertes 3D-Inpainting (S3I). Um eine vollständige 3D-Texturierung sicherzustellen, führen wir die S3I-Methode ein, die speziell entwickelt wurde, um effektiv Bereiche zu texturieren, die zuvor nicht beobachtet wurden. 3) UV-Verfeinerung (UVR). Darüber hinaus verwendet MVPaint ein UVR-Modul, um die Texturqualität im UV-Raum zu verbessern, das zunächst eine UV-Raum-Super-Auflösung durchführt, gefolgt von einem räumlich-orientierten Nahtglättungsalgorithmus zur Überarbeitung von räumlichen Texturierungsinkonsistenzen, die durch das UV-Entfalten verursacht wurden. Darüber hinaus etablieren wir zwei T2T-Evaluierungsbenchmarks: den Objaverse T2T-Benchmark und den GSO T2T-Benchmark, basierend auf ausgewählten hochwertigen 3D-Meshes aus dem Objaverse-Datensatz und dem gesamten GSO-Datensatz, jeweils. Umfangreiche experimentelle Ergebnisse zeigen, dass MVPaint bestehende State-of-the-Art-Methoden übertrifft. Insbesondere konnte MVPaint hochwertige Texturen mit minimalen Janus-Problemen und stark verbesserten Konsistenzen über verschiedene Ansichten hinweg generieren.
In diesem Paper stellen wir Hunyuan-Large vor, das derzeit größte Open-Source-Transformer-basierte Mixture-of-Experts-Modell mit insgesamt 389 Milliarden Parametern und 52 Milliarden Aktivierungsparametern, das bis zu 256K Tokens verarbeiten kann. Wir führen eine gründliche Evaluation der überlegenen Leistung von Hunyuan-Large in verschiedenen Benchmarks durch, darunter Sprachverständnis und -erzeugung, logisches Denken, mathematische Problemlösung, Codierung, Langkontext- und aggregierte Aufgaben, bei denen es LLama3.1-70B übertrifft und vergleichbare Leistung im Vergleich zum signifikant größeren LLama3.1-405B-Modell zeigt. Zu den Schlüsselpraktiken von Hunyuan-Large gehören synthetische Daten im großen Maßstab, die um Größenordnungen größer sind als in früheren Literaturquellen, eine gemischte Experten-Routing-Strategie, eine Schlüssel-Wert-Cache-Komprimierungstechnik und eine expertenspezifische Lernratenstrategie. Darüber hinaus untersuchen wir die Skalierungsgesetze und Lernratenpläne von Mixture-of-Experts-Modellen und liefern wertvolle Einblicke und Anleitungen für zukünftige Modellentwicklung und -optimierung. Der Code und die Checkpoints von Hunyuan-Large werden veröffentlicht, um zukünftige Innovationen und Anwendungen zu erleichtern. Code: https://github.com/Tencent/Hunyuan-Large Modelle: https://huggingface.co/tencent/Tencent-Hunyuan-Large
Der groß angelegte Einsatz großer Sprachmodelle (LLMs) in verschiedenen Anwendungen wie Chatbots und virtuellen Assistenten erfordert, dass LLMs kulturell sensibel auf den Benutzer eingehen, um Inklusivität sicherzustellen. Kultur wurde ausgiebig in der Psychologie und Anthropologie erforscht, und es gab einen kürzlichen Anstieg an Forschungsbemühungen, um LLMs kulturell inklusiver zu gestalten, was über Mehrsprachigkeit hinausgeht und auf Erkenntnissen aus Psychologie und Anthropologie aufbaut. In diesem Artikel untersuchen wir Bemühungen zur Integration kultureller Sensibilität in textbasierte und multimodale LLMs. Wir beginnen mit der Definition von kultureller Sensibilität in LLMs, wobei wir die Definitionen von Kultur aus Anthropologie und Psychologie als Ausgangspunkt nehmen. Anschließend untersuchen wir die Methodologien, die für die Erstellung interkultureller Datensätze übernommen wurden, Strategien für kulturelle Inklusion in nachgelagerten Aufgaben und Methodologien, die zur Bewertung der kulturellen Sensibilität in LLMs verwendet wurden. Des Weiteren diskutieren wir die ethischen Implikationen der kulturellen Ausrichtung, die Rolle der Mensch-Computer-Interaktion bei der Förderung kultureller Inklusion in LLMs und die Rolle der kulturellen Ausrichtung bei der Förderung sozialwissenschaftlicher Forschung. Abschließend geben wir Hinweise für zukünftige Forschung basierend auf unseren Erkenntnissen über Lücken in der Literatur.
Die Generierung zeitlich konsistenter hochwertiger Videos kann rechnerisch aufwendig sein, insbesondere über längere Zeitspannen. Neuere Diffusions-Transformer (DiTs) - obwohl sie in diesem Kontext signifikante Fortschritte gemacht haben - haben solche Herausforderungen nur verstärkt, da sie auf größeren Modellen und schwereren Aufmerksamkeitsmechanismen beruhen, was zu langsameren Inferenzgeschwindigkeiten führt. In diesem Artikel stellen wir eine trainingsfreie Methode zur Beschleunigung von Video-DiTs vor, die als Adaptive Caching (AdaCache) bezeichnet wird. Diese Methode wird durch die Tatsache motiviert, dass "nicht alle Videos gleich erstellt werden": Das bedeutet, dass einige Videos weniger Rauschunterdrückungsschritte benötigen, um eine angemessene Qualität zu erreichen als andere. Aufbauend darauf speichern wir nicht nur Berechnungen durch den Diffusionsprozess, sondern entwickeln auch einen auf jede Video-Generierung zugeschnittenen Caching-Zeitplan, der den Qualitäts-Latenz-Trade-off maximiert. Des Weiteren führen wir ein Motion Regularization (MoReg)-Schema ein, um Videoinformationen innerhalb von AdaCache zu nutzen, wodurch im Wesentlichen die Rechenzuweisung basierend auf Bewegungsinhalten gesteuert wird. Insgesamt gewähren unsere Plug-and-Play-Beiträge signifikante Beschleunigungen der Inferenz (z. B. bis zu 4,7-fach bei der Erzeugung von Open-Sora 720p - 2s Videos) ohne Einbußen bei der Generierungsqualität, über mehrere Video-DiT-Baselines hinweg.
Die jüngsten Entwicklungen in der 2D-Visuallerzeugung waren bemerkenswert erfolgreich. Allerdings bleiben die Erzeugung von 3D und 4D in realen Anwendungen aufgrund des Mangels an groß angelegten 4D-Daten und effektivem Modell-Design eine Herausforderung. In diesem Paper schlagen wir vor, die allgemeine 3D- und 4D-Erzeugung gemeinsam zu untersuchen, indem wir Kamera- und Objektbewegungen nutzen, die im täglichen Leben häufig beobachtet werden. Aufgrund des Mangels an realen 4D-Daten in der Community schlagen wir zunächst eine Datenkuratierungspipeline vor, um Kamerapositionen und Objektbewegungsstärke aus Videos zu erhalten. Basierend auf dieser Pipeline stellen wir einen groß angelegten realen 4D-Szenendatensatz vor: CamVid-30K. Unter Verwendung aller 3D- und 4D-Daten entwickeln wir unser Framework, GenXD, mit dem wir jede 3D- oder 4D-Szene erzeugen können. Wir schlagen Multiview-Temporal-Module vor, die Kamera- und Objektbewegungen entwirren, um nahtlos aus 3D- und 4D-Daten zu lernen. Darüber hinaus verwendet GenXD maskierte latente Bedingungen, um eine Vielzahl von Konditionierungsansichten zu unterstützen. GenXD kann Videos erzeugen, die der Kameratrajektorie folgen, sowie konsistente 3D-Ansichten, die in 3D-Repräsentationen umgewandelt werden können. Wir führen umfangreiche Bewertungen über verschiedene reale und synthetische Datensätze durch und zeigen die Wirksamkeit und Vielseitigkeit von GenXD im Vergleich zu früheren Methoden in der 3D- und 4D-Erzeugung.
Moderne Visual Effects (VFX)-Software hat es talentierten Künstlern ermöglicht, Abbildungen von praktisch allem zu erstellen. Dennoch bleibt der Erstellungsprozess mühsam, komplex und größtenteils für den alltäglichen Benutzer unzugänglich. In dieser Arbeit präsentieren wir AutoVFX, ein Framework, das automatisch realistische und dynamische VFX-Videos aus einem einzigen Video und natürlichsprachlichen Anweisungen erstellt. Durch die sorgfältige Integration neuronaler Szenenmodellierung, auf LLM basierter Codegenerierung und physikalischer Simulation ist AutoVFX in der Lage, physikalisch fundierte, fotorealistische Bearbeitungseffekte bereitzustellen, die direkt mithilfe natürlichsprachlicher Anweisungen gesteuert werden können. Wir führen umfangreiche Experimente durch, um die Wirksamkeit von AutoVFX über ein breites Spektrum von Videos und Anweisungen zu validieren. Quantitative und qualitative Ergebnisse legen nahe, dass AutoVFX in generativer Qualität, Anweisungsübereinstimmung, Bearbeitungsvielseitigkeit und physikalischer Plausibilität alle konkurrierenden Methoden bei weitem übertrifft.
Die Aktivierungssparsamkeit bezeichnet das Vorhandensein von erheblichen schwach beitragenden Elementen innerhalb der Aktivierungsausgaben, die eliminiert werden können und vielen wichtigen Anwendungen zugutekommen, die sich mit großen Sprachmodellen (LLMs) befassen. Obwohl eine Förderung einer größeren Aktivierungssparsamkeit innerhalb von LLMs eingehende Untersuchungen verdient, fehlt es den bestehenden Arbeiten an umfassender und quantitativer Forschung über die Korrelation zwischen Aktivierungssparsamkeit und potenziell einflussreichen Faktoren. In diesem Artikel präsentieren wir eine umfassende Studie über die quantitativen Skalierungseigenschaften und Einflussfaktoren der Aktivierungssparsamkeit innerhalb von Decoder-only Transformer-basierten LLMs. Speziell schlagen wir PPL-p% Sparsamkeit vor, eine präzise und leistungsorientierte Aktivierungssparsamkeitsmetrik, die auf jede Aktivierungsfunktion anwendbar ist. Durch umfangreiche Experimente finden wir mehrere wichtige Phänomene. Erstens zeigen verschiedene Aktivierungsfunktionen vergleichbare Leistungen, aber entgegengesetzte Trends der Sparsamkeit während des Trainings. Das Aktivierungsverhältnis (d.h. 1-Sparsamkeitsverhältnis) entwickelt sich als konvergierendes zunehmendes Potenzgesetz und abnehmendes Logspace-Potenzgesetz mit der Menge der Trainingsdaten für SiLU-aktivierte und ReLU-aktivierte LLMs, jeweils. Dies zeigt, dass ReLU effizienter als Aktivierungsfunktion als SiLU ist und mehr Trainingsdaten nutzen kann, um die Aktivierungssparsamkeit zu verbessern. Zweitens steigt das Aktivierungsverhältnis linear mit dem Breite-Tiefe-Verhältnis unterhalb eines bestimmten Engpasspunktes an, was auf den potenziellen Vorteil einer tieferen Architektur bei einer festen Parametergröße hinweist. Schließlich stellen wir fest, dass bei ähnlichen Breite-Tiefe-Verhältnissen der Grenzwert der Aktivierungssparsamkeit überraschenderweise schwach mit der Parametergröße variiert, d.h. die Aktivierungsmuster innerhalb von LLMs sind unempfindlich gegenüber der Parametergröße. Diese empirischen Gesetze in Bezug auf LLMs mit größerer Aktivierungssparsamkeit haben wichtige Implikationen für die Effizienz und Interpretierbarkeit von LLMs.
Das vergangene Jahr hat signifikante Fortschritte bei videobasierten großen Sprachmodellen gezeigt. Die Herausforderung, ein vereinheitlichtes Modell für die Verarbeitung von kurzen und langen Videos zu entwickeln, bleibt jedoch ungelöst. Die meisten bestehenden Video-LLMs können keine stundenlangen Videos verarbeiten, während Methoden, die speziell für lange Videos entwickelt wurden, für kürzere Videos und Bilder oft ineffektiv sind. In diesem Artikel identifizieren wir das Hauptproblem als den redundanten Inhalt in Videos. Um dies zu lösen, schlagen wir eine neuartige Pooling-Strategie vor, die gleichzeitig eine Token-Kompression und eine anweisungsbewusste visuelle Merkmalsaggregation erreicht. Unser Modell wird Prompt-gesteuertes Pooling LLaVA genannt, oder kurz PPLLaVA. Speziell besteht PPLLaVA aus drei Kernkomponenten: der auf CLIP basierenden visuellen Prompt-Ausrichtung, die relevante visuelle Informationen extrahiert, die für die Anweisungen des Benutzers relevant sind, dem prompt-gesteuerten Pooling, das die visuelle Sequenz auf beliebige Skalen komprimiert, indem es eine Pooling-Methode im Stil von Convolution verwendet, und der Clip-Kontext-Erweiterung, die für längere Anweisungen in visuellen Dialogen entwickelt wurde. Darüber hinaus integriert unser Codebase auch die fortschrittlichste Video-Direktpräferenzoptimierung (DPO) und das visuelle Interleave-Training. Umfangreiche Experimente haben die Leistung unseres Modells validiert. Mit einer überlegenen Durchsatzleistung und nur 1024 visuellen Kontexten erzielt PPLLaVA bessere Ergebnisse bei Bild-Benchmarks als ein Video-LLM und erreicht gleichzeitig Spitzenleistungen bei verschiedenen Video-Benchmarks, insbesondere bei Aufgaben von der Generierung von Bildunterschriften bis zu Multiple-Choice-Fragen und der Verarbeitung von Videolängen von Sekunden bis Stunden. Der Code ist verfügbar unter https://github.com/farewellthree/PPLLaVA.
Bei der Entwicklung von Large Language Models (LLMs) ist das Reinforcement Learning from Human Feedback (RLHF) entscheidend, um Modelle mit menschlichen Werten und Präferenzen in Einklang zu bringen. RLHF basiert traditionell auf der Kullback-Leibler (KL)-Divergenz zwischen der aktuellen Richtlinie und einer eingefrorenen Ausgangsrichtlinie als Referenz, die als Strafe in Richtlinienoptimierungsalgorithmen wie der Proximal Policy Optimization (PPO) hinzugefügt wird. Während diese Einschränkung verhindert, dass Modelle zu weit von der anfänglichen Überprüfung abweichen, begrenzt sie die Exploration der Belohnungslandschaft und verringert die Fähigkeit des Modells, qualitativ hochwertigere Lösungen zu entdecken. Als Ergebnis bleibt die Richtlinienoptimierung oft in einem engen Bereich des Parameterraums stecken, was zu suboptimaler Ausrichtung und Leistung führt. Dieses Papier stellt SALSA (Soup-based Alignment Learning for Stronger Adaptation) vor, einen neuartigen Ansatz, der diese Einschränkungen überwinden soll, indem ein flexibleres und besser positioniertes Referenzmodell durch Gewichtsraum-Mittelung von zwei unabhängigen überwachten feinabgestimmten (SFT) Modellen erstellt wird. Diese Modellsuppe ermöglicht eine größere Abweichung in der KL-Divergenz und die Exploration eines vielversprechenden Bereichs des Lösungsraums, ohne die Stabilität zu beeinträchtigen. Durch die Nutzung dieses robusteren Referenzmodells fördert SALSA eine bessere Exploration, erzielt höhere Belohnungen und verbessert die Robustheit des Modells, die Generalisierung außerhalb der Verteilung und die Leistung. Wir validieren die Wirksamkeit von SALSA durch umfangreiche Experimente an beliebten offenen Modellen (Llama2-7B, Mistral-7B und Gemma-2B) über verschiedene Benchmarks (MT-Bench, Arena-Hard, UltraFeedback), wo es kontinuierlich PPO übertrifft, indem es tiefere Exploration fördert und eine überlegene Ausrichtung in LLMs erreicht.
Wir stellen Image-GOal-Repräsentationen (IGOR) vor, die darauf abzielen, einen vereinheitlichten, semantisch konsistenten Aktionsraum über Menschen und verschiedene Roboter hinweg zu erlernen. Durch diesen vereinheitlichten latenten Aktionsraum ermöglicht IGOR den Wissenstransfer zwischen umfangreichen Roboter- und menschlichen Aktivitätsdaten. Dies erreichen wir, indem wir visuelle Veränderungen zwischen einem Ausgangsbild und seinem Zielzustand in latente Aktionen komprimieren. IGOR ermöglicht es uns, latente Aktionslabels für Video-Daten im Internetmaßstab zu generieren. Dieser vereinheitlichte latente Aktionsraum ermöglicht das Training von Grundlagenrichtlinien und Weltmodellen über eine Vielzahl von Aufgaben, die sowohl von Robotern als auch von Menschen ausgeführt werden. Wir zeigen, dass: (1) IGOR einen semantisch konsistenten Aktionsraum für Menschen und Roboter erlernt, der verschiedene mögliche Bewegungen von Objekten charakterisiert, die das physikalische Interaktionswissen repräsentieren; (2) IGOR kann die Bewegungen des Objekts in einem Video auf andere Videos übertragen, sogar zwischen Menschen und Robotern, indem es das latente Aktionsmodell und das Weltmodell gemeinsam verwendet; (3) IGOR kann lernen, latente Aktionen mit natürlicher Sprache durch das Grundlagenrichtlinienmodell abzustimmen und latente Aktionen mit einem Niedrig-Ebene-Richtlinienmodell zu integrieren, um eine effektive Robotersteuerung zu erreichen. Wir glauben, dass IGOR neue Möglichkeiten für den Wissenstransfer und die Steuerung von Mensch zu Roboter eröffnet.
Das Verständnis und die Minderung der potenziellen Risiken, die mit Grundlagenmodellen (FMs) verbunden sind, hängen von der Entwicklung effektiver Interpretationsmethoden ab. Sparse Autoencoder (SAEs) haben sich als vielversprechendes Werkzeug zur Entflechtung von FM-Repräsentationen herausgestellt, kämpfen jedoch damit, seltene, aber entscheidende Konzepte in den Daten zu erfassen. Wir stellen Spezialisierte Sparse Autoencoder (SSAEs) vor, die darauf ausgelegt sind, diese schwer fassbaren "dunklen Materie"-Merkmale zu beleuchten, indem sie sich auf spezifische Subdomänen konzentrieren. Wir präsentieren ein praktisches Rezept zur Schulung von SSAEs, das die Wirksamkeit der dichten Rückgewinnung für die Datenauswahl und die Vorteile der geneigten empirischen Risikominimierung als Schulungsziel zur Verbesserung des Konzeptrückrufs zeigt. Unsere Bewertung von SSAEs anhand standardmäßiger Metriken wie nachgelagerter Perplexität und L_0-Spärlichkeit zeigt, dass sie effektiv subdomänenspezifische Randkonzepte erfassen und die Fähigkeiten von allgemeinen SAEs übertreffen. Wir präsentieren die praktische Nützlichkeit von SSAEs anhand einer Fallstudie zum Bias in Bios-Datensatz, bei der SSAEs eine um 12,5\% höhere Klassifizierungsgenauigkeit der schlechtesten Gruppe erreichen, wenn sie zur Entfernung irreführender Geschlechterinformationen eingesetzt werden. SSAEs bieten eine leistungsstarke neue Perspektive, um einen Blick in die inneren Arbeitsweisen von FMs in Subdomänen zu werfen.
Wir präsentieren Multi-Expert-Anleitung, eine neuartige Verbesserung der Experten-Anleitung (Xu et al., 2023), die darauf abzielt, die Generierung von großen Sprachmodellen (LLM) zu verbessern. Konkret leitet sie ein LLM an, eine Eingabe-Anweisung zu erfüllen, indem sie mehrere Experten simuliert, ihre Antworten aggregiert und die besten unter den einzelnen und aggregierten Antworten auswählt. Dieser Prozess wird in einer einzigen Gedankenkette durchgeführt, die aus sieben sorgfältig gestalteten Teilaufgaben abgeleitet ist, die aus der Nominalen Gruppen-Technik (Ven und Delbecq, 1974), einem etablierten Entscheidungsfindungsrahmen, stammen. Unsere Bewertungen zeigen, dass Multi-Expert-Anleitung Experten-Anleitung und vergleichbare Baselines signifikant in der Verbesserung der Wahrhaftigkeit, Faktentreue, Informativität und Nützlichkeit von Antworten übertrifft, während sie die Toxizität und Verletzlichkeit reduziert. Sie erreicht zudem einen Stand der Technik in der Wahrhaftigkeit, indem sie den besten Baseline um 8,69% mit ChatGPT übertrifft. Multi-Expert-Anleitung ist effizient, erklärbar und äußerst anpassungsfähig an verschiedene Szenarien, was die Notwendigkeit für manuelle Anleitungskonstruktionen beseitigt.
Dieses Paper beschreibt einen effizienten Algorithmus zur Lösung von rauschbehafteten linearen inversen Problemen unter Verwendung vorab trainierter Diffusionsmodelle. Durch die Erweiterung des Paradigmas der Rauschunterdrückungs-Diffusionsimpliziten Modelle (DDIM) schlagen wir eingeschränkte Diffusionsimplizite Modelle (CDIM) vor, die die Diffusionsaktualisierungen modifizieren, um eine Einschränkung auf die endgültige Ausgabe zu erzwingen. Für rauschfreie inverse Probleme erfüllt CDIM die Einschränkungen genau; im rauschbehafteten Fall verallgemeinern wir CDIM, um eine genaue Einschränkung auf die Restverteilung des Rauschens zu erfüllen. Experimente über eine Vielzahl von Aufgaben und Metriken zeigen die starke Leistung von CDIM, mit einer ähnlichen Inferenzbeschleunigung wie bei unbeschränkten DDIM: 10 bis 50 Mal schneller als bisherige bedingte Diffusionsmethoden. Wir zeigen die Vielseitigkeit unseres Ansatzes bei vielen Problemen, darunter Super-Resolution, Rauschunterdrückung, Inpainting, Entschärfung und 3D-Punktwolkenrekonstruktion.
Große multimodale Modelle (LMMs) haben kürzlich große Fortschritte bei der Text-Bild-Verständnis gezeigt, kämpfen jedoch immer noch mit komplexen, mehrseitigen, visuell reichen Dokumenten. Traditionelle Methoden, die Dokumentenparser für abrufgesteuerte Generierung verwenden, leiden unter Leistungs- und Effizienzeinschränkungen, während das direkte Präsentieren aller Seiten an LMMs zu Ineffizienzen führt, insbesondere bei längeren Dokumenten. In dieser Arbeit präsentieren wir ein neuartiges Framework namens LoRA-Contextualizing Adaptation of Large multimodal models (LoCAL), das die Fähigkeiten eines jeden LMM erweitert, um das Verständnis von langen Dokumenten zu unterstützen. Wir zeigen, dass LMMs effektiv als multimodale Abrufer dienen können, die relevante Seiten abrufen, um Benutzerfragen basierend auf diesen Seiten zu beantworten. LoCAL wird mit zwei spezifischen LMM-Adaptern implementiert: einem für die Seitenabruf und einem für die Beantwortung von Fragen. Empirische Ergebnisse zeigen eine Leistung auf dem neuesten Stand der Technik in öffentlichen Benchmarks und demonstrieren die Wirksamkeit von LoCAL.
Wir stellen Swan vor, eine Familie von Einbettungsmodellen, die sich um die arabische Sprache dreht und sowohl für kleine als auch große Anwendungsfälle geeignet ist. Swan umfasst zwei Varianten: Swan-Small, basierend auf ARBERTv2, und Swan-Large, aufgebaut auf ArMistral, einem vorab trainierten großen arabischen Sprachmodell. Zur Bewertung dieser Modelle schlagen wir ArabicMTEB vor, eine umfassende Benchmark-Suite, die die Leistung der arabischen Texteinbettung in Bezug auf mehrsprachige, multidialektale, multidomänale und multikulturelle Aspekte bewertet. Diese Suite umfasst acht verschiedene Aufgaben und erstreckt sich über 94 Datensätze. Swan-Large erzielt Spitzenleistung, übertrifft Multilingual-E5-large in den meisten arabischen Aufgaben, während Swan-Small konsequent Multilingual-E5 base übertrifft. Unsere umfangreichen Bewertungen zeigen, dass Swan-Modelle sowohl dialektal als auch kulturell bewusst sind, sich in verschiedenen arabischen Bereichen hervortun und dabei eine signifikante Kosteneffizienz bieten. Diese Arbeit trägt maßgeblich zur Entwicklung des arabischen Sprachmodellierungssektors bei und stellt wertvolle Ressourcen für zukünftige Forschung und Anwendungen im Bereich der arabischen natürlichen Sprachverarbeitung bereit. Unsere Modelle und Benchmark werden öffentlich zugänglich gemacht.