Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Im Zeitalter großer Sprachmodelle stellt die Mixture-of-Experts (MoE)-Architektur einen vielversprechenden Ansatz dar, um die Rechenkosten bei der Skalierung von Modellparametern zu bewältigen. Konventionelle MoE-Architekturen wie GShard, die die Top-K von N Experten aktivieren, stehen jedoch vor der Herausforderung, die Spezialisierung der Experten sicherzustellen, d. h. dass jeder Experte nicht überlappendes und fokussiertes Wissen erwirbt. Als Antwort darauf schlagen wir die DeepSeekMoE-Architektur vor, die eine ultimative Experten-Spezialisierung anstrebt. Sie umfasst zwei Hauptstrategien: (1) die feine Segmentierung der Experten in mN Experten und die Aktivierung von mK aus ihnen, was eine flexiblere Kombination der aktivierten Experten ermöglicht; (2) die Isolierung von K_s Experten als gemeinsame Experten, mit dem Ziel, allgemeines Wissen zu erfassen und Redundanz in den gerouteten Experten zu verringern. Ausgehend von einem bescheidenen Maßstab mit 2B Parametern zeigen wir, dass DeepSeekMoE 2B eine vergleichbare Leistung wie GShard 2.9B erzielt, das 1,5-mal so viele Expertenparameter und Rechenleistung aufweist. Darüber hinaus nähert sich DeepSeekMoE 2B nahezu der Leistung seines dichten Gegenstücks mit der gleichen Anzahl von Gesamtparametern an, die die Obergrenze von MoE-Modellen darstellt. Anschließend skalieren wir DeepSeekMoE auf 16B Parameter und zeigen, dass es eine vergleichbare Leistung wie LLaMA2 7B erzielt, mit nur etwa 40 % der Berechnungen. Darüber hinaus bestätigen unsere vorläufigen Bemühungen, DeepSeekMoE auf 145B Parameter zu skalieren, kontinuierlich seine erheblichen Vorteile gegenüber der GShard-Architektur und zeigen, dass seine Leistung mit DeepSeek 67B vergleichbar ist, wobei nur 28,5 % (oder sogar 18,2 %) der Berechnungen verwendet werden.
Content Creatoren streben oft an, personalisierte Bilder mit persönlichen Motiven zu erstellen, die über die Fähigkeiten konventioneller Text-zu-Bild-Modelle hinausgehen. Darüber hinaus möchten sie möglicherweise, dass das resultierende Bild einen bestimmten Ort, Stil, eine bestimmte Atmosphäre und mehr umfasst. Bestehende Personalisierungsmethoden können entweder die Personalisierungsfähigkeit oder die Ausrichtung auf komplexe textuelle Eingaben beeinträchtigen. Dieser Kompromiss kann die Erfüllung von Benutzereingaben und die Treue zum Motiv behindern. Wir schlagen einen neuen Ansatz vor, der sich auf Personalisierungsmethoden für eine einzelne Eingabe konzentriert, um dieses Problem zu lösen. Wir bezeichnen unseren Ansatz als prompt-aligned Personalization. Obwohl dies restriktiv erscheinen mag, zeichnet sich unsere Methode dadurch aus, die Textausrichtung zu verbessern und die Erstellung von Bildern mit komplexen und detaillierten Eingaben zu ermöglichen, was für aktuelle Techniken eine Herausforderung darstellen kann. Insbesondere hält unsere Methode das personalisierte Modell mithilfe eines zusätzlichen Score-Distillation-Sampling-Terms an eine Zielvorgabe ausgerichtet. Wir demonstrieren die Vielseitigkeit unserer Methode in Multi- und Single-Shot-Szenarien und zeigen weiterhin, dass sie mehrere Motive kombinieren oder Inspiration aus Referenzbildern, wie Kunstwerken, nutzen kann. Wir vergleichen unseren Ansatz quantitativ und qualitativ mit bestehenden Baselines und State-of-the-Art-Techniken.
Reinforcement Learning from Human Feedback (RLHF) hat sich zu einer entscheidenden Technologie entwickelt, um Sprachmodelle mit menschlichen Werten und Absichten in Einklang zu bringen und es den Modellen zu ermöglichen, hilfreichere und harmlosere Antworten zu generieren. Belohnungsmodelle werden als Stellvertreter für menschliche Präferenzen trainiert, um die Optimierung des Reinforcement Learning voranzutreiben. Obwohl Belohnungsmodelle oft als zentral für die Erreichung hoher Leistung angesehen werden, stehen sie in praktischen Anwendungen vor den folgenden Herausforderungen: (1) Falsche und mehrdeutige Präferenzpaare im Datensatz können das Belohnungsmodell daran hindern, die menschliche Absicht genau zu erfassen. (2) Belohnungsmodelle, die auf Daten einer spezifischen Verteilung trainiert wurden, haben oft Schwierigkeiten, sich auf Beispiele außerhalb dieser Verteilung zu verallgemeinern, und sind nicht für iteratives RLHF-Training geeignet. In diesem Bericht versuchen wir, diese beiden Probleme zu adressieren. (1) Aus einer datenbezogenen Perspektive schlagen wir eine Methode vor, um die Stärke der Präferenzen innerhalb der Daten zu messen, basierend auf einem Abstimmungsmechanismus mehrerer Belohnungsmodelle. Experimentelle Ergebnisse bestätigen, dass Daten mit unterschiedlichen Präferenzstärken unterschiedliche Auswirkungen auf die Leistung des Belohnungsmodells haben. Wir führen eine Reihe neuartiger Methoden ein, um den Einfluss falscher und mehrdeutiger Präferenzen im Datensatz zu minimieren und hochwertige Präferenzdaten vollständig zu nutzen. (2) Aus algorithmischer Sicht führen wir kontrastives Lernen ein, um die Fähigkeit der Belohnungsmodelle zu verbessern, zwischen ausgewählten und abgelehnten Antworten zu unterscheiden, und dadurch die Modellverallgemeinerung zu verbessern. Darüber hinaus setzen wir Meta-Learning ein, um dem Belohnungsmodell die Fähigkeit zu erhalten, subtile Unterschiede in Out-of-Distribution-Beispielen zu erkennen, und dieser Ansatz kann für iterative RLHF-Optimierung genutzt werden.
Das Rendern von Radiance Fields auf Punktbasis hat beeindruckende Ergebnisse bei der Synthese neuer Ansichten gezeigt und bietet eine überzeugende Mischung aus Renderqualität und Recheneffizienz. Allerdings sind auch die neuesten Ansätze in diesem Bereich nicht ohne Schwächen. 3D Gaussian Splatting [Kerbl und Kopanas et al. 2023] kämpft mit Problemen bei der Darstellung hochdetaillierter Szenen, da es zu Unschärfen und wolkenartigen Artefakten kommt. Andererseits kann ADOP [Rückert et al. 2022] schärfere Bilder erzeugen, aber das neuronale Rekonstruktionsnetzwerk beeinträchtigt die Leistung, es hat mit zeitlicher Instabilität zu kämpfen und kann große Lücken in der Punktwolke nicht effektiv bewältigen. In diesem Artikel präsentieren wir TRIPS (Trilinear Point Splatting), einen Ansatz, der Ideen aus sowohl Gaussian Splatting als auch ADOP kombiniert. Das grundlegende Konzept unserer neuartigen Technik besteht darin, Punkte in eine Bildpyramide im Bildschirmraum zu rasterisieren, wobei die Auswahl der Pyramidenschicht durch die projizierte Punktgröße bestimmt wird. Dieser Ansatz ermöglicht das Rendern beliebig großer Punkte mit einem einzigen trilinearen Schreibvorgang. Ein leichtgewichtiges neuronales Netzwerk wird dann verwendet, um ein lochfreies Bild zu rekonstruieren, das Details über die Splat-Auflösung hinaus enthält. Wichtig ist, dass unsere Render-Pipeline vollständig differenzierbar ist, was eine automatische Optimierung sowohl der Punktgrößen als auch der Positionen ermöglicht. Unsere Auswertungen zeigen, dass TRIPS die bestehenden State-of-the-Art-Methoden in Bezug auf die Renderqualität übertrifft, während eine Echtzeit-Bildrate von 60 Bildern pro Sekunde auf leicht verfügbarer Hardware aufrechterhalten wird. Diese Leistung erstreckt sich auch auf anspruchsvolle Szenarien, wie Szenen mit komplexer Geometrie, weitläufigen Landschaften und automatisch belichteten Aufnahmen.
Aktuelle Arbeiten zeigen, dass der Einsatz von Reinforcement Learning (RL) mit Qualitätsbelohnungen die Qualität der generierten Bilder in der Text-zu-Bild (T2I)-Generierung verbessern kann. Eine einfache Aggregation mehrerer Belohnungen kann jedoch zu einer Überoptimierung bestimmter Metriken und einer Verschlechterung anderer führen, und es ist schwierig, die optimalen Gewichtungen manuell zu finden. Eine effektive Strategie zur gemeinsamen Optimierung mehrerer Belohnungen in RL für die T2I-Generierung ist daher äußerst wünschenswert. Dieses Papier stellt Parrot vor, ein neuartiges Multi-Belohnungs-RL-Framework für die T2I-Generierung. Durch die Verwendung der batchweisen Pareto-optimalen Selektion identifiziert Parrot automatisch den optimalen Kompromiss zwischen verschiedenen Belohnungen während der RL-Optimierung der T2I-Generierung. Darüber hinaus setzt Parrot einen gemeinsamen Optimierungsansatz für das T2I-Modell und das Prompt-Expansionsnetzwerk ein, wodurch die Generierung qualitätsbewusster Text-Prompts erleichtert wird und somit die endgültige Bildqualität weiter verbessert wird. Um dem potenziellen katastrophalen Vergessen des ursprünglichen Benutzer-Prompts aufgrund der Prompt-Expansion entgegenzuwirken, führen wir zur Inferenzzeit eine auf den ursprünglichen Prompt zentrierte Führung ein, die sicherstellt, dass das generierte Bild dem Benutzereingang treu bleibt. Umfangreiche Experimente und eine Benutzerstudie zeigen, dass Parrot mehrere Baseline-Methoden in verschiedenen Qualitätskriterien übertrifft, darunter Ästhetik, menschliche Präferenz, Bildstimmung und Text-Bild-Ausrichtung.
Die Untersuchung der in den verborgenen Repräsentationen großer Sprachmodelle (LLMs) kodierten Informationen kann das Verhalten der Modelle erklären und ihre Ausrichtung an menschlichen Werten überprüfen. Angesichts der Fähigkeiten von LLMs, menschenverständlichen Text zu generieren, schlagen wir vor, das Modell selbst zu nutzen, um seine internen Repräsentationen in natürlicher Sprache zu erklären. Wir stellen ein Framework namens Patchscopes vor und zeigen, wie es verwendet werden kann, um eine breite Palette von Forschungsfragen zur Berechnung eines LLMs zu beantworten. Wir zeigen, dass frühere Interpretationsmethoden, die auf der Projektion von Repräsentationen in den Vokabularraum und der Intervention in die LLM-Berechnung basieren, als spezielle Instanzen dieses Frameworks betrachtet werden können. Darüber hinaus können einige ihrer Schwächen, wie das Versagen bei der Untersuchung früher Schichten oder der Mangel an Ausdruckskraft, durch ein Patchscope gemildert werden. Über die Vereinheitlichung früher Untersuchungstechniken hinaus eröffnen Patchscopes auch neue Möglichkeiten, wie die Verwendung eines leistungsfähigeren Modells zur Erklärung der Repräsentationen eines kleineren Modells, und ermöglichen neue Anwendungen wie die Selbstkorrektur bei mehrstufigem Schlussfolgern.
Große Sprachmodelle, die auf umfangreichen Datensammlungen aus dem Web trainiert werden, können sensible oder private Daten speichern und reproduzieren, was sowohl rechtliche als auch ethische Bedenken aufwirft. Das sogenannte „Unlearning“, also das Anpassen von Modellen, um Informationen aus ihren Trainingsdaten zu vergessen, bietet uns eine Möglichkeit, private Daten nach dem Training zu schützen. Obwohl mehrere Methoden für solches Unlearning existieren, ist unklar, inwieweit sie zu Modellen führen, die denen entsprechen, bei denen die zu vergessenden Daten von vornherein nie gelernt wurden. Um diese Herausforderung zu bewältigen, stellen wir TOFU (Task of Fictitious Unlearning) als Benchmark vor, der darauf abzielt, unser Verständnis von Unlearning zu vertiefen. Wir bieten einen Datensatz von 200 vielfältigen synthetischen Autorenprofilen, die jeweils aus 20 Frage-Antwort-Paaren bestehen, sowie eine Teilmenge dieser Profile, die als „Forget Set“ bezeichnet wird und als Ziel für das Unlearning dient. Wir stellen eine Reihe von Metriken zusammen, die zusammen ein umfassendes Bild der Wirksamkeit des Unlearnings vermitteln. Schließlich liefern wir eine Reihe von Baseline-Ergebnissen aus bestehenden Unlearning-Algorithmen. Wichtig ist, dass keine der betrachteten Baselines effektives Unlearning zeigt, was die Notwendigkeit weiterer Bemühungen zur Entwicklung von Ansätzen für Unlearning unterstreicht, die Modelle so anpassen, dass sie sich tatsächlich so verhalten, als wären sie niemals auf die zu vergessenden Daten trainiert worden.
Im Zentrum der Medizin steht der Arzt-Patienten-Dialog, bei dem eine geschickte Anamneseerhebung den Weg für eine genaue Diagnose, effektive Behandlung und nachhaltiges Vertrauen ebnet. Künstliche Intelligenz (KI)-Systeme, die zu diagnostischen Dialogen fähig sind, könnten die Zugänglichkeit, Konsistenz und Qualität der Versorgung erhöhen. Die Annäherung an die Expertise von Klinikern bleibt jedoch eine herausragende große Herausforderung. Hier stellen wir AMIE (Articulate Medical Intelligence Explorer) vor, ein auf diagnostische Dialoge optimiertes KI-System, das auf einem Large Language Model (LLM) basiert. AMIE nutzt eine neuartige, auf Selbstspiel basierende simulierte Umgebung mit automatisierten Feedback-Mechanismen, um das Lernen über diverse Krankheitsbilder, Fachgebiete und Kontexte hinweg zu skalieren. Wir entwickelten ein Rahmenwerk zur Bewertung klinisch relevanter Leistungsaspekte, einschließlich Anamneseerhebung, diagnostischer Genauigkeit, Behandlungsplanung, Kommunikationsfähigkeiten und Empathie. Wir verglichen die Leistung von AMIE mit der von Hausärzten (PCPs) in einer randomisierten, doppelblinden Crossover-Studie von textbasierten Konsultationen mit validierten Schauspielpatienten im Stil einer Objective Structured Clinical Examination (OSCE). Die Studie umfasste 149 Fallbeispiele von klinischen Anbietern aus Kanada, dem Vereinigten Königreich und Indien, 20 PCPs für den Vergleich mit AMIE sowie Bewertungen durch Fachärzte und Schauspielpatienten. AMIE zeigte eine höhere diagnostische Genauigkeit und überlegene Leistung in 28 von 32 Aspekten laut Fachärzten und 24 von 26 Aspekten laut Schauspielpatienten. Unsere Forschung weist mehrere Einschränkungen auf und sollte mit angemessener Vorsicht interpretiert werden. Die Kliniker waren auf ungewohnte synchrone Textchats beschränkt, die groß angelegte LLM-Patienten-Interaktionen ermöglichen, aber nicht die übliche klinische Praxis repräsentieren. Obwohl weitere Forschung erforderlich ist, bevor AMIE in reale Anwendungen übertragen werden könnte, stellen die Ergebnisse einen Meilenstein auf dem Weg zu konversationsfähiger diagnostischer KI dar.
Multimodale Large Language Models haben beeindruckende Leistungen bei verschiedenen Aufgaben in unterschiedlichen Modalitäten gezeigt. Allerdings konzentrieren sich bestehende multimodale Modelle hauptsächlich darauf, globale Informationen innerhalb jeder Modalität zu erfassen, während sie die Bedeutung der Wahrnehmung lokaler Informationen über Modalitäten hinweg vernachlässigen. Folglich fehlt diesen Modellen die Fähigkeit, die feinkörnigen Details der Eingabedaten effektiv zu verstehen, was ihre Leistung bei Aufgaben einschränkt, die ein differenzierteres Verständnis erfordern. Um diese Einschränkung zu überwinden, besteht ein dringender Bedarf an der Entwicklung von Modellen, die ein feinkörniges Verständnis über mehrere Modalitäten hinweg ermöglichen und damit ihre Anwendbarkeit auf eine breite Palette von Aufgaben verbessern. In diesem Artikel schlagen wir LEGO vor, ein sprachgestütztes multimodales Grounding-Modell. Über die Erfassung globaler Informationen hinaus, wie es andere multimodale Modelle tun, zeichnet sich unser vorgeschlagenes Modell durch Aufgaben aus, die ein detailliertes Verständnis lokaler Informationen innerhalb der Eingabe erfordern. Es zeigt eine präzise Identifikation und Lokalisierung spezifischer Regionen in Bildern oder Momenten in Videos. Um dieses Ziel zu erreichen, haben wir eine diversifizierte Pipeline zur Datensatzkonstruktion entwickelt, die zu einem multimodalen, mehrgranularen Datensatz für das Modelltraining führt. Der Code, der Datensatz und die Demo unseres Modells sind unter https://github.com/lzw-lzw/LEGO zu finden.
Diffusionsbasierte Videobearbeitung hat beeindruckende Qualität erreicht und kann entweder den globalen Stil, die lokale Struktur oder die Attribute von gegebenen Videoeingaben entsprechend textueller Bearbeitungsanweisungen transformieren. Solche Lösungen verursachen jedoch typischerweise hohe Speicher- und Rechenkosten, um zeitlich kohärente Frames zu erzeugen, sei es in Form von Diffusionsinversion und/oder Cross-Frame-Attention. In diesem Papier analysieren wir derartige Ineffizienzen und schlagen einfache, aber effektive Modifikationen vor, die signifikante Beschleunigungen bei gleichbleibender Qualität ermöglichen. Darüber hinaus führen wir Object-Centric Diffusion, kurz OCD, ein, um die Latenz weiter zu reduzieren, indem Berechnungen stärker auf bearbeitete Vordergrundregionen konzentriert werden, die für die wahrgenommene Qualität vermutlich wichtiger sind. Dies erreichen wir durch zwei neuartige Vorschläge: i) Object-Centric Sampling, das die Diffusionsschritte für relevante Regionen oder den Hintergrund entkoppelt und den Großteil der Modellkapazität auf erstere verteilt, und ii) Object-Centric 3D Token Merging, das die Kosten der Cross-Frame-Attention reduziert, indem redundante Tokens in unwichtigen Hintergrundregionen fusioniert werden. Beide Techniken sind ohne erneutes Training direkt auf ein gegebenes Videobearbeitungsmodell anwendbar und können dessen Speicher- und Rechenkosten drastisch verringern. Wir evaluieren unsere Vorschläge anhand von Inversions-basierten und Steuersignal-basierten Bearbeitungspipelines und zeigen eine Latenzreduktion von bis zu 10x bei vergleichbarer Synthesequalität.
Die dynamische Synthese neuer Ansichten zielt darauf ab, die zeitliche Entwicklung visueller Inhalte in Videos zu erfassen. Bestehende Methoden haben Schwierigkeiten, zwischen Bewegung und Struktur zu unterscheiden, insbesondere in Szenarien, in denen Kameraposen entweder unbekannt oder im Vergleich zur Objektbewegung eingeschränkt sind. Darüber hinaus ist es äußerst herausfordernd, nicht sichtbare Bereiche, die in den gegebenen Videos verdeckt oder nur teilweise beobachtet sind, allein anhand von Referenzbildern zu rekonstruieren. Um diese Probleme zu lösen, verfeinern wir zunächst ein vortrainiertes RGB-D-Diffusionsmodell auf den Videobildern mithilfe einer Anpassungstechnik. Anschließend destillieren wir das Wissen aus dem verfeinerten Modell in eine 4D-Darstellung, die sowohl dynamische als auch statische Komponenten von Neural Radiance Fields (NeRF) umfasst. Die vorgeschlagene Pipeline erreicht geometrische Konsistenz, während die Identität der Szene bewahrt wird. Wir führen umfassende Experimente durch, um die Wirksamkeit der vorgeschlagenen Methode qualitativ und quantitativ zu bewerten. Unsere Ergebnisse demonstrieren die Robustheit und Nützlichkeit unseres Ansatzes in anspruchsvollen Fällen und tragen so zur Weiterentwicklung der dynamischen Synthese neuer Ansichten bei.
Wir zeigen, dass Inhalte im Web häufig in viele Sprachen übersetzt werden, und die geringe Qualität dieser mehrsprachigen Übersetzungen deutet darauf hin, dass sie wahrscheinlich mithilfe von maschineller Übersetzung (MT) erstellt wurden. Mehrsprachige, maschinell generierte Inhalte dominieren nicht nur die Übersetzungen in ressourcenärmeren Sprachen; sie machen auch einen großen Teil der gesamten Webinhalte in diesen Sprachen aus. Wir finden auch Hinweise auf eine Auswahlverzerrung bei der Art von Inhalten, die in viele Sprachen übersetzt werden, was mit der massenhaften Übersetzung von qualitativ minderwertigen englischen Inhalten in viele ressourcenärmere Sprachen über MT übereinstimmt. Unsere Arbeit wirft ernsthafte Bedenken hinsichtlich des Trainings von Modellen wie mehrsprachigen großen Sprachmodellen auf sowohl einsprachigen als auch zweisprachigen Daten auf, die aus dem Web extrahiert wurden.
Dieser Artikel stellt kontrastive Ausrichtungsanweisungen (AlignInstruct) vor, um zwei Herausforderungen in der maschinellen Übersetzung (MT) mit großen Sprachmodellen (LLMs) zu adressieren. Die erste Herausforderung ist die Erweiterung der unterstützten Sprachen auf bisher unbekannte. Die zweite betrifft den Mangel an Daten in ressourcenarmen Sprachen. Die Feinabstimmung von Modellen durch MT-Anweisungen (MTInstruct) ist ein direkter Ansatz für die erste Herausforderung. Allerdings wird MTInstruct durch schwache cross-linguale Signale, die in der zweiten Herausforderung inhärent sind, eingeschränkt. AlignInstruct betont die cross-linguale Überwachung durch einen cross-lingualen Diskriminator, der mithilfe statistischer Wortausrichtungen erstellt wird. Unsere Ergebnisse, basierend auf der Feinabstimmung der BLOOMZ-Modelle (1b1, 3b und 7b1) in bis zu 24 unbekannten Sprachen, zeigten, dass: (1) LLMs unbekannte Sprachen effektiv mit MTInstruct übersetzen können; (2) AlignInstruct zu konsistenten Verbesserungen der Übersetzungsqualität in 48 Übersetzungsrichtungen, die Englisch beinhalten, führte; (3) Diskriminator-basierte Anweisungen ihre generativen Gegenstücke als cross-linguale Anweisungen übertrafen; (4) AlignInstruct die Leistung in 30 Zero-Shot-Richtungen verbesserte.