Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Planung mit teilweiser Beobachtung ist eine zentrale Herausforderung in der verkörperten KI. Die Mehrheit der bisherigen Arbeiten hat diese Herausforderung angegangen, indem sie Agenten entwickelt haben, die ihre Umgebung physisch erkunden, um ihre Überzeugungen über den Zustand der Welt zu aktualisieren. Im Gegensatz dazu können Menschen durch eine mentale Erkundung unsichtbarer Teile der Welt vorstellen und ihre Überzeugungen mit vorgestellten Beobachtungen überarbeiten. Solche aktualisierten Überzeugungen können es ihnen ermöglichen, informiertere Entscheidungen zu treffen, ohne die physische Erkundung der Welt ständig zu erfordern. Um diese menschenähnliche Fähigkeit zu erreichen, stellen wir den Generativen Weltentdecker (Genex) vor, ein egozentrisches Weltentdeckungsframework, das einem Agenten ermöglicht, eine groß angelegte 3D-Welt (z. B. städtische Szenen) mental zu erkunden und vorgestellte Beobachtungen zu sammeln, um seine Überzeugung zu aktualisieren. Diese aktualisierte Überzeugung wird dem Agenten dann helfen, eine informiertere Entscheidung im aktuellen Schritt zu treffen. Um Genex zu trainieren, erstellen wir einen synthetischen städtischen Szenendatensatz, Genex-DB. Unsere experimentellen Ergebnisse zeigen, dass (1) Genex hochwertige und konsistente Beobachtungen während der Langzeit-Erkundung einer großen virtuellen physischen Welt generieren kann und (2) die mit den generierten Beobachtungen aktualisierten Überzeugungen ein vorhandenes Entscheidungsmodell (z. B. einen LLM-Agenten) informieren können, um bessere Pläne zu erstellen.
Das Aufkommen und die zunehmende Beliebtheit multimodaler großer Sprachmodelle (MLLMs) haben ein signifikantes Potenzial, verschiedene Aspekte des täglichen Lebens zu verbessern, von der Verbesserung der Kommunikation bis hin zur Erleichterung des Lernens und der Problemlösung. Mobiltelefone, als unverzichtbare tägliche Begleiter, stellen die effektivste und zugänglichste Bereitstellungsplattform für MLLMs dar und ermöglichen eine nahtlose Integration in alltägliche Aufgaben. Die Bereitstellung von MLLMs auf Mobiltelefonen birgt jedoch Herausforderungen aufgrund von Speichergrößenbeschränkungen und Rechenkapazität, was es schwierig macht, eine reibungslose und Echtzeitverarbeitung ohne umfangreiche Optimierung zu erreichen. In diesem Papier präsentieren wir BlueLM-V-3B, einen Algorithmus- und System-Co-Design-Ansatz, der speziell für die effiziente Bereitstellung von MLLMs auf mobilen Plattformen entwickelt wurde. Konkret überarbeiten wir das dynamische Auflösungsschema, das von Mainstream-MLLMs übernommen wurde, und implementieren Systemoptimierungen für eine hardwarebewusste Bereitstellung, um die Modellinferenz auf Mobiltelefonen zu optimieren. BlueLM-V-3B zeichnet sich durch folgende Schlüsseleigenschaften aus: (1) Geringe Größe: BlueLM-V-3B verfügt über ein Sprachmodell mit 2,7 Milliarden Parametern und einen Vision-Encoder mit 400 Millionen Parametern. (2) Hohe Geschwindigkeit: BlueLM-V-3B erreicht eine Generierungsgeschwindigkeit von 24,4 Token/s auf dem MediaTek Dimensity 9300-Prozessor mit 4-Bit-LLM-Gewichtsquantisierung. (3) Starke Leistung: BlueLM-V-3B hat mit einem durchschnittlichen Score von 66,1 im OpenCompass-Benchmark unter Modellen mit weniger als oder gleich 4 Milliarden Parametern den höchsten Wert erreicht und eine Reihe von Modellen mit deutlich größeren Parametervolumina übertroffen (z. B. MiniCPM-V-2.6, InternVL2-8B).
Wir präsentieren einen vereinheitlichten steuerbaren Video-Generierungsansatz namens AnimateAnything, der präzise und konsistente Video-Manipulation unter verschiedenen Bedingungen ermöglicht, einschließlich Kameratrajektorien, Texteingaben und Benutzerbewegungsannotationen. Speziell entwerfen wir sorgfältig ein Multi-Scale Control Feature Fusion Network, um eine gemeinsame Bewegungsrepräsentation für verschiedene Bedingungen zu konstruieren. Es wandelt alle Steuerinformationen explizit in Frame-für-Frame-Optical Flows um. Anschließend integrieren wir die optischen Flows als Bewegungsprioritäten, um die endgültige Video-Generierung zu lenken. Darüber hinaus schlagen wir zur Reduzierung von Flimmern, das durch großflächige Bewegungen verursacht wird, ein frequenzbasiertes Stabilisierungsmodul vor. Es kann die zeitliche Kohärenz verbessern, indem es die Frequenzdomänenkonsistenz des Videos sicherstellt. Experimente zeigen, dass unsere Methode die state-of-the-art Ansätze übertrifft. Für weitere Details und Videos besuchen Sie bitte die Webseite: https://yu-shaonian.github.io/Animate_Anything/.
Die Evolution des maschinellen Lernens hat zunehmend die Entwicklung leistungsstarker Modelle und skalierbarerer Überwachungssignale priorisiert. Allerdings stellen die Entstehung von Grundlagenmodellen bedeutende Herausforderungen bei der Bereitstellung effektiver Überwachungssignale dar, die für die weitere Verbesserung ihrer Fähigkeiten erforderlich sind. Folglich besteht ein dringender Bedarf, neuartige Überwachungssignale und technische Ansätze zu erforschen. In diesem Beitrag schlagen wir Verifikations-Engineering vor, ein neuartiges Paradigma nach dem Training, das speziell für das Zeitalter der Grundlagenmodelle entwickelt wurde. Der Kern des Verifikations-Engineerings besteht darin, eine Reihe von automatisierten Verifikatoren einzusetzen, um Verifizierungsaufgaben durchzuführen und aussagekräftiges Feedback an Grundlagenmodelle zu liefern. Wir kategorisieren den Prozess des Verifikations-Engineerings systematisch in drei wesentliche Phasen: Suche, Verifizierung und Feedback, und bieten eine umfassende Übersicht über die neuesten Forschungsentwicklungen in jeder Phase. Wir sind der Überzeugung, dass das Verifikations-Engineering einen grundlegenden Weg zur Erreichung künstlicher allgemeiner Intelligenz darstellt.
Große Sprachmodelle (LLMs) verwenden in der Regel gierige Dekodierung oder Niedrigtemperatur-Sampling für Schlussfolgerungsaufgaben, was einen wahrgenommenen Kompromiss zwischen Vielfalt und Genauigkeit widerspiegelt. Wir fordern diese Konvention heraus, indem wir top-nsigma einführen, eine neuartige Sampling-Methode, die direkt auf den Pre-Softmax-Logits basiert und einen statistischen Schwellenwert nutzt. Unser Schlüsselerkenntnis ist, dass die Logits sich natürlich in einen gaußverteilten rauschigen Bereich und einen deutlich informativen Bereich aufteilen, was eine effiziente Token-Filterung ohne komplexe Wahrscheinlichkeitsmanipulationen ermöglicht. Im Gegensatz zu bestehenden Methoden (z. B. top-p, min-p), die unbeabsichtigt mehr Rausch-Tokens bei höheren Temperaturen einschließen, behält top-nsigma einen stabilen Sampling-Raum unabhängig von der Temperaturskalierung bei. Wir bieten auch eine theoretische Analyse von top-nsigma an, um sein Verhalten besser zu verstehen. Die umfangreichen experimentellen Ergebnisse über vier auf Schlussfolgerung ausgerichtete Datensätze zeigen, dass unsere Methode nicht nur bestehende Sampling-Ansätze übertrifft, sondern auch die gierige Dekodierung übertrifft, während sie selbst bei hohen Temperaturen eine konsistente Leistung beibehält.
Reranker, in der Regel Cross-Encoder, werden häufig verwendet, um die Dokumente neu zu bewerten, die von kostengünstigeren anfänglichen IR-Systemen abgerufen wurden. Dies liegt daran, dass Reranker, obwohl teuer, als effektiver angesehen werden. Wir fordern diese Annahme heraus, indem wir die Leistung des Rerankers für die vollständige Abfrage, nicht nur die Neubewertung der Abfrage in der ersten Stufe, messen. Unsere Experimente zeigen einen überraschenden Trend: Die besten vorhandenen Reranker liefern abnehmende Erträge, wenn sie zunehmend mehr Dokumente bewerten, und verschlechtern tatsächlich die Qualität über eine bestimmte Grenze hinaus. Tatsächlich können Reranker in diesem Szenario häufig hohen Punktzahlen für Dokumente zuweisen, die keine lexikalische oder semantische Überlappung mit der Abfrage aufweisen. Wir hoffen, dass unsere Ergebnisse zukünftige Forschung zur Verbesserung des Rerankings anregen werden.
Obwohl die bildbasierte virtuelle Anprobe erhebliche Fortschritte gemacht hat, stoßen neue Ansätze immer noch auf Herausforderungen bei der Erzeugung hochwertiger und robuster Anpassungsbilder in verschiedenen Szenarien. Diese Methoden haben oft Schwierigkeiten mit Problemen wie texturbezogener Aufrechterhaltung und größenbezogener Anpassung, die ihre Gesamteffektivität beeinträchtigen. Um diese Einschränkungen zu bewältigen, schlagen wir eine neuartige Technik zur Verbesserung der Kleidungswahrnehmung vor, die als FitDiT bezeichnet wird und für hochwertige virtuelle Anproben mit Diffusionstransformatoren (DiT) entwickelt wurde, die mehr Parameter und Aufmerksamkeit auf hochauflösende Merkmale lenken. Zunächst führen wir zur weiteren Verbesserung der texturbezogenen Aufrechterhaltung einen Kleidungstexturextraktor ein, der die Evolution von Kleidungsprioritäten integriert, um Merkmale der Kleidung feinabzustimmen und so die Erfassung von reichen Details wie Streifen, Mustern und Texten zu erleichtern. Darüber hinaus führen wir das Lernen im Frequenzbereich ein, indem wir einen frequenzbasierten Distanzverlust anpassen, um hochfrequente Details der Kleidung zu verbessern. Um das Problem der größenbezogenen Anpassung anzugehen, verwenden wir eine Strategie mit dilatierten und entspannten Masken, die sich an die richtige Länge der Kleidungsstücke anpasst und so verhindert, dass Kleidungsstücke erzeugt werden, die den gesamten Maskenbereich bei Anproben über verschiedene Kategorien ausfüllen. Ausgestattet mit dem oben genannten Design übertrifft FitDiT alle Basislinien sowohl in qualitativen als auch quantitativen Bewertungen. Es zeichnet sich durch die Erzeugung gut sitzender Kleidungsstücke mit fotorealistischen und komplexen Details aus und erreicht gleichzeitig wettbewerbsfähige Inferenzzeiten von 4,57 Sekunden für ein einzelnes Bild mit 1024x768 Pixeln nach dem Schlankmachen der DiT-Struktur und übertrifft damit bestehende Methoden.
Obwohl kleine Sprachmodelle (SLMs) vielversprechend für den Einsatz auf mobilen Geräten sind, bleibt ihre Leistung und Anwendung in der realen Welt auf Smartphones weitgehend unerforscht. Wir präsentieren SlimLM, eine Reihe von SLMs, die für Dokumentenunterstützungsaufgaben auf mobilen Geräten optimiert sind. Durch umfangreiche Experimente auf einem Samsung Galaxy S24 identifizieren wir die optimalen Kompromisse zwischen Modellgröße (im Bereich von 125M bis 7B Parametern), Kontextlänge und Inferenzzeit für eine effiziente Verarbeitung auf dem Gerät. SlimLM wird auf SlimPajama-627B vorab trainiert und auf DocAssist, unserem erstellten Datensatz für Zusammenfassungs-, Fragestellungs- und Vorschlungsaufgaben, feinabgestimmt. Unser kleinstes Modell zeigt eine effiziente Leistung auf dem S24, während größere Varianten erweiterte Fähigkeiten innerhalb der mobilen Einschränkungen bieten. Wir bewerten SlimLM im Vergleich zu bestehenden SLMs, zeigen vergleichbare oder überlegene Leistungen und bieten einen Maßstab für zukünftige Forschung an Sprachmodellen auf Geräten. Wir stellen auch eine Android-Anwendung zur Verfügung, die praktische Einblicke in die Bereitstellung von SLMs bietet. Unsere Ergebnisse liefern wertvolle Erkenntnisse und beleuchten die Möglichkeiten des Betriebs fortschrittlicher Sprachmodelle auf High-End-Smartphones, was potenziell die Serverkosten reduziert und die Privatsphäre durch die Verarbeitung auf dem Gerät verbessert.
Die jüngsten Fortschritte der generativen KI haben die Inhaltserstellung und -bearbeitung erheblich vorangetrieben, wobei vorherrschende Studien diesen spannenden Fortschritt weiter auf die Videobearbeitung ausweiten. Dabei übertragen diese Studien hauptsächlich die inhärenten Bewegungsmuster von den Ausgangsvideos auf die bearbeiteten, wobei Ergebnisse mit unzureichender Konsistenz zu Benutzeranweisungen häufig beobachtet werden, aufgrund des Mangels an spezifischen Ausrichtungen zwischen den übertragenen Bewegungen und bearbeiteten Inhalten. Um diese Einschränkung zu adressieren, präsentieren wir in diesem Papier eine formkonsistente Videobearbeitungsmethode, nämlich StableV2V. Unsere Methode zerlegt den gesamten Bearbeitungsprozess in mehrere aufeinanderfolgende Verfahren, wobei sie den ersten Videobild bearbeitet, dann eine Ausrichtung zwischen den übertragenen Bewegungen und Benutzeranweisungen herstellt und schließlich die bearbeiteten Inhalte basierend auf dieser Ausrichtung auf alle anderen Bilder überträgt. Darüber hinaus erstellen wir einen Testbenchmark, nämlich DAVIS-Edit, für eine umfassende Bewertung der Videobearbeitung unter Berücksichtigung verschiedener Arten von Anweisungen und Schwierigkeiten. Experimentelle Ergebnisse und Analysen veranschaulichen die überragende Leistung, visuelle Konsistenz und Inferenzeffizienz unserer Methode im Vergleich zu bestehenden state-of-the-art Studien.
Mit der zunehmenden Popularität der Forschung zu Multimodalen Großen Sprachmodellen (MLLMs) wird typischerweise von einem fortschreitenden MLLM-Modell erwartet, dass es gleichzeitig verschiedene textuelle und visuelle Aufgaben (z. B. VQA, Detektion, OCR und ChartQA) für Anwendungen in der realen Welt bewältigt. Aufgrund signifikanter Unterschiede in der Repräsentation und Verteilung von Daten aus verschiedenen Aufgaben führt das einfache Vermischen von Daten aller Aufgaben zu dem bekannten Problem des "Multi-Task-Konflikts", was zu einer Leistungsverschlechterung bei verschiedenen Aufgaben führt. Um dieses Problem anzugehen, schlagen wir Awaker2.5-VL vor, eine Mixture of Experts (MoE)-Architektur, die für MLLM geeignet ist und die Multi-Task-Fähigkeiten durch mehrere spärlich aktivierten Experten erwirbt. Um das Training und die Inferenz von Awaker2.5-VL zu beschleunigen, wird jeder Experte in unserem Modell als eine Low-Rank-Adaptationsstruktur (LoRA) konzipiert. Umfangreiche Experimente an mehreren aktuellen Benchmarks zeigen die Wirksamkeit von Awaker2.5-VL. Der Code und das Modellgewicht sind auf unserer Projektseite verfügbar: https://github.com/MetabrainAGI/Awaker.
Während des Dekodierens von Sprachmodellen ist bekannt, dass die Verwendung einer höheren Temperatur beim Sampling zu kreativeren Antworten führt, während niedrigere Temperaturen faktisch genauer sind. Allerdings werden solche Modelle üblicherweise auf allgemeine Anweisungsverfolgung angewendet, die sowohl kreative als auch faktensuchende Aufgaben umfasst, wobei eine einzige feste Temperatur für alle Beispiele und Tokens verwendet wird. In dieser Arbeit stellen wir das Adaptive Decoding vor, eine Schicht, die dem Modell hinzugefügt wird, um die Sampling-Temperatur zur Laufzeit dynamisch auszuwählen, entweder auf Token- oder Beispielebene, um die Leistung zu optimieren. Um seine Parameter zu erlernen, führen wir die Latent Preference Optimization (LPO) ein, einen allgemeinen Ansatz zum Training diskreter latenten Variablen wie der Wahl der Temperatur. Unsere Methode übertrifft alle festen Dekodierungstemperaturen über eine Reihe von Aufgaben, die unterschiedliche Temperaturen erfordern, einschließlich UltraFeedback, kreatives Geschichtenschreiben und GSM8K.
Wir haben zwei ausschließlich auf Deutsch ausgerichtete Decoder-Modelle, LL\"aMmlein 120M und 1B, transparent von Grund auf erstellt und zusammen mit den Trainingsdaten für die deutsche NLP-Forschungsgemeinschaft veröffentlicht. Das Modelltraining umfasste mehrere Schlüsselschritte, darunter umfangreiche Datenpräprozessierung, die Erstellung eines benutzerdefinierten deutschen Tokenizers, das eigentliche Training sowie die Evaluation der endgültigen Modelle anhand verschiedener Benchmarks. Während des Trainingsprozesses wurden mehrere Checkpoints gespeichert und mithilfe des SuperGLEBer-Benchmarks analysiert, um die Lerndynamik der Modelle zu überwachen. Im Vergleich zu State-of-the-Art-Modellen auf dem SuperGLEBer-Benchmark schnitten beide LL\"aMmlein-Modelle wettbewerbsfähig ab und erreichten konstant ähnliche oder bessere Leistungen bei vergleichbarer Parametergröße. Die Ergebnisse zeigen, dass die Qualität der Modelle wie erwartet mit der Größe skaliert, aber Leistungsverbesserungen bei einigen Aufgaben frühzeitig stagnierten und somit wertvolle Erkenntnisse zur Ressourcenallokation für zukünftige Modellentwicklung bieten.
Diffusions-Transformer (DiT) haben sich als leistungsstarke generative Modelle für verschiedene Aufgaben, einschließlich Bild-, Video- und Sprachsynthese, etabliert. Der Inferenzprozess bleibt jedoch aufgrund der wiederholten Auswertung ressourcenintensiver Aufmerksamkeits- und Feedforward-Module rechenintensiv. Um dies zu lösen, stellen wir SmoothCache vor, eine modellunabhängige Inferenzbeschleunigungstechnik für DiT-Architekturen. SmoothCache nutzt die beobachtete hohe Ähnlichkeit zwischen Schichtausgaben über benachbarte Diffusions-Zeitschritte hinweg. Durch die Analyse von Schicht-für-Schicht-Repräsentationsfehlern aus einem kleinen Kalibrierungsset puffert und wiederverwendet SmoothCache adaptiv Schlüsselfunktionen während der Inferenz. Unsere Experimente zeigen, dass SmoothCache eine Beschleunigung von 8 % bis 71 % erreicht, während die Generierungsqualität über verschiedene Modalitäten hinweg beibehalten oder sogar verbessert wird. Wir zeigen die Wirksamkeit anhand von DiT-XL für die Bildgenerierung, Open-Sora für Text-zu-Video und Stable Audio Open für Text-zu-Audio und heben ihr Potenzial hervor, Echtzeitanwendungen zu ermöglichen und den Zugang zu leistungsstarken DiT-Modellen zu erweitern.
Die Retrieval-augmented Generation (RAG) hat sich als vielversprechender Ansatz zur Verbesserung der Leistung großer Sprachmodelle (LLMs) bei wissensintensiven Aufgaben wie denen aus dem medizinischen Bereich herausgestellt. Die sensible Natur des medizinischen Bereichs erfordert jedoch ein vollständig genaues und vertrauenswürdiges System. Während bestehende RAG-Benchmarks sich hauptsächlich auf die Standard-Retrieve-Answer-Einstellung konzentrieren, übersehen sie viele praktische Szenarien, die entscheidende Aspekte eines zuverlässigen medizinischen Systems messen. Dieser Artikel behebt diese Lücke, indem er einen umfassenden Bewertungsrahmen für medizinische Frage-Antwort-Systeme in einem RAG-Setting für diese Situationen bereitstellt, einschließlich der Genügsamkeit, Integration und Robustheit. Wir stellen das Medical Retrieval-Augmented Generation Benchmark (MedRGB) vor, das verschiedene ergänzende Elemente für vier medizinische QA-Datensätze bereitstellt, um die Fähigkeit von LLMs zu testen, diese spezifischen Szenarien zu bewältigen. Unter Verwendung von MedRGB führen wir umfangreiche Bewertungen sowohl von modernsten kommerziellen LLMs als auch von Open-Source-Modellen unter verschiedenen Abrufbedingungen durch. Unsere experimentellen Ergebnisse zeigen die begrenzte Fähigkeit der aktuellen Modelle auf, mit Rauschen und Fehlinformationen in den abgerufenen Dokumenten umzugehen. Wir analysieren weiterhin die Argumentationsprozesse der LLMs, um wertvolle Einblicke und zukünftige Richtungen für die Entwicklung von RAG-Systemen in diesem kritischen medizinischen Bereich zu liefern.
Implizite neuronale Repräsentationen (INRs) verwenden neuronale Netzwerke, um diskrete Daten als kontinuierliche Funktionen anzunähern. Im Kontext von Videodaten können solche Modelle genutzt werden, um die Koordinaten von Pixelpositionen zusammen mit den Zeitpunkten (oder Indizes) des Auftretens von Frames in RGB-Farbwerte umzuwandeln. Obwohl INRs eine effektive Kompression ermöglichen, sind sie für Bearbeitungszwecke ungeeignet. Eine mögliche Lösung besteht darin, ein auf 3D-Gauß-Splatting (3DGS) basierendes Modell zu verwenden, wie z.B. die Video-Gauß-Repräsentation (VGR), die in der Lage ist, Videos als Vielzahl von 3D-Gaußschen zu kodieren und für zahlreiche Videobearbeitungsvorgänge, einschließlich Bearbeitung, geeignet ist. Dennoch ist in diesem Fall die Möglichkeit zur Änderung auf einen begrenzten Satz von Grundtransformationen beschränkt. Um dieses Problem zu lösen, führen wir das Video-Gauß-Splatting (VeGaS)-Modell ein, das realistische Modifikationen von Videodaten ermöglicht. Zur Konstruktion von VeGaS schlagen wir eine neuartige Familie von gefalteten Gauß-Verteilungen vor, die entwickelt wurden, um nichtlineare Dynamiken in einem Videostream zu erfassen und aufeinanderfolgende Frames durch 2D-Gaußsche zu modellieren, die als jeweilige bedingte Verteilungen erhalten werden. Unsere Experimente zeigen, dass VeGaS in Aufgaben zur Frame-Rekonstruktion die Lösungen auf dem neuesten Stand der Technik übertrifft und realistische Modifikationen von Videodaten ermöglicht. Der Code ist verfügbar unter: https://github.com/gmum/VeGaS.
Die wachsenden Fähigkeiten großer Sprachmodelle (LLMs) haben zu ihrem Einsatz als Ersatz für menschliches Feedback zur Schulung und Bewertung anderer LLMs geführt. Diese Methoden stützen sich oft auf "Verfassungen", schriftliche Richtlinien, die ein Kritikermodell verwendet, um Feedback zu geben und Generationen zu verbessern. Wir untersuchen, wie die Wahl der Verfassung die Qualität des Feedbacks beeinflusst, indem wir vier verschiedene Verfassungen verwenden, um die patientenzentrierte Kommunikation in medizinischen Interviews zu verbessern. In paarweisen Vergleichen, die von 215 menschlichen Bewertern durchgeführt wurden, stellten wir fest, dass detaillierte Verfassungen zu besseren Ergebnissen hinsichtlich emotionaler Qualitäten führten. Keine der Verfassungen übertraf jedoch den Ausgangspunkt beim Erlernen praxisorientierter Fähigkeiten im Zusammenhang mit Informationsbeschaffung und -bereitstellung. Unsere Ergebnisse deuten darauf hin, dass zwar detaillierte Verfassungen priorisiert werden sollten, es jedoch mögliche Einschränkungen hinsichtlich der Effektivität von KI-Feedback als Belohnungssignal in bestimmten Bereichen gibt.