Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir präsentieren phi-4, ein 14-Milliarden-Parameter-Sprachmodell, das mit einem Schulungsansatz entwickelt wurde, der sich hauptsächlich auf die Datenqualität konzentriert. Im Gegensatz zu den meisten Sprachmodellen, bei denen das Vortraining hauptsächlich auf organischen Datenquellen wie Webinhalten oder Code basiert, integriert phi-4 strategisch synthetische Daten während des gesamten Schulungsprozesses. Während frühere Modelle der Phi-Familie größtenteils die Fähigkeiten eines Lehrmodells (speziell GPT-4) destillieren, übertrifft phi-4 das Lehrmodell signifikant in den Fähigkeiten zur Beantwortung von Fragen im MINT-Bereich, was darauf hindeutet, dass unsere Daten-Generierungs- und Post-Training-Techniken über die Destillation hinausgehen. Trotz minimaler Änderungen an der Architektur von phi-3 erzielt phi-4 starke Leistungen im Verhältnis zu seiner Größe - insbesondere bei auf Schlussfolgerungen ausgerichteten Benchmarks - aufgrund verbesserter Daten, Schulungspläne und Innovationen im Post-Training-Schema.
Die Schaffung von KI-Systemen, die über lange Zeiträume hinweg mit Umgebungen interagieren können, ähnlich wie die menschliche Kognition, ist ein langjähriges Forschungsziel. Die jüngsten Fortschritte in multimodalen großen Sprachmodellen (MLLMs) haben bedeutende Fortschritte im Verständnis von offenen Welten gemacht. Die Herausforderung der kontinuierlichen und gleichzeitigen Streaming-Wahrnehmung, Speicherung und Schlussfolgerung bleibt jedoch weitgehend unerforscht. Aktuelle MLLMs sind durch ihre Sequenz-zu-Sequenz-Architektur eingeschränkt, was ihre Fähigkeit zur Verarbeitung von Eingaben und gleichzeitigen Generierung von Antworten begrenzt, ähnlich wie das Unvermögen zu denken, während man wahrnimmt. Darüber hinaus ist es unpraktisch, auf lange Kontexte zur Speicherung historischer Daten zu vertrauen, da das Beibehalten aller Informationen teuer und ineffizient wird. Daher greift dieses Projekt nicht auf ein einzelnes Grundlagenmodell zurück, um alle Funktionen auszuführen, sondern lässt sich vom Konzept der Spezialisierten Generalistischen KI inspirieren und führt entwirrte Streaming-Wahrnehmungs-, Schlussfolgerungs- und Gedächtnismechanismen ein, die eine Echtzeitinteraktion mit Streaming-Video- und Audioeingaben ermöglichen. Der vorgeschlagene Rahmen InternLM-XComposer2.5-OmniLive (IXC2.5-OL) besteht aus drei Schlüsselmodulen: (1) Streaming-Wahrnehmungsmodul: Verarbeitet multimodale Informationen in Echtzeit, speichert Schlüsseldetails im Gedächtnis und löst Schlussfolgerungen als Reaktion auf Benutzeranfragen aus. (2) Multimodales Langzeitgedächtnismodul: Integriert Kurzzeit- und Langzeitgedächtnis, komprimiert Kurzzeitgedächtnisse zu Langzeitgedächtnissen für effiziente Abrufbarkeit und verbesserte Genauigkeit. (3) Schlussfolgerungsmodul: Beantwortet Anfragen und führt Schlussfolgerungsaufgaben aus, koordiniert mit den Wahrnehmungs- und Gedächtnismodulen. Dieses Projekt simuliert eine menschenähnliche Kognition und ermöglicht es multimodalen großen Sprachmodellen, kontinuierlichen und anpassungsfähigen Service im Laufe der Zeit zu bieten.
Multimodale große Sprachmodelle (MLLMs) haben in den letzten Jahren rasche Fortschritte gemacht, kämpfen jedoch weiterhin mit der niederstufigen visuellen Wahrnehmung (LLVP) – insbesondere mit der Fähigkeit, die geometrischen Details eines Bildes genau zu beschreiben. Diese Fähigkeit ist entscheidend für Anwendungen in Bereichen wie Robotik, medizinische Bildanalyse und Fertigung. In diesem Artikel stellen wir zunächst Geoperception vor, einen Benchmark, der entwickelt wurde, um die Fähigkeit eines MLLMs zu bewerten, 2D-geometrische Informationen genau aus einem Bild zu transkribieren. Unter Verwendung dieses Benchmarks zeigen wir die Grenzen führender MLLMs auf und führen dann eine umfassende empirische Studie durch, um Strategien zur Verbesserung ihrer Leistung bei geometrischen Aufgaben zu erforschen. Unsere Ergebnisse heben die Vorteile bestimmter Modellarchitekturen, Trainingsmethoden und Datenstrategien hervor, einschließlich der Verwendung hochwertiger synthetischer Daten und eines mehrstufigen Trainings mit einem Datenlehrplan. Bemerkenswert ist, dass ein Datenlehrplan es Modellen ermöglicht, anspruchsvolle geometrische Verständnisaufgaben zu erlernen, die sie nicht von Grund auf lernen können. Unter Nutzung dieser Erkenntnisse entwickeln wir Euclid, eine Modellfamilie, die speziell für eine starke niederstufige geometrische Wahrnehmung optimiert ist. Obwohl rein auf synthetischen multimodalen Daten trainiert, zeigt Euclid eine starke Verallgemeinerungsfähigkeit für neue geometrische Formen. Zum Beispiel übertrifft Euclid das beste Closed-Source-Modell, Gemini-1.5-Pro, bei bestimmten Geoperception-Benchmark-Aufgaben um bis zu 58,56 % und im Durchschnitt um 10,65 % bei allen Aufgaben.
Mit der Weiterentwicklung von Multi-modalen Large Language Models (MLLMs) ist es entscheidend, über die Fähigkeiten in einem einzelnen Bereich hinauszugehen, um den Anforderungen nach vielseitigeren und effizienteren KI-Systemen gerecht zu werden. Bisher haben jedoch frühere Omni-Modelle unzureichend die Sprache erforscht und deren Integration in die Multi-Modalität vernachlässigt. Wir stellen Lyra vor, ein effizientes MLLM, das die multimodalen Fähigkeiten verbessert, einschließlich fortgeschrittener Sprachverständnis, Klangverarbeitung, Effizienz in der Kreuzmodalität und nahtloser Sprachinteraktion. Um Effizienz und sprachzentrierte Fähigkeiten zu erreichen, setzt Lyra drei Strategien ein: (1) Nutzung bestehender Open-Source großer Modelle und eines vorgeschlagenen Multi-Modalitäts-LoRA zur Reduzierung der Schulungskosten und Datenanforderungen; (2) Verwendung eines latenten Multi-Modalitäts-Regularisierers und Extraktors zur Stärkung der Beziehung zwischen Sprache und anderen Modalitäten, um die Leistung des Modells zu verbessern; und (3) Erstellung eines hochwertigen, umfangreichen Datensatzes, der 1,5 Millionen Multi-Modale (Sprache, Vision, Audio) Datensamples und 12.000 lange Sprachsamples umfasst, um Lyra in die Lage zu versetzen, komplexe lange Spracheingaben zu verarbeiten und eine robustere Omni-Kognition zu erreichen. Im Vergleich zu anderen Omni-Methoden erzielt Lyra Spitzenleistungen in verschiedenen Vision-Sprache-, Vision-Sprach- und Sprache-Sprache-Benchmarks, während gleichzeitig weniger Rechenressourcen und Schulungsdaten verwendet werden.
Multimodale generative Modelle erfordern einen einheitlichen Ansatz, um sowohl diskrete Daten (z. B. Text und Code) als auch kontinuierliche Daten (z. B. Bild, Audio, Video) zu verarbeiten. In dieser Arbeit schlagen wir Latent Language Modeling (LatentLM) vor, das kontinuierliche und diskrete Daten nahtlos mithilfe kausaler Transformer integriert. Konkret verwenden wir einen Variationalen Autoencoder (VAE), um kontinuierliche Daten als latente Vektoren darzustellen, und führen eine Next-Token-Diffusion für die autoregressive Generierung dieser Vektoren ein. Darüber hinaus entwickeln wir Sigma-VAE, um den Herausforderungen des Varianzkollapses zu begegnen, was für die autoregressive Modellierung entscheidend ist. Umfangreiche Experimente zeigen die Wirksamkeit von LatentLM über verschiedene Modalitäten hinweg. Bei der Bildgenerierung übertrifft LatentLM sowohl in Leistung als auch Skalierbarkeit die Diffusion Transformers. Wenn es in multimodale große Sprachmodelle integriert wird, bietet LatentLM eine universelle Schnittstelle, die multimodale Generierung und Verständnis vereint. Experimentelle Ergebnisse zeigen, dass LatentLM im Vergleich zu Transfusion und vektorquantisierten Modellen bei der Skalierung des Trainings mit Token eine günstige Leistung erzielt. Bei der Text-zu-Sprache-Synthese übertrifft LatentLM das State-of-the-Art-Modell VALL-E 2 in Sprecherähnlichkeit und Robustheit und erfordert dabei 10-mal weniger Decodierungsschritte. Die Ergebnisse etablieren LatentLM als einen äußerst effektiven und skalierbaren Ansatz zur Weiterentwicklung großer multimodaler Modelle.
Grafische Benutzeroberfläche (GUI)-Agenten haben ein großes Potenzial zur Automatisierung komplexer Aufgaben in verschiedenen digitalen Umgebungen, von Webanwendungen bis hin zu Desktop-Software. Die Entwicklung solcher Agenten wird jedoch durch den Mangel an hochwertigen, mehrstufigen Trajektoriendaten behindert, die für ein effektives Training erforderlich sind. Bestehende Ansätze stützen sich auf teure und arbeitsintensive menschliche Annotationen, was sie auf Dauer untragbar macht. Um diese Herausforderung anzugehen, schlagen wir AgentTrek vor, eine skalierbare Datensynthesepipeline, die hochwertige GUI-Agententrajektorien generiert, indem sie Web-Tutorials nutzt. Unsere Methode sammelt automatisch tutorialähnliche Texte aus dem Internet, wandelt sie in Aufgabenziele mit schrittweisen Anweisungen um und setzt einen visuell-sprachlichen Modellagenten ein, um ihre Ausführung in einer realen digitalen Umgebung zu simulieren. Ein auf VLM basierender Evaluierer gewährleistet die Korrektheit der generierten Trajektorien. Wir zeigen, dass das Training von GUI-Agenten mit diesen synthetisierten Trajektorien ihre Verankerungs- und Planungsleistung im Vergleich zu den aktuellen Modellen signifikant verbessert. Darüber hinaus ist unser Ansatz im Vergleich zu traditionellen menschlichen Annotationsmethoden kosteneffizienter. Diese Arbeit unterstreicht das Potenzial von geführtem Wiederholen mit Web-Tutorials als eine tragfähige Strategie für das Training von GUI-Agenten im großen Maßstab und ebnet den Weg für leistungsfähigere und autonomere digitale Agenten.
Bestehende Text-zu-Bild (T2I)-Diffusionsmodelle stoßen auf mehrere Einschränkungen, darunter große Modellgrößen, langsame Laufzeiten und die Generierung von minderwertigen Bildern auf mobilen Geräten. Dieser Artikel zielt darauf ab, all diese Herausforderungen anzugehen, indem ein äußerst kleines und schnelles T2I-Modell entwickelt wird, das hochauflösende und qualitativ hochwertige Bilder auf mobilen Plattformen generiert. Wir schlagen mehrere Techniken vor, um dieses Ziel zu erreichen. Zunächst untersuchen wir systematisch die Designentscheidungen der Netzwerkarchitektur, um Modellparameter und Latenz zu reduzieren, während wir eine hochwertige Generierung sicherstellen. Zweitens setzen wir zur weiteren Verbesserung der Generierungsqualität eine Wissensdestillation zwischen verschiedenen Architekturen von einem viel größeren Modell ein und verwenden einen mehrstufigen Ansatz, um das Training unseres Modells von Grund auf zu leiten. Drittens ermöglichen wir eine Generierung in wenigen Schritten, indem wir adversielle Anleitung mit Wissensdestillation integrieren. Erstmals zeigt unser Modell SnapGen die Generierung von 1024x1024 px Bildern auf einem mobilen Gerät in etwa 1,4 Sekunden. Auf ImageNet-1K erreicht unser Modell mit nur 372M Parametern einen FID von 2,06 für die Generierung von 256x256 px Bildern. In T2I-Benchmarks (z. B. GenEval und DPG-Bench) übertrifft unser Modell mit lediglich 379M Parametern große Modelle mit Milliarden von Parametern bei einer deutlich geringeren Größe (z. B. 7-mal kleiner als SDXL, 14-mal kleiner als IF-XL).
Bedeutende Fortschritte bei der Personalisierung von Diffusionsmodellen wurden beobachtet. Herkömmliche abstimmungsfreie Methoden kodieren in der Regel mehrere Referenzbilder, indem sie ihre Bild-Einbettungen als Injektionsbedingung mitteln, aber eine solche bildunabhängige Operation kann keine Interaktion zwischen Bildern durchführen, um konsistente visuelle Elemente innerhalb mehrerer Referenzen zu erfassen. Obwohl die abstimmungsbasierte Methode der Niedrig-Rang-Anpassung (LoRA) konsistente Elemente innerhalb mehrerer Bilder effektiv durch den Schulungsprozess extrahieren kann, erfordert sie spezifisches Feintuning für jede unterschiedliche Bildgruppe. Dieses Papier stellt EasyRef vor, eine neuartige Plug-and-Play-Anpassungsmethode, die es Diffusionsmodellen ermöglicht, auf mehreren Referenzbildern und dem Textprompt basiert zu werden. Um konsistente visuelle Elemente innerhalb mehrerer Bilder effektiv zu nutzen, nutzen wir die multimodalen Fähigkeiten des multimodalen großen Sprachmodells (MLLM), um konsistente visuelle Elemente basierend auf der Anweisung zu erfassen. Darüber hinaus kann durch das Einbringen der Repräsentationen des MLLM in den Diffusionsprozess durch Adapter leicht auf unerforschte Bereiche verallgemeinert werden, um konsistente visuelle Elemente in unbekannten Daten abzubauen. Um die Rechenkosten zu reduzieren und die Erhaltung feiner Details zu verbessern, führen wir eine effiziente Referenzaggregationsstrategie und ein progressives Schulungsschema ein. Schließlich stellen wir MRBench vor, einen neuen Benchmark für die Generierung von Multi-Referenzbildern. Experimentelle Ergebnisse zeigen, dass EasyRef sowohl abstimmungsfreie Methoden wie IP-Adapter als auch abstimmungsbasierte Methoden wie LoRA übertrifft und eine überlegene ästhetische Qualität und robuste Null-Schuss-Verallgemeinerung über verschiedene Bereiche hinweg erreicht.
Angesichts des raschen Fortschritts der generativen KI besteht ein dringender Bedarf, die zahlreichen verfügbaren Modelle und Konfigurationen systematisch zu vergleichen und auszuwählen. Das Ausmaß und die Vielseitigkeit solcher Bewertungen machen den Einsatz von LLM-basierten Richtern zu einer überzeugenden Lösung für diese Herausforderung. Entscheidend ist, dass dieser Ansatz zunächst die Qualität des LLM-Richters selbst validieren muss. Frühere Arbeiten haben sich auf die instanzbasierte Bewertung von LLM-Richtern konzentriert, bei der ein Richter über eine Reihe von Antworten oder Antwortpaaren bewertet wird, ohne auf ihre Ursprungssysteme einzugehen. Wir sind der Ansicht, dass diese Einstellung wichtige Faktoren, die die Rangfolge auf Systemebene beeinflussen, wie die positive oder negative Voreingenommenheit eines Richters gegenüber bestimmten Systemen, außer Acht lässt. Um diese Lücke zu schließen, führen wir die erste groß angelegte Studie von LLM-Richtern als Systemrangierer durch. Systembewertungen werden generiert, indem Bewertungspunkte über mehrere Systemausgaben aggregiert werden, und die Qualität des Richters wird durch den Vergleich der resultierenden Systemrangfolge mit einer auf Menschen basierenden Rangfolge bewertet. Über die allgemeine Richterbewertung hinaus liefert unsere Analyse eine detaillierte Charakterisierung des Richterverhaltens, einschließlich ihrer Entschlussfreudigkeit und Voreingenommenheit.
Die Wiederherstellung der Geometrie und Materialien von Objekten aus einem einzigen Bild ist aufgrund seiner unzureichenden Bedingungen eine Herausforderung. In diesem Artikel präsentieren wir Neural LightRig, ein neuartiges Framework, das die intrinsische Schätzung durch die Nutzung von zusätzlichen Multi-Beleuchtungsbedingungen aus 2D-Diffusionspriors verbessert. Konkret nutzen wir zunächst Beleuchtungspriors aus groß angelegten Diffusionsmodellen, um unser Multi-Licht-Diffusionsmodell auf einem synthetischen Beleuchtungsdatensatz mit speziellen Designs zu erstellen. Dieses Diffusionsmodell erzeugt mehrere konsistente Bilder, die jeweils von Punktlichtquellen in verschiedenen Richtungen beleuchtet werden. Durch die Verwendung dieser unterschiedlichen Beleuchtungsbilder zur Reduzierung der Schätzungunsicherheit trainieren wir ein großes G-Buffer-Modell mit einem U-Net-Backbone, um Oberflächennormalen und Materialien genau vorherzusagen. Umfangreiche Experimente bestätigen, dass unser Ansatz signifikant bessere Leistungen als die modernsten Methoden erbringt und eine präzise Schätzung der Oberflächennormalen und PBR-Materialien mit lebendigen Beleuchtungseffekten ermöglicht. Der Code und der Datensatz sind auf unserer Projektseite unter https://projects.zxhezexin.com/neural-lightrig verfügbar.
Die Approximation von Partiellen Differentialgleichungen (PDEs) mithilfe neuronaler Netzwerke hat bedeutende Fortschritte durch Physikinformierte Neuronale Netzwerke (PINNs) erfahren. Trotz ihres einfachen Optimierungsrahmens und der Flexibilität bei der Implementierung verschiedener PDEs leiden PINNs oft unter begrenzter Genauigkeit aufgrund des spektralen Bias von Mehrschichtperzeptronen (MLPs), die Schwierigkeiten haben, hochfrequente und nichtlineare Komponenten effektiv zu erlernen. Kürzlich wurden parametrische Gitterdarstellungen in Kombination mit neuronalen Netzwerken als vielversprechender Ansatz untersucht, um die induktiven Voreingenommenheiten von neuronalen Netzwerken zu eliminieren. Sie erfordern jedoch in der Regel Gitter mit sehr hoher Auflösung und eine große Anzahl von Kollokationspunkten, um hohe Genauigkeit zu erreichen und Überanpassungsprobleme zu vermeiden. Darüber hinaus beschränken die festen Positionen der Gitterparameter ihre Flexibilität, was es schwierig macht, komplexe PDEs genau zu approximieren. Um diese Einschränkungen zu überwinden, schlagen wir Physikinformierte Gaussians (PIGs) vor, die Merkmalseinbettungen mit Gauß-Funktionen und einem leichtgewichtigen neuronalen Netzwerk kombinieren. Unser Ansatz verwendet trainierbare Parameter für den Mittelwert und die Varianz jedes Gaußschen, was eine dynamische Anpassung ihrer Positionen und Formen während des Trainings ermöglicht. Diese Anpassungsfähigkeit ermöglicht es unserem Modell, PDE-Lösungen optimal zu approximieren, im Gegensatz zu Modellen mit festen Parameterpositionen. Darüber hinaus behält der vorgeschlagene Ansatz den gleichen Optimierungsrahmen bei, der in PINNs verwendet wird, was es uns ermöglicht, von ihren ausgezeichneten Eigenschaften zu profitieren. Experimentelle Ergebnisse zeigen die wettbewerbsfähige Leistung unseres Modells bei verschiedenen PDEs und demonstrieren sein Potenzial als robustes Werkzeug zur Lösung komplexer PDEs. Unsere Projektseite ist unter https://namgyukang.github.io/Physics-Informed-Gaussians/ verfügbar.
Moderne Sensoren erzeugen zunehmend reichhaltige Datenströme hoher Auflösung. Aufgrund von Ressourcenbeschränkungen verwerfen maschinelle Lernsysteme die überwiegende Mehrheit dieser Informationen durch eine Reduzierung der Auflösung. Das Lernen im komprimierten Bereich ermöglicht es Modellen, auf kompakten latenten Repräsentationen zu arbeiten, was eine höhere effektive Auflösung für das gleiche Budget ermöglicht. Allerdings sind bestehende Kompressionssysteme nicht ideal für das komprimierte Lernen. Lineare Transformationscodierung und End-to-End-gelernte Kompressionssysteme reduzieren die Bitrate, reduzieren jedoch nicht einheitlich die Dimensionalität; daher erhöhen sie die Effizienz nicht sinnvoll. Generative Autoencoder reduzieren die Dimensionalität, aber ihre adversariellen oder perzeptuellen Ziele führen zu erheblichem Informationsverlust. Um diese Einschränkungen zu überwinden, stellen wir WaLLoC (Wavelet Learned Lossy Compression) vor, eine neuronale Codec-Architektur, die lineare Transformationscodierung mit nichtlinearen dimensionsreduzierenden Autoencodern kombiniert. WaLLoC platziert einen flachen, asymmetrischen Autoencoder und einen Entropie-Flaschenhals zwischen einer invertierbaren Wavelet-Paket-Transformation. Über mehrere wichtige Metriken hinweg übertrifft WaLLoC die Autoencoder, die in modernsten latenten Diffusionsmodellen verwendet werden. WaLLoC erfordert keine perzeptuellen oder adversariellen Verluste, um hochfrequente Details darzustellen, was die Kompatibilität mit Modalitäten jenseits von RGB-Bildern und Stereo-Audio ermöglicht. Der Encoder von WaLLoC besteht fast ausschließlich aus linearen Operationen, was ihn außergewöhnlich effizient macht und für mobile Berechnungen, Fernerkundung und das direkte Lernen aus komprimierten Daten geeignet ist. Wir zeigen die Fähigkeit von WaLLoC für das Lernen im komprimierten Bereich in mehreren Aufgaben, einschließlich Bildklassifizierung, Kolorierung, Dokumentenverständnis und Musikquellentrennung. Unser Code, Experimente und vorab trainierte Audio- und Bildcodecs sind verfügbar unter https://ut-sysml.org/walloc.
Diese Studie präsentiert eine neue Bild-Super-Resolution (SR)-Technik, die auf Diffusionsinversion basiert und darauf abzielt, die reichen Bildprioritäten, die in großen vorab trainierten Diffusionsmodellen enthalten sind, zu nutzen, um die SR-Performance zu verbessern. Wir entwerfen eine Strategie zur teilweisen Rauschvorhersage, um einen Zwischenzustand des Diffusionsmodells zu konstruieren, der als Ausgangspunkt für die Stichprobenziehung dient. Zentral für unseren Ansatz ist ein tiefgreifender Rauschvorhersager, um die optimalen Rauschkarten für den Vorwärtsdiffusionsprozess zu schätzen. Sobald trainiert, kann dieser Rauschvorhersager verwendet werden, um den Stichprozess teilweise entlang der Diffusionstrajectorie zu initialisieren und das gewünschte hochauflösende Ergebnis zu erzeugen. Im Vergleich zu bestehenden Ansätzen bietet unsere Methode einen flexiblen und effizienten Stichprozess, der eine beliebige Anzahl von Stichprozessschritten unterstützt, von eins bis fünf. Selbst mit einem einzigen Stichprozessschritt zeigt unsere Methode eine überlegene oder vergleichbare Leistung im Vergleich zu aktuellen State-of-the-Art-Ansätzen. Der Code und das Modell sind öffentlich verfügbar unter https://github.com/zsyOAOA/InvSR.
Mit der zunehmenden Verbreitung und den Fähigkeiten von Bildsprachmodellen (VLMs) entsteht der Bedarf an Benchmarks, die authentische Benutzer-VLM-Interaktionen erfassen. Als Reaktion darauf haben wir VisionArena erstellt, ein Datensatz von 230.000 realen Gesprächen zwischen Benutzern und VLMs. Gesammelt von Chatbot Arena - einer Open-Source-Plattform, auf der Benutzer mit VLMs interagieren und Präferenzstimmen abgeben - umfasst VisionArena 73.000 einzigartige Benutzer, 45 VLMs und 138 Sprachen. Unser Datensatz enthält drei Teilmengen: VisionArena-Chat, 200.000 einzelne und mehrere Gespräche zwischen einem Benutzer und einem VLM; VisionArena-Battle, 30.000 Gespräche, die zwei anonyme VLMs miteinander vergleichen, mit Präferenzstimmen der Benutzer; und VisionArena-Bench, ein automatischer Benchmark von 500 verschiedenen Benutzeranfragen, die die Live-Chatbot-Arena-Modellrankings effizient approximieren. Darüber hinaus heben wir die Arten von Fragen hervor, die von Benutzern gestellt werden, den Einfluss des Antwortstils auf die Präferenz und Bereiche, in denen Modelle oft scheitern. Wir stellen fest, dass offene Aufgaben wie Bildunterschriften und Humor stark vom Stil abhängen und aktuelle VLMs Schwierigkeiten mit räumlichem Denken und Planungsaufgaben haben. Schließlich zeigen wir, dass das Feintuning des gleichen Basismodells auf VisionArena-Chat Llava-Instruct-158K übertrifft, mit einem Gewinn von 17 Punkten bei MMMU und einem Gewinn von 46 Punkten beim WildVision-Benchmark. Datensatz unter https://huggingface.co/lmarena-ai.
Die Standardpraxis zur Entwicklung zeitgenössischer MLLMs besteht darin, Merkmale von Vision-Encodern in den LLM einzuspeisen und mit natürlicher Sprachüberwachung zu trainieren. In dieser Arbeit postulieren wir eine übersehene Möglichkeit zur Optimierung der Zwischenrepräsentationen des LLM durch eine Vision-Perspektive (Objektiv), d. h., ausschließlich natürliche Sprachüberwachung ist für die visuelle Verständnisfähigkeit des MLLM suboptimal. Zu diesem Zweck schlagen wir OLA-VLM vor, den ersten Ansatz zur Destillation von Wissen in die versteckten Repräsentationen des LLM aus einer Reihe von Ziel-Visuellen Repräsentationen. Erstens formulieren wir das Ziel während der Vorphase in MLLMs als eine gekoppelte Optimierung der prädiktiven visuellen Einbettung und der nächsten Text-Token-Vorhersage. Zweitens untersuchen wir MLLMs, die ausschließlich mit natürlicher Sprachüberwachung trainiert wurden, und identifizieren eine positive Korrelation zwischen der Qualität der visuellen Repräsentationen innerhalb dieser Modelle und ihrer Leistung nachgeschaltet. Darüber hinaus beobachten wir bei der Untersuchung unseres OLA-VLM eine verbesserte Repräsentationsqualität aufgrund der Einbettungsoptimierung. Drittens zeigen wir, dass unser OLA-VLM die Einzel- und Mehrfach-Encoder-Baselines übertrifft und die Überlegenheit unseres Ansatzes gegenüber dem expliziten Einspeisen der entsprechenden Merkmale in den LLM beweist. Insbesondere steigert OLA-VLM die Leistung im Durchschnitt um bis zu 2,5% auf verschiedenen Benchmarks, mit einer bemerkenswerten Verbesserung von 8,7% bei der Tiefenaufgabe in CV-Bench. Unser Code ist unter https://github.com/SHI-Labs/OLA-VLM öffentlich zugänglich gemacht.
Dieses Papier stellt RuleArena vor, einen neuen und anspruchsvollen Benchmark, der entwickelt wurde, um die Fähigkeit großer Sprachmodelle (LLMs) zu bewerten, komplexe, realweltliche Regeln im Denken zu befolgen. RuleArena umfasst drei praktische Bereiche - Fluggepäckgebühren, NBA-Transaktionen und Steuervorschriften - und bewertet die Fähigkeit von LLMs, komplexe natürlichsprachliche Anweisungen zu verarbeiten, die ein Verständnis des langen Kontexts, logisches Denken und genaue mathematische Berechnungen erfordern. Zwei wesentliche Merkmale unterscheiden RuleArena von traditionellen regelbasierten Denk-Benchmarks: (1) es geht über herkömmliche Darstellungen der Prädikatenlogik hinaus und (2) es ist in authentischen, praktischen Szenarien verankert, was Einblicke in die Eignung und Zuverlässigkeit von LLMs für realweltliche Anwendungen bietet. Unsere Ergebnisse zeigen mehrere bemerkenswerte Einschränkungen bei LLMs auf: (1) sie haben Schwierigkeiten, die geeigneten Regeln zu identifizieren und anzuwenden, da sie häufig durch ähnliche, aber unterschiedliche Vorschriften verwirrt werden, (2) sie können keine konsistenten, genauen mathematischen Berechnungen durchführen, selbst wenn sie die relevanten Regeln korrekt identifizieren, und (3) im Allgemeinen schneiden sie in dem Benchmark schlecht ab. Diese Ergebnisse verdeutlichen bedeutende Herausforderungen bei der Weiterentwicklung der regelgeleiteten Denkfähigkeiten von LLMs in realen Anwendungen.
Die Verwendung urheberrechtlich geschützter Materialien zur Schulung generativer Sprachmodelle wirft wichtige rechtliche und ethische Fragen auf. Dieser Artikel präsentiert einen Rahmen und die Ergebnisse der empirischen Bewertung des Einflusses urheberrechtlich geschützter Materialien auf die Leistung großer Sprachmodelle für Norwegisch. Wir stellten fest, dass sowohl Bücher als auch Zeitungen einen positiven Beitrag leisten, wenn die Modelle anhand einer vielfältigen Reihe norwegischer Benchmarks bewertet werden, während Belletristik möglicherweise zu einer verringerten Leistung führt. Unsere Experimente könnten zur Schaffung eines Entschädigungssystems für Autoren beitragen, deren Werke zur KI-Entwicklung beitragen.
Die Wortbedeutungsdifferenzierung (WSD) ist die Aufgabe, ein Wort in einem gegebenen Kontext mit seiner am besten geeigneten Bedeutung aus einer Reihe möglicher Kandidaten zu verknüpfen. Obwohl die Aufgabe in letzter Zeit ein erneuertes Interesse erfahren hat und Systeme Leistungen erzielen, die über die geschätzte Übereinstimmung zwischen Annotatoren hinausgehen, hat sie zum Zeitpunkt der Abfassung immer noch Schwierigkeiten, Anwendungen in der Praxis zu finden. Wir argumentieren, dass einer der Gründe dafür die Schwierigkeit ist, WSD auf einfachen Text anzuwenden. Tatsächlich arbeiten Modelle in der Standardformulierung unter der Annahme, dass a) alle zu differenzierenden Bereiche bereits identifiziert wurden und b) alle möglichen Kandidatenbedeutungen jedes Bereichs angegeben sind, was beides Anforderungen sind, die keineswegs trivial sind. In dieser Arbeit stellen wir eine neue Aufgabe namens Wortbedeutungsverknüpfung (WSL) vor, bei der Systeme anhand eines Eingabetextes und eines Referenzbedeutungsinventars sowohl identifizieren müssen, welche Bereiche zu differenzieren sind, als auch diese dann mit ihrer am besten geeigneten Bedeutung verknüpfen müssen. Wir präsentieren eine auf Transformer basierende Architektur für die Aufgabe und evaluieren gründlich sowohl deren Leistung als auch die von modernsten WSD-Systemen, die auf WSL skaliert sind, wobei wir die Annahmen von WSD iterativ lockern. Wir hoffen, dass unsere Arbeit die einfachere Integration lexikalischer Semantik in nachgelagerte Anwendungen fördern wird.
Normalisierende Flüsse (NFs) sind wahrscheinlichkeitsbasierte Modelle für kontinuierliche Eingaben. Sie haben vielversprechende Ergebnisse sowohl bei der Dichteschätzung als auch bei der generativen Modellierung gezeigt, wurden jedoch in den letzten Jahren relativ wenig beachtet. In dieser Arbeit zeigen wir, dass NFs leistungsstärker sind als bisher angenommen. Wir stellen TarFlow vor: eine einfache und skalierbare Architektur, die hochleistungsfähige NF-Modelle ermöglicht. TarFlow kann als eine auf dem Transformer basierende Variante von Masked Autoregressive Flows (MAFs) betrachtet werden: Es besteht aus einem Stapel von autoregressiven Transformer-Blöcken auf Bildausschnitten, wobei die Autoregressionsrichtung zwischen den Schichten abwechselt. TarFlow ist einfach end-to-end zu trainieren und in der Lage, Pixel direkt zu modellieren und zu generieren. Wir schlagen auch drei Schlüsseltechniken vor, um die Qualität der Stichproben zu verbessern: Gauss'sche Rauschaugmentierung während des Trainings, ein nach dem Training durchgeführtes Denoising-Verfahren und eine effektive Leitmethode für sowohl klassenbedingte als auch bedingungslose Einstellungen. Durch die Kombination dieser Techniken erzielt TarFlow neue state-of-the-art Ergebnisse bei der Wahrscheinlichkeitsschätzung für Bilder, schlägt die bisher besten Methoden deutlich und generiert Stichproben mit Qualität und Vielfalt, die mit Diffusionsmodellen vergleichbar sind, erstmals mit einem eigenständigen NF-Modell. Wir stellen unseren Code unter https://github.com/apple/ml-tarflow zur Verfügung.
In jüngster Zeit haben Fortschritte in der Anpassung von Text zu Bildern die hochwertige, kontextreiche Generierung personalisierter Bilder ermöglicht, wodurch spezifische Konzepte in verschiedenen Szenarien erscheinen können. Allerdings haben aktuelle Methoden Schwierigkeiten, mehrere personalisierte Modelle zu kombinieren, was häufig zu Attributverflechtungen führt oder separate Schulungen erfordert, um die Konzeptunterscheidung zu bewahren. Wir präsentieren LoRACLR, einen neuartigen Ansatz für die Generierung von Multi-Konzept-Bildern, der mehrere LoRA-Modelle, die jeweils für ein unterschiedliches Konzept feinabgestimmt sind, in ein einziges, vereinheitlichtes Modell fusioniert, ohne zusätzliches individuelles Feintuning. LoRACLR verwendet ein kontrastives Ziel, um die Gewichtsräume dieser Modelle auszurichten und zu fusionieren, um Kompatibilität sicherzustellen und Interferenzen zu minimieren. Durch die Durchsetzung unterschiedlicher, aber zusammenhängender Repräsentationen für jedes Konzept ermöglicht LoRACLR eine effiziente, skalierbare Modellkomposition für hochwertige, Multi-Konzept-Bildsynthese. Unsere Ergebnisse heben die Wirksamkeit von LoRACLR bei der präzisen Fusion mehrerer Konzepte hervor und erweitern die Fähigkeiten der personalisierten Bildgenerierung.
Bestehende Sparse-View-Rekonstruktionsmodelle sind stark auf genaue bekannte Kamerapositionen angewiesen. Die Ableitung von Kameraextrinsiken und Intrinsiken aus Sparse-View-Bildern stellt jedoch erhebliche Herausforderungen dar. In dieser Arbeit präsentieren wir FreeSplatter, ein hoch skalierbares, feedforward Rekonstruktions-Framework, das in der Lage ist, hochwertige 3D-Gaußsche aus unkalibrierten Sparse-View-Bildern zu generieren und deren Kameraparameter in nur wenigen Sekunden wiederherzustellen. FreeSplatter basiert auf einer schlanken Transformer-Architektur, die aus aufeinanderfolgenden Self-Attention-Blöcken besteht, die den Informationsaustausch zwischen Multi-View-Bildtokens erleichtern und sie in pixelweise 3D-Gaußsche Primitive decodieren. Die vorhergesagten Gaußschen Primitive sind in einem vereinheitlichten Bezugssystem platziert, was eine hochwertige 3D-Modellierung und eine sofortige Kameraparameterschätzung mithilfe handelsüblicher Solver ermöglicht. Um sowohl objektorientierte als auch szenenbasierte Rekonstruktionen zu ermöglichen, trainieren wir zwei Modellvarianten von FreeSplatter auf umfangreichen Datensätzen. In beiden Szenarien übertrifft FreeSplatter die State-of-the-Art-Baselines hinsichtlich Rekonstruktionsqualität und Pose-Schätzungsgenauigkeit. Darüber hinaus zeigen wir das Potenzial von FreeSplatter zur Steigerung der Produktivität von nachgelagerten Anwendungen, wie der Text-/Bild-zu-3D-Inhaltskreation.
Die kontrollierbare Animation von menschlichen Bildern zielt darauf ab, Videos aus Referenzbildern mithilfe von Steuervideos zu generieren. Aufgrund der begrenzten Steuersignale, die durch spärliche Anleitung (z. B. Skelett-Posen) bereitgestellt werden, haben aktuelle Arbeiten versucht, zusätzliche dichte Bedingungen (z. B. Tiefenkarte) einzuführen, um eine Bewegungsausrichtung sicherzustellen. Eine solch strenge dichte Anleitung beeinträchtigt jedoch die Qualität des generierten Videos, wenn sich die Körperform des Referenzcharakters signifikant von der des Steuervideos unterscheidet. In diesem Papier stellen wir DisPose vor, um allgemeinere und effektivere Steuersignale ohne zusätzliche dichte Eingabe zu extrahieren, die die spärliche Skelett-Pose in der Animation von menschlichen Bildern in Bewegungsfeldanleitung und Schlüsselpunkt-Korrespondenz aufteilen. Speziell generieren wir ein dichtes Bewegungsfeld aus einem spärlichen Bewegungsfeld und dem Referenzbild, das eine dichte Anleitung auf Regionsebene bietet, während die Verallgemeinerung der spärlichen Posensteuerung beibehalten wird. Wir extrahieren auch Diffusionsmerkmale, die den Posen-Schlüsselpunkten im Referenzbild entsprechen, und übertragen dann diese Punktfunktionen auf die Zielpose, um unterschiedliche Identitätsinformationen bereitzustellen. Um nahtlos in bestehende Modelle zu integrieren, schlagen wir ein Plug-and-Play-Hybrid-ControlNet vor, das die Qualität und Konsistenz der generierten Videos verbessert, während die vorhandenen Modellparameter eingefroren werden. Umfangreiche qualitative und quantitative Experimente zeigen die Überlegenheit von DisPose im Vergleich zu aktuellen Methoden auf. Code: https://github.com/lihxxx/DisPose.
Traditionelle feste Testsets reichen nicht aus, um die offenen Fähigkeiten von Grundlagenmodellen zu bewerten. Um dies zu lösen, schlagen wir ONEBench (OpeN-Ended Benchmarking) vor, ein neues Testparadigma, das einzelne Evaluierungsdatensätze in einen vereinheitlichten, ständig wachsenden Stichprobenpool integriert. ONEBench ermöglicht es Benutzern, benutzerdefinierte, offene Evaluierungsbenchmarks aus diesem Pool zu generieren, die spezifischen interessierenden Fähigkeiten entsprechen. Durch die Aggregation von Stichproben über Testsets hinweg ermöglicht ONEBench die Bewertung vielfältiger Fähigkeiten, die über die in den ursprünglichen Testsets abgedeckten hinausgehen, und gleichzeitig die Reduzierung von Overfitting und Datensatz-Bias. Am wichtigsten ist, dass es die Modellbewertung als kollektiven Prozess des Auswählens und Aggregierens von Stichproben-Ebene-Tests darstellt. Der Übergang von aufgabenspezifischen Benchmarks zu ONEBench bringt zwei Herausforderungen mit sich: (1) Heterogenität und (2) Unvollständigkeit. Heterogenität bezieht sich auf die Aggregation über verschiedene Metriken, während Unvollständigkeit das Vergleichen von Modellen beschreibt, die auf unterschiedlichen Datensubsets bewertet wurden. Um diesen Herausforderungen zu begegnen, erforschen wir Algorithmen, um spärliche Messungen in zuverlässige Modellbewertungen zu aggregieren. Unser Aggregationsalgorithmus gewährleistet Identifizierbarkeit (asymptotisch die Wiederherstellung von Ground-Truth-Bewertungen) und schnelle Konvergenz, was eine genaue Modell-Rangliste mit weniger Daten ermöglicht. Auf homogenen Datensätzen zeigen wir, dass unser Aggregationsalgorithmus Ranglisten liefert, die stark mit denen übereinstimmen, die durch Durchschnittsbewertungen erstellt wurden. Wir zeigen auch die Robustheit gegenüber ~95% fehlender Messungen, wodurch die Evaluierungskosten um bis zu 20x reduziert werden, bei nur geringfügigen oder keinen Änderungen in den Modell-Rankings. Wir stellen ONEBench-LLM für Sprachmodelle und ONEBench-LMM für Bild-Sprache-Modelle vor, die Bewertungen über diese Domänen hinweg vereinheitlichen. Insgesamt präsentieren wir eine Technik für die offene Bewertung, die unvollständige, heterogene Stichproben-Ebene-Messungen aggregieren kann, um kontinuierlich einen Benchmark neben den sich schnell entwickelnden Grundlagenmodellen wachsen zu lassen.
Das akademische Feld des lerngesteuerten visuellen Navigationsunterrichts kann im Allgemeinen in die Kategorien hochrangige kategoriespezifische Suche und sprachgesteuerte Navigation auf niedrigem Niveau unterteilt werden, abhängig von der Feinheit der Sprachanweisungen, wobei Ersteres den Erkundungsprozess betont, während Letzteres sich auf das Befolgen detaillierter textueller Befehle konzentriert. Trotz der unterschiedlichen Schwerpunkte dieser Aufgaben bleiben die zugrunde liegenden Anforderungen der Interpretation von Anweisungen, des Verstehens der Umgebung und des Ableitens von Handlungsentscheidungen konsistent. Dieser Artikel konsolidiert verschiedene Navigationsaufgaben in einen einheitlichen und generischen Rahmen - wir untersuchen die Kernschwierigkeiten beim Teilen von generellem Wissen und der Nutzung aufgabenspezifischer Fähigkeiten beim Lernen von Navigation und schlagen ein neuartiges State-Adaptive Mixture of Experts (SAME)-Modell vor, das es einem Agenten effektiv ermöglicht, Entscheidungen basierend auf Sprache unterschiedlicher Feinheit und dynamischen Beobachtungen abzuleiten. Mit Hilfe von SAME präsentieren wir einen vielseitigen Agenten, der in der Lage ist, gleichzeitig sieben Navigationsaufgaben zu bewältigen, und der leistungsstärker ist oder eine sehr vergleichbare Leistung im Vergleich zu aufgabenspezifischen Agenten erzielt.
Wir behandeln das Problem der Schätzung des Blickziels, das darauf abzielt, vorherzusagen, wohin eine Person in einer Szene schaut. Die Vorhersage des Blickziels einer Person erfordert Überlegungen sowohl zum Erscheinungsbild der Person als auch zum Inhalt der Szene. Frühere Arbeiten haben zunehmend komplexe, handgefertigte Pipelines für die Schätzung des Blickziels entwickelt, die sorgfältig Merkmale aus separaten Szenencodierern, Kopfcodierern und Hilfsmodellen für Signale wie Tiefe und Pose fusionieren. Angespornt vom Erfolg allgemeiner Merkmalsextraktoren bei einer Vielzahl von visuellen Aufgaben schlagen wir Gaze-LLE vor, ein neuartiges Transformer-Framework, das die Schätzung des Blickziels optimiert, indem es Merkmale aus einem eingefrorenen DINOv2-Encoder nutzt. Wir extrahieren eine einzige Merkmalsdarstellung für die Szene und wenden einen personenspezifischen Positions-Prompt an, um den Blick mit einem leichtgewichtigen Modul zu entschlüsseln. Wir demonstrieren Spitzenleistungen in mehreren Blick-Benchmarks und liefern umfangreiche Analysen zur Validierung unserer Designentscheidungen. Unser Code ist verfügbar unter: http://github.com/fkryan/gazelle.
Neuronale Maschinenübersetzungsmodelle (NMT) werden in der Regel auf Datensätzen trainiert, die nur begrenzten Einblick in wissenschaftliche, technische und Bildungsbereiche bieten. Übersetzungsmodelle haben daher im Allgemeinen Schwierigkeiten bei Aufgaben, die wissenschaftliches Verständnis oder technisches Fachjargon erfordern. Ihre Leistung ist sogar noch schlechter für wenig erforschte indische Sprachen. Die Suche nach einem Übersetzungsdatensatz, der sich speziell diesen Bereichen widmet, stellt eine schwierige Herausforderung dar. In diesem Paper gehen wir dieses Problem an, indem wir einen mehrsprachigen Parallelkorpus erstellen, der über 2,8 Millionen Zeilen hochwertige Übersetzungspaare von Englisch nach Indisch und von Indisch zu Indisch in 8 indischen Sprachen enthält. Dies erreichen wir durch das Auffinden von menschlich übersetzten Transkriptionen von NPTEL-Vorlesungsvideos. Wir feinabstimmen und evaluieren auch NMT-Modelle unter Verwendung dieses Korpus und übertreffen alle anderen öffentlich verfügbaren Modelle bei in-domain Aufgaben. Darüber hinaus zeigen wir das Potenzial zur Verallgemeinerung auf out-of-domain Übersetzungsaufgaben, indem wir die Basislinie für diese indischen Sprachen im Durchschnitt um über 2 BLEU auf dem Flores+ Benchmark verbessern. Wir freuen uns, unser Modell und unseren Datensatz über folgenden Link zur Verfügung zu stellen: https://huggingface.co/SPRINGLab.