Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die visuelle Präferenzabstimmung beinhaltet das Training von Large Vision-Language Models (LVLMs) zur Vorhersage menschlicher Präferenzen zwischen visuellen Eingaben. Dies wird typischerweise durch die Verwendung von gelabelten Datensätzen von ausgewählten/abgelehnten Paaren und die Anwendung von Optimierungsalgorithmen wie dem direkten Präferenzoptimierungsverfahren (DPO) erreicht. Bestehende visuelle Ausrichtungsmethoden, die hauptsächlich für Einzelbildszenarien konzipiert wurden, haben Schwierigkeiten, die Komplexität von Multi-Bild-Aufgaben effektiv zu bewältigen, aufgrund der Knappheit von vielfältigen Trainingsdaten und der hohen Kosten für die Annotation von ausgewählten/abgelehnten Paaren. Wir präsentieren Multi-Bild-augmentierte Direkte Präferenzoptimierung (MIA-DPO), einen Ansatz zur visuellen Präferenzabstimmung, der Multi-Bild-Eingaben effektiv verarbeitet. MIA-DPO mildert die Knappheit von vielfältigen Multi-Bild-Trainingsdaten, indem es Einzelbild-Daten mit nicht verwandten Bildern in Raster-Collagen oder Bild-in-Bild-Formaten erweitert, was die Kosten für die Annotation von Multi-Bild-Daten erheblich reduziert. Unsere Beobachtung zeigt, dass die Aufmerksamkeitswerte von LVLMs bei verschiedenen Bildern erheblich variieren. Wir verwenden Aufmerksamkeitswerte, um abgelehnte Antworten zu identifizieren und herauszufiltern, auf die das Modell fälschlicherweise fokussiert haben könnte. Unsere auf Aufmerksamkeit basierende Auswahl zur Konstruktion der ausgewählten/abgelehnten Paare erfolgt ohne (i) menschliche Annotation, (ii) zusätzliche Daten und (iii) externe Modelle oder APIs. MIA-DPO ist mit verschiedenen Architekturen kompatibel und übertrifft bestehende Methoden in fünf Multi-Bild-Benchmarks, wobei eine durchschnittliche Leistungssteigerung von 3,0% bei LLaVA-v1.5 und 4,3% bei dem kürzlich veröffentlichten InternLM-XC2.5 erzielt wird. Darüber hinaus hat MIA-DPO nur minimale Auswirkungen auf die Fähigkeit des Modells, Einzelbilder zu verstehen.
Multimodale große Sprachmodelle (MLLMs) haben vielversprechende Fortschritte bei der Verständnis und Analyse von Videoinhalten gezeigt. Die Verarbeitung langer Videos bleibt jedoch eine bedeutende Herausforderung, die durch die Kontextgröße von LLMs eingeschränkt ist. Um diese Einschränkung anzugehen, schlagen wir LongVU vor, einen spatio-temporalen adaptiven Kompressionsmechanismus, der die Anzahl der Videotoken reduziert, während visuelle Details langer Videos erhalten bleiben. Unsere Idee basiert auf der Nutzung von Cross-Modal Query und Inter-Frame-Abhängigkeiten, um zeitliche und räumliche Redundanzen in Videos adaptiv zu reduzieren. Konkret nutzen wir DINOv2-Merkmale, um redundante Frames mit hoher Ähnlichkeit zu entfernen. Anschließend verwenden wir textgeführte Cross-Modal Query für eine selektive Reduzierung von Frame-Merkmalen. Darüber hinaus führen wir eine räumliche Token-Reduzierung über Frames basierend auf ihren zeitlichen Abhängigkeiten durch. Unsere adaptive Kompressionsstrategie verarbeitet effektiv eine große Anzahl von Frames mit geringem visuellen Informationsverlust innerhalb der gegebenen Kontextlänge. Unser LongVU übertrifft konsistent bestehende Methoden über eine Vielzahl von Videoverständnis-Benchmarks, insbesondere bei Aufgaben zum Verständnis von einstündigen Videos wie VideoMME und MLVU. Mit einem leichtgewichtigen LLM skaliert unser LongVU auch effektiv auf eine kleinere Größe mit einer Videoverständnis-Performance auf dem neuesten Stand der Technik.
In jüngster Zeit haben Fortschritte bei prädiktiven Modellen außergewöhnliche Fähigkeiten bei der Vorhersage des zukünftigen Zustands von Objekten und Szenen gezeigt. Allerdings behindert der Mangel an Kategorisierung basierend auf inhärenten Merkmalen weiterhin den Fortschritt bei der Entwicklung prädiktiver Modelle. Darüber hinaus sind bestehende Benchmarks nicht in der Lage, hochfähige, stark verkörperte prädiktive Modelle aus einer verkörperten Perspektive effektiv zu bewerten. In dieser Arbeit klassifizieren wir die Funktionalitäten prädiktiver Modelle in eine Hierarchie und gehen den ersten Schritt bei der Bewertung von Welt-Simulatoren, indem wir einen dualen Bewertungsrahmen namens WorldSimBench vorschlagen. WorldSimBench umfasst eine explizite wahrnehmungsbasierte Bewertung und eine implizite manipulationsbasierte Bewertung, die menschliche Präferenzbewertungen aus der visuellen Perspektive und Bewertungen auf Aktivitätsebene in verkörperten Aufgaben umfasst und drei repräsentative verkörperte Szenarien abdeckt: Offene verkörperte Umgebung, Autonomes Fahren und Roboter-Manipulation. Bei der expliziten wahrnehmungsbasierten Bewertung führen wir das HF-Embodied-Datenset ein, ein Video-Bewertungsdatenset basierend auf feingranuliertem menschlichem Feedback, das wir verwenden, um einen Menschlichen Präferenzbewerter zu trainieren, der mit der menschlichen Wahrnehmung übereinstimmt und die visuelle Treue von Welt-Simulatoren explizit bewertet. Bei der impliziten manipulationsbasierten Bewertung bewerten wir die Video-Aktionskonsistenz von Welt-Simulatoren, indem wir bewerten, ob das generierte situationsbewusste Video in dynamischen Umgebungen genau in die richtigen Steuersignale übersetzt werden kann. Unsere umfassende Bewertung bietet wichtige Erkenntnisse, die weitere Innovationen in Video-Generierungsmodellen vorantreiben können und positioniert Welt-Simulatoren als entscheidenden Fortschritt hin zu verkörpertem künstlichen Intelligenz.
Diffusions-Sprachmodelle (DLMs) haben sich als vielversprechendes neues Paradigma für die generative Modellierung von Texten etabliert, das potenziell die Einschränkungen von autoregressiven (AR) Modellen adressieren kann. Allerdings wurden aktuelle DLMs im Vergleich zu ihren AR-Gegenstücken auf kleinerer Skala untersucht und es fehlt ein fairer Vergleich auf Sprachmodellierungs-Benchmarks. Darüber hinaus bleibt das Training von Diffusionsmodellen von Grund auf in großem Maßstab eine Herausforderung. Angesichts der Verbreitung von Open-Source AR-Sprachmodellen schlagen wir vor, diese Modelle anzupassen, um Textdiffusionsmodelle zu erstellen. Wir zeigen Verbindungen zwischen AR- und Diffusionsmodellierungszielen auf und führen einen einfachen kontinuierlichen Vortrainierungsansatz für das Training von Diffusionsmodellen ein. Durch systematische Evaluation auf Sprachmodellierungs-, Schlussfolgerungs- und gesunden Menschenverstand-Benchmarks zeigen wir, dass wir AR-Modelle mit 127M bis 7B Parametern (GPT2 und LLaMA) in Diffusionsmodelle DiffuGPT und DiffuLLaMA umwandeln können, wobei weniger als 200B Token für das Training verwendet werden. Unsere experimentellen Ergebnisse zeigen, dass diese Modelle frühere DLMs übertreffen und mit ihren AR-Gegenstücken konkurrenzfähig sind. Wir veröffentlichen eine Reihe von DLMs (mit 127M, 355M und 7B Parametern), die in der Lage sind, fließenden Text zu generieren, kontextbezogenes Lernen durchzuführen, Lücken zu füllen, ohne die Anweisungen neu anordnen zu müssen, und Anweisungen zu befolgen.
Die direkte Präferenzoptimierung (DPO) hat sich als ein leistungsstoller Ansatz herausgestellt, um Text-zu-Bild (T2I) Modelle mit menschlichem Feedback in Einklang zu bringen. Leider erfordert die erfolgreiche Anwendung von DPO auf T2I-Modelle eine enorme Menge an Ressourcen, um umfangreiche Datensätze zu sammeln und zu kennzeichnen, z. B. Millionen generierte Bildpaare, die mit menschlichen Präferenzen annotiert sind. Darüber hinaus können diese menschlichen Präferenzdatensätze schnell veralten, da die raschen Verbesserungen von T2I-Modellen zu hochwertigeren Bildern führen. In dieser Arbeit untersuchen wir einen skalierbaren Ansatz zur Sammlung von umfangreichen und vollständig synthetischen Datensätzen für das Training von DPO. Speziell werden die Präferenzen für Bildpaare mithilfe einer vorab trainierten Belohnungsfunktion generiert, wodurch die Notwendigkeit entfällt, Menschen in den Annotierungsprozess einzubeziehen und die Effizienz der Datensammlung erheblich verbessert wird. Darüber hinaus zeigen wir, dass solche Datensätze Vorhersagen über mehrere Modelle hinweg ermöglichen und das Sammeln von gerankten Präferenzen anstelle von paarweisen Präferenzen. Des Weiteren führen wir RankDPO ein, um DPO-basierte Methoden mithilfe des Ranking-Feedbacks zu verbessern. Die Anwendung von RankDPO auf die Modelle SDXL und SD3-Medium mit unserem synthetisch generierten Präferenzdatensatz "Syn-Pic" verbessert sowohl das Prompt-Following (auf Benchmarks wie T2I-Compbench, GenEval und DPG-Bench) als auch die visuelle Qualität (durch Benutzerstudien). Dieser Prozess bietet eine praktische und skalierbare Lösung zur Entwicklung besserer Präferenzdatensätze, um die Leistung von Text-zu-Bild-Modellen zu verbessern.
Die LiDAR-Szenengenerierung hat sich in letzter Zeit rasant entwickelt. Allerdings konzentrieren sich bestehende Methoden hauptsächlich auf die Erzeugung statischer und einzelner Szenen, wobei die inhärent dynamische Natur realer Fahrumgebungen übersehen wird. In dieser Arbeit stellen wir DynamicCity vor, ein neuartiges 4D-LiDAR-Generierungsframework, das in der Lage ist, groß angelegte, qualitativ hochwertige LiDAR-Szenen zu erzeugen, die die zeitliche Entwicklung dynamischer Umgebungen erfassen. DynamicCity besteht hauptsächlich aus zwei Schlüsselmodellen. 1) Ein VAE-Modell zum Erlernen von HexPlane als kompakte 4D-Repräsentation. Anstelle von einfachen Durchschnittsoperationen verwendet DynamicCity ein neuartiges Projektionsmodul, um 4D-LiDAR-Merkmale effektiv in sechs 2D-Merkmalskarten für den HexPlane-Aufbau zu komprimieren, was die Qualität der HexPlane-Anpassung signifikant verbessert (bis zu 12,56 mIoU-Gewinn). Darüber hinaus nutzen wir eine Expansions- und Squeeze-Strategie zur parallelen Rekonstruktion von 3D-Merkmalsvolumina, was sowohl die Effizienz des Netzwerktrainings als auch die Rekonstruktionsgenauigkeit im Vergleich zur naiven Abfrage jedes 3D-Punktes verbessert (bis zu 7,05 mIoU-Gewinn, 2,06-fache Beschleunigung des Trainings und 70,84% Speicherreduktion). 2) Ein DiT-basiertes Diffusionsmodell zur HexPlane-Generierung. Um HexPlane für die DiT-Generierung möglich zu machen, wird eine gepolsterte Rollout-Operation vorgeschlagen, um alle sechs Merkmalsebenen des HexPlane als quadratische 2D-Merkmalskarte neu zu organisieren. Insbesondere können verschiedene Bedingungen im Diffusions- oder Abtastprozess eingeführt werden, um vielseitige 4D-Generierungsanwendungen zu unterstützen, wie beispielsweise trajektorien- und befehlsbasierte Generierung, Inpainting und layoutbedingte Generierung. Umfangreiche Experimente mit den Datensätzen CarlaSC und Waymo zeigen, dass DynamicCity gegenüber bestehenden state-of-the-art 4D-LiDAR-Generierungsmethoden in mehreren Metriken signifikant überlegen ist. Der Code wird veröffentlicht, um zukünftige Forschung zu erleichtern.
Belohnungsmodelle (RMs) haben heute die Leistungsfähigkeit von LLMs auf dem neuesten Stand der Technik vorangetrieben, indem sie die Integration von menschlichem Feedback in den Sprachmodellierungsprozess ermöglichen. Allerdings werden RMs hauptsächlich in Englisch trainiert und bewertet, und ihre Fähigkeiten in mehrsprachigen Umgebungen bleiben weitgehend unerforscht. In dieser Arbeit führen wir eine systematische Bewertung mehrerer Belohnungsmodelle in mehrsprachigen Umgebungen durch. Zunächst erstellen wir den erstmaligen mehrsprachigen RM-Bewertungsbenchmark, M-RewardBench, bestehend aus 2,87k Präferenzinstanzen für 23 typologisch diverse Sprachen, der die Chat-, Sicherheits-, Argumentations- und Übersetzungsfähigkeiten von RMs testet. Anschließend bewerten wir eine Vielzahl von Belohnungsmodellen auf M-RewardBench, um frische Einblicke in ihre Leistungsfähigkeit in verschiedenen Sprachen zu bieten. Wir identifizieren eine signifikante Kluft in der Leistung von RMs zwischen Englisch und nicht-englischen Sprachen und zeigen, dass sich RM-Präferenzen von einer Sprache zur anderen erheblich ändern können. Wir präsentieren auch mehrere Erkenntnisse darüber, wie verschiedene mehrsprachige Aspekte die Leistung von RMs beeinflussen. Insbesondere zeigen wir, dass die Leistung von RMs mit verbesserter Übersetzungsqualität steigt. Ebenso zeigen wir, dass die Modelle eine bessere Leistung für Sprachen mit vielen Ressourcen aufweisen. Wir veröffentlichen den M-RewardBench-Datensatz und die Codebasis dieser Studie, um ein besseres Verständnis der RM-Bewertung in mehrsprachigen Umgebungen zu erleichtern.
Dieses Paper stellt eine neuartige Architektur zur Steuerung von Mobiltelefonen vor, die als "App-Agenten" bezeichnet wird, um effiziente Interaktionen und Steuerungen über verschiedene Android-Apps hinweg zu ermöglichen. Das vorgeschlagene Leichte Multi-Modale App-Steuerungssystem (LiMAC) nimmt als Eingabe ein textuelles Ziel und eine Sequenz vergangener Mobilbeobachtungen, wie Screenshots und entsprechende UI-Bäume, entgegen, um präzise Aktionen zu generieren. Um den rechnerischen Beschränkungen von Smartphones entgegenzuwirken, führen wir innerhalb von LiMAC einen kleinen Aktions-Transformer (AcT) ein, der mit einem feinabgestimmten Bildsprachmodell (VLM) für Echtzeit-Entscheidungsfindung und Aufgabenausführung integriert ist. Wir evaluieren LiMAC anhand von zwei Open-Source-Datensätzen zur mobilen Steuerung und zeigen die überlegene Leistung unseres Ansatzes im Kleinformat im Vergleich zu feinabgestimmten Versionen von Open-Source-VLMs wie Florence2 und Qwen2-VL. Es übertrifft auch signifikant Baselines der Prompt-Entwicklung, die auf geschlossenen Grundlagenmodellen wie GPT-4o basieren. Genauer gesagt steigert LiMAC die Gesamtaktionsgenauigkeit um bis zu 19 % im Vergleich zu feinabgestimmten VLMs und um bis zu 42 % im Vergleich zu Baselines der Prompt-Entwicklung.
Die Integration von Techniken großer Sprachmodelle (Large Language Models, LLM) im Bereich der medizinischen Analyse hat signifikante Fortschritte gebracht, doch die Knappheit großer, vielfältiger und gut annotierter Datensätze bleibt eine große Herausforderung. Medizinische Daten und Aufgaben, die sich in Format, Größe und anderen Parametern unterscheiden, erfordern umfangreiche Vorverarbeitung und Standardisierung für eine effektive Verwendung beim Training von LLMs. Um diesen Herausforderungen zu begegnen, stellen wir MedINST vor, das Meta-Datenset biomedizinischer Anleitungen, ein neuartiges Multi-Domänen-, Multi-Task-Instruktions-Metadatenset. MedINST umfasst 133 biomedizinische NLP-Aufgaben und über 7 Millionen Trainingsbeispiele, was es zum umfassendsten biomedizinischen Anleitungsdatenset macht. Unter Verwendung von MedINST als Metadatenset kuratieren wir MedINST32, einen anspruchsvollen Benchmark mit unterschiedlichen Schwierigkeitsgraden, um die Generalisierungsfähigkeit von LLMs zu bewerten. Wir feinabstimmen mehrere LLMs auf MedINST und evaluieren auf MedINST32, wodurch eine verbesserte Generalisierung über verschiedene Aufgaben hinweg demonstriert wird.
In letzter Zeit haben multimodale große Sprachmodelle (MLLMs) aufgrund ihrer beeindruckenden Fähigkeiten viel Aufmerksamkeit erhalten. Die Evaluierung von MLLMs wird zunehmend wichtig, um die Eigenschaften von MLLMs zu analysieren und wertvolle Erkenntnisse zu liefern. Allerdings vernachlässigen aktuelle Benchmarks das Problem der Prompt-Sensitivität - geringfügige Prompt-Variationen können zu signifikanten Leistungsschwankungen führen. Inadäquate Prompts können somit die Fähigkeiten der Modelle verschleiern und die Leistung der Modelle unterschätzen. Zudem haben verschiedene Modelle unterschiedliche Präferenzen für verschiedene Prompts, sodass die Verwendung desselben Prompts für alle Modelle zu Evaluationsverzerrungen führen wird. Diese Arbeit analysiert diese Schwäche in bestehenden Benchmarks und führt ein neues Evaluierungsframework namens TP-Eval ein, das eine Prompt-Anpassungsmethode einführt, um Evaluationsverzerrungen zu reduzieren und das Potenzial der Modelle zu nutzen. TP-Eval wird die ursprünglichen Prompts in verschiedene angepasste Prompts für verschiedene Modelle umschreiben. Insbesondere schlagen wir einige gut durchdachte Module für die Prompt-Anpassung vor, die auf das Szenario der MLLM-Evaluierung zugeschnitten sind. Umfangreiche Experimente zeigen die Wirksamkeit unseres Ansatzes zur Aufdeckung der Fähigkeiten der Modelle, und TP-Eval sollte der Gemeinschaft dabei helfen, umfassendere und überzeugendere MLLM-Evaluierungsbenchmarks zu entwickeln.
Die Leistung von neuronalen Netzwerken skaliert sowohl mit ihrer Größe als auch mit der Menge an Daten, auf denen sie trainiert wurden. Dies zeigt sich sowohl bei der Sprach- als auch bei der Bildgenerierung. Dies erfordert jedoch skalierbare Netzwerkarchitekturen sowie umfangreiche Datensätze. Obwohl skalierbare Architekturen wie Transformer für 3D-Vision-Aufgaben aufgetaucht sind, bleibt der GPT-Moment der 3D-Vision aufgrund des Mangels an Trainingsdaten in der Ferne. In diesem Paper stellen wir ARKit LabelMaker vor, den ersten groß angelegten, realen 3D-Datensatz mit dichten semantischen Annotationen. Speziell ergänzen wir den ARKitScenes-Datensatz um dichte semantische Annotationen, die automatisch im großen Maßstab generiert werden. Zu diesem Zweck erweitern wir LabelMaker, eine kürzlich entwickelte automatische Annotationspipeline, um den Anforderungen des groß angelegten Pre-Trainings gerecht zu werden. Dies beinhaltet die Erweiterung der Pipeline mit modernsten Segmentierungsmodellen sowie deren Robustheit gegenüber den Herausforderungen der groß angelegten Verarbeitung. Darüber hinaus verbessern wir die Leistung auf dem ScanNet- und ScanNet200-Datensatz mit gängigen 3D-semantischen Segmentierungsmodellen und zeigen die Wirksamkeit unseres generierten Datensatzes.
Wir schlagen das Large View Synthesis Model (LVSM) vor, einen neuartigen auf Transformer basierenden Ansatz für skalierbare und generalisierbare Synthese von neuen Ansichten aus spärlichen Ansichtseingaben. Wir stellen zwei Architekturen vor: (1) einen Encoder-Decoder LVSM, der Eingabebild-Token in eine feste Anzahl von 1D-Latenz-Token kodiert, die als vollständig erlernte Szenenrepräsentation fungieren, und neue Ansichtsbilder daraus dekodiert; und (2) einen Decoder-only LVSM, der Eingabebilder direkt auf neue Ansichtsausgaben abbildet und dabei vollständig Zwischenszenenrepräsentationen eliminiert. Beide Modelle umgehen die 3D-induktiven Verzerrungen, die in früheren Methoden verwendet wurden - von 3D-Repräsentationen (z. B. NeRF, 3DGS) bis hin zu Netzwerkkonstruktionen (z. B. epipolare Projektionen, Ebenenabtastungen) - und behandeln die Synthese neuer Ansichten mit einem vollständig datengesteuerten Ansatz. Während das Encoder-Decoder-Modell aufgrund seiner unabhängigen latenten Repräsentation eine schnellere Inferenz bietet, erreicht der Decoder-only LVSM eine überlegene Qualität, Skalierbarkeit und Zero-Shot-Generalisierung und übertrifft frühere State-of-the-Art-Methoden um 1,5 bis 3,5 dB PSNR. Umfassende Bewertungen über mehrere Datensätze hinweg zeigen, dass beide LVSM-Varianten eine neuartige Synthesequalität von Ansichten aufweisen. Bemerkenswert ist, dass unsere Modelle sogar mit reduzierten Rechenressourcen (1-2 GPUs) alle früheren Methoden übertreffen. Weitere Details finden Sie auf unserer Website: https://haian-jin.github.io/projects/LVSM/
Große, allgemeine robotische Richtlinien, die auf vielfältigen Demonstrationsdatensätzen trainiert wurden, haben sich als bemerkenswert effektiv erwiesen, sowohl für die Steuerung einer Vielzahl von Robotern in verschiedenen Szenarien als auch für die Entwicklung umfangreicher Repertoires an Manipulationsfähigkeiten. Die Daten, auf denen solche Richtlinien trainiert werden, sind jedoch in der Regel von gemischter Qualität - nicht nur sind menschliche Demonstrationen unwahrscheinlich, die Aufgabe perfekt auszuführen, sondern je größer der Datensatz ist, desto schwieriger ist es, nur die hochwertigsten Beispiele auszuwählen. Es bleibt auch unklar, wie optimal Daten von einer Ausführung für das Training auf einer anderen Ausführung sind. In diesem Papier präsentieren wir einen allgemeinen und weitreichend anwendbaren Ansatz, der die Leistung solcher generalistischen Roboter-Richtlinien zur Bereitstellungszeit verbessert, indem ihre Aktionen gemäß einer über Offline-RL erlernten Wertefunktion neu geordnet werden. Dieser Ansatz, den wir Value-Guided Policy Steering (V-GPS) nennen, ist mit einer Vielzahl verschiedener generalistischer Richtlinien kompatibel, ohne dass die Gewichte der Richtlinie feinabgestimmt oder sogar darauf zugegriffen werden müssen. Wir zeigen, dass dieselbe Wertefunktion die Leistung von fünf verschiedenen Richtlinien auf dem neuesten Stand der Technik mit unterschiedlichen Architekturen verbessern kann, obwohl sie auf unterschiedlichen Datensätzen trainiert wurden, und dabei eine konsistente Leistungsverbesserung auf mehreren Roboterplattformen in insgesamt 12 Aufgaben erzielt. Der Code und Videos sind unter folgendem Link verfügbar: https://nakamotoo.github.io/V-GPS