papers.description
Das Pretraining von Sprachmodellen beinhaltet das Training auf umfangreichen Textkorpora, wobei die Datenqualität eine entscheidende Rolle spielt. In dieser Arbeit zielen wir darauf ab, den Beitrag der Daten während des Pretrainings direkt zu schätzen und die Pretraining-Daten auf effiziente Weise auszuwählen. Insbesondere lassen wir uns von jüngsten Erkenntnissen inspirieren, die zeigen, dass die Kompressionseffizienz (d. h. der normalisierte Verlust) verschiedener Modelle auf bestimmten Texten stark mit ihrer nachgelagerten Leistung korreliert, wenn die Textdomäne mit dem nachgelagerten Benchmark übereinstimmt (Huang et al., 2024). Aufbauend auf dieser Beobachtung stellen wir die Hypothese auf, dass Daten, bei denen die Modellverluste die nachgelagerten Fähigkeiten vorhersagen, auch effektiv zum Lernen beitragen. Um diese Erkenntnis zu nutzen, führen wir eine Datenauswahl basierend auf der Vorhersagestärke der Daten (PreSelect) ein, eine leichte und effiziente Methode zur Datenauswahl, die nur das Training und den Einsatz eines fastText-basierten Scorers erfordert. Durch umfangreiche Experimente mit Modellen mit 1B und 3B Parametern zeigen wir, dass Modelle, die auf 30B Token trainiert wurden, die mit PreSelect ausgewählt wurden, die Leistung eines einfachen Basismodells, das auf 300B Token trainiert wurde, übertreffen und dabei den Rechenaufwand um das 10-fache reduzieren. Darüber hinaus übertrifft PreSelect andere wettbewerbsfähige Datenauswahl-Baselines wie DCLM und FineWeb-Edu bei Modellen mit 3B Parametern, die auf 100B Token trainiert wurden, deutlich. Wir stellen unseren trainierten Datenauswahl-Scorer zusammen mit den kuratierten Datensätzen unter https://github.com/hkust-nlp/PreSelect als Open Source zur Verfügung.
Große Sprachmodelle (LLMs) haben bemerkenswerte Leistungen bei der Lösung komplexer Denkaufgaben durch Mechanismen wie Chain-of-Thought (CoT)-Prompting gezeigt, das ausführliches, schrittweises Denken betont. Menschen hingegen verwenden typischerweise eine effizientere Strategie: Sie entwerfen prägnante Zwischengedanken, die nur wesentliche Informationen erfassen. In dieser Arbeit schlagen wir Chain of Draft (CoD) vor, ein neuartiges Paradigma, das von menschlichen kognitiven Prozessen inspiriert ist und bei dem LLMs minimalistische, aber informative Zwischenergebnisse erzeugen, während sie Aufgaben lösen. Durch die Reduzierung von Ausführlichkeit und die Konzentration auf kritische Einsichten erreicht CoD eine vergleichbare oder bessere Genauigkeit als CoT, verwendet dabei jedoch nur 7,6 % der Tokens und reduziert so die Kosten und Latenz bei verschiedenen Denkaufgaben erheblich.
Die Gestaltung von Lösungen für komplexe ingenieurwissenschaftliche Herausforderungen ist entscheidend für menschliche Produktionstätigkeiten. Bisherige Forschungen im Bereich des retrieval-augmentierten Generierens (RAG) haben jedoch Aufgaben im Zusammenhang mit der Entwicklung komplexer ingenieurwissenschaftlicher Lösungen nicht ausreichend behandelt. Um diese Lücke zu schließen, führen wir einen neuen Benchmark, SolutionBench, ein, um die Fähigkeit eines Systems zu bewerten, vollständige und praktikable Lösungen für ingenieurwissenschaftliche Probleme mit mehreren komplexen Einschränkungen zu generieren. Um die Entwicklung komplexer ingenieurwissenschaftlicher Lösungen weiter voranzutreiben, schlagen wir ein neuartiges System, SolutionRAG, vor, das die baumbasierte Exploration und den Zwei-Punkt-Denkmechanismus nutzt, um zuverlässige Lösungen zu generieren. Umfangreiche experimentelle Ergebnisse zeigen, dass SolutionRAG auf dem SolutionBench Spitzenleistungen (State-of-the-Art, SOTA) erzielt, was sein Potenzial unterstreicht, die Automatisierung und Zuverlässigkeit der Gestaltung komplexer ingenieurwissenschaftlicher Lösungen in realen Anwendungen zu verbessern.
Wir behandeln das Problem der Codegenerierung aus mehrstufigem Ausführungsfeedback. Bestehende Methoden generieren entweder Code ohne Feedback oder verwenden komplexes, hierarchisches Reinforcement Learning, um mehrstufige Belohnungen zu optimieren. Wir schlagen einen einfachen, aber skalierbaren Ansatz vor, muCode, der die mehrstufige Codegenerierung unter Verwendung nur einstufiger Belohnungen löst. Unsere zentrale Erkenntnis ist, dass die Codegenerierung ein einstufig wiederherstellbares MDP (Markov Decision Process) ist, bei dem der korrekte Code aus jedem Zwischenzustand des Codes in einer einzigen Stufe wiederhergestellt werden kann. muCode trainiert iterativ sowohl einen Generator, der Code-Lösungen basierend auf mehrstufigem Ausführungsfeedback bereitstellt, als auch einen Verifizierer, der den neu generierten Code bewertet. Experimentelle Auswertungen zeigen, dass unser Ansatz signifikante Verbesserungen gegenüber den state-of-the-art Baselines erzielt. Wir bieten eine Analyse der Designentscheidungen der Belohnungsmodelle und der Policy und zeigen die Wirksamkeit von muCode bei der Nutzung des Ausführungsfeedbacks. Unser Code ist verfügbar unter https://github.com/portal-cornell/muCode.
Aktuelle Text-zu-Bild (T2I)-Generierungsmodelle haben bemerkenswerte Ergebnisse erzielt, indem sie auf Milliarden-großen Datensätzen trainiert wurden, wobei sie einem „Größer ist besser“-Paradigma folgten, das die Datenmenge über die Qualität stellt. Wir stellen dieses etablierte Paradigma in Frage, indem wir zeigen, dass strategische Datenanreicherung von kleinen, gut kuratierten Datensätzen Modelle übertreffen oder zumindest gleichziehen kann, die auf massiven, aus dem Web gescrapten Sammlungen trainiert wurden. Mit nur ImageNet, das durch gut gestaltete Text- und Bildanreicherungen erweitert wurde, erreichen wir eine Verbesserung von +2 Punkten gegenüber SD-XL auf GenEval und +5 auf DPGBench, während wir nur 1/10 der Parameter und 1/1000 der Trainingsbilder verwenden. Unsere Ergebnisse deuten darauf hin, dass strategische Datenanreicherung anstelle von massiven Datensätzen einen nachhaltigeren Weg für die T2I-Generierung bieten könnte.
Große Sprachmodelle (LLMs) haben menschliches Niveau bei einer Vielzahl von Aufgaben erreicht, doch ihre Fähigkeit, rigorose mathematische Probleme zu lösen, bleibt eine offene Herausforderung. In dieser Arbeit untersuchen wir ein grundlegendes, aber rechnerisch unlösbares Problem: die Bestimmung, ob ein gegebenes multivariates Polynom nichtnegativ ist. Dieses Problem, das eng mit Hilberts siebzehntem Problem verbunden ist, spielt eine entscheidende Rolle in der globalen Polynomoptimierung und findet Anwendungen in verschiedenen Bereichen. Zunächst stellen wir SoS-1K vor, ein sorgfältig kuratiertes Datenset von etwa 1.000 Polynomen, zusammen mit von Experten entworfenen Anleitungen zur logischen Schlussfolgerung basierend auf fünf zunehmend anspruchsvollen Kriterien. Bei der Bewertung mehrerer state-of-the-art LLMs stellen wir fest, dass alle Modelle ohne strukturierte Anleitung nur knapp über der Zufallsrate von 50 % liegen. Hochwertige Anleitungen zur logischen Schlussfolgerung verbessern die Genauigkeit jedoch erheblich und steigern die Leistung auf bis zu 81 %. Darüber hinaus übertrifft unser 7B-Modell, SoS-7B, das auf SoS-1K für nur 4 Stunden feinabgestimmt wurde, die 671B DeepSeek-V3 und GPT-4o-mini in der Genauigkeit, während es lediglich 1,8 % bzw. 5 % der für diese Modelle benötigten Rechenzeit in Anspruch nimmt. Unsere Ergebnisse unterstreichen das Potenzial von LLMs, die Grenzen des mathematischen Denkens zu erweitern und NP-schwere Probleme anzugehen.
Das Verständnis von Informationen aus visuell reichhaltigen Dokumenten bleibt eine bedeutende Herausforderung für traditionelle Retrieval-Augmented Generation (RAG)-Methoden. Bestehende Benchmarks konzentrieren sich überwiegend auf bildbasierte Frage-Antwort-Systeme (QA) und übersehen dabei die grundlegenden Herausforderungen der effizienten Retrieval, des Verständnisses und des logischen Denkens innerhalb von dichten visuellen Dokumenten. Um diese Lücke zu schließen, führen wir ViDoSeek ein, einen neuartigen Datensatz, der entwickelt wurde, um die RAG-Leistung bei visuell reichhaltigen Dokumenten, die komplexes logisches Denken erfordern, zu bewerten. Basierend darauf identifizieren wir wesentliche Einschränkungen in aktuellen RAG-Ansätzen: (i) rein visuelle Retrieval-Methoden haben Schwierigkeiten, sowohl textuelle als auch visuelle Merkmale effektiv zu integrieren, und (ii) frühere Ansätze weisen oft unzureichende Denk-Tokens zu, was ihre Effektivität einschränkt. Um diese Herausforderungen zu bewältigen, schlagen wir ViDoRAG vor, einen neuartigen Multi-Agenten-RAG-Rahmen, der speziell für komplexes logisches Denken über visuelle Dokumente entwickelt wurde. ViDoRAG verwendet eine hybride Strategie basierend auf einem Gaußschen Mischmodell (GMM), um das multi-modale Retrieval effektiv zu handhaben. Um die Denkfähigkeiten des Modells weiter zu fördern, führen wir einen iterativen Agenten-Workflow ein, der Exploration, Zusammenfassung und Reflexion umfasst, und bieten so einen Rahmen für die Untersuchung von Testzeit-Skalierung in RAG-Domänen. Umfangreiche Experimente auf ViDoSeek bestätigen die Effektivität und Generalisierbarkeit unseres Ansatzes. Insbesondere übertrifft ViDoRAG bestehende Methoden um über 10 % auf dem wettbewerbsfähigen ViDoSeek-Benchmark.
Reinforcement Learning hat vielversprechende Ergebnisse bei der Erreichung von menschlichen oder sogar übermenschlichen Fähigkeiten in verschiedenen Problemdomänen geliefert, aber der Erfolg bei geschickter Roboter-Manipulation bleibt begrenzt. Diese Arbeit untersucht die zentralen Herausforderungen bei der Anwendung von Reinforcement Learning zur Lösung einer Sammlung von kontaktreichen Manipulationsaufgaben an einer humanoiden Verkörperung. Wir führen neuartige Techniken ein, um die identifizierten Herausforderungen mit empirischer Validierung zu überwinden. Unsere Hauptbeiträge umfassen ein automatisiertes Real-to-Sim-Tuning-Modul, das die simulierte Umgebung näher an die reale Welt bringt, ein generalisiertes Belohnungsdesignschema, das die Belohnungsentwicklung für langfristige, kontaktreiche Manipulationsaufgaben vereinfacht, einen Divide-and-Conquer-Destillationsprozess, der die Probeneffizienz von schwer zu erkundenden Problemen verbessert, während die Sim-to-Real-Leistung erhalten bleibt, und eine Mischung aus spärlichen und dichten Objektrepräsentationen, um die Sim-to-Real-Wahrnehmungslücke zu überbrücken. Wir zeigen vielversprechende Ergebnisse bei drei humanoiden geschickten Manipulationsaufgaben, mit Ablationsstudien zu jeder Technik. Unsere Arbeit präsentiert einen erfolgreichen Ansatz zum Erlernen humanoid geschickter Manipulation mittels Sim-to-Real-Reinforcement-Learning, der robuste Generalisierung und hohe Leistung ohne die Notwendigkeit menschlicher Demonstration erreicht.
Moderne automatische Spracherkennungsmodelle (ASR), wie OpenAIs Whisper, basieren auf tiefen Encoder-Decoder-Architekturen, wobei die Encoder aufgrund ihrer hohen Rechenintensität einen kritischen Engpass für die effiziente Bereitstellung darstellen. Wir stellen LiteASR vor, ein Low-Rank-Kompressionsverfahren für ASR-Encoder, das die Inferenzkosten erheblich reduziert, während die Transkriptionsgenauigkeit erhalten bleibt. Unser Ansatz nutzt die starken Low-Rank-Eigenschaften, die in den Zwischenaktivierungen beobachtet werden: Durch die Anwendung der Hauptkomponentenanalyse (PCA) mit einem kleinen Kalibrierungsdatensatz approximieren wir lineare Transformationen mit einer Kette von Low-Rank-Matrixmultiplikationen und optimieren die Selbstaufmerksamkeit weiter, um in der reduzierten Dimension zu arbeiten. Evaluierungsergebnisse zeigen, dass unsere Methode die Encodergröße von Whisper large-v3 um über 50 % komprimieren kann, wobei sie die Größe von Whisper medium mit besserer Transkriptionsgenauigkeit erreicht und damit eine neue Pareto-optimale Grenze für Effizienz und Leistung etabliert. Der Code von LiteASR ist unter https://github.com/efeslab/LiteASR verfügbar.
Retrieval-augmented Generation (RAG) erweitert große Sprachmodelle (LLMs) um externe Datenquellen, um die faktische Korrektheit und die Abdeckung spezifischer Domänen zu verbessern. Moderne RAG-Pipelines basieren auf umfangreichen Datenspeichern, was in Latenz-sensitiven Bereitstellungen zu Systemherausforderungen führt, insbesondere bei begrenztem GPU-Speicher. Um diese Herausforderungen zu bewältigen, schlagen wir TeleRAG vor, ein effizientes Inferenzsystem, das die RAG-Latenz bei minimalen GPU-Speicheranforderungen reduziert. Die Kerninnovation von TeleRAG ist das Lookahead Retrieval, ein Prefetching-Mechanismus, der benötigte Daten vorausschauend erfasst und parallel zur LLM-Generierung von der CPU zur GPU überträgt. Durch die Nutzung der Modularität von RAG-Pipelines, den Inverted File Index (IVF)-Suchalgorithmus und Ähnlichkeiten zwischen Anfragen, optimiert TeleRAG die Überlappung von Datenbewegung und Berechnung. Experimentelle Ergebnisse zeigen, dass TeleRAG die end-to-end RAG-Inferenzlatenz im Durchschnitt um bis zu das 1,72-fache im Vergleich zu state-of-the-art Systemen reduziert und damit schnellere, speichereffizientere Bereitstellungen fortschrittlicher RAG-Anwendungen ermöglicht.
Visuelle Basismodelle (VFMs) haben aufgrund ihrer Spitzenleistungen zunehmend an Popularität gewonnen. Dennoch bleibt Interpretierbarkeit für kritische Anwendungen von entscheidender Bedeutung. In diesem Sinne zielen selbst-erklärbare Modelle (SEM) darauf ab, interpretierbare Klassifikatoren bereitzustellen, die Vorhersagen in eine gewichtete Summe interpretierbarer Konzepte zerlegen. Trotz ihres Potenzials haben aktuelle Studien gezeigt, dass diese Erklärungen oft an Glaubwürdigkeit mangeln. In dieser Arbeit kombinieren wir VFMs mit einer neuartigen prototypischen Architektur und spezialisierten Trainingszielen. Indem wir nur einen leichten Kopf (ca. 1M Parameter) auf eingefrorenen VFMs trainieren, bietet unser Ansatz (ProtoFM) eine effiziente und interpretierbare Lösung. Evaluierungen zeigen, dass unser Ansatz eine wettbewerbsfähige Klassifikationsleistung erzielt und gleichzeitig bestehende Modelle über eine Reihe von Interpretierbarkeitsmetriken, die aus der Literatur abgeleitet wurden, übertrifft. Der Code ist verfügbar unter https://github.com/hturbe/proto-fm.
Retrieval Augmented Generation (RAG)-Systeme bleiben trotz der Einbindung externer Wissensquellen anfällig für halluzinierte Antworten. Wir stellen LettuceDetect vor, ein Framework, das zwei kritische Einschränkungen bestehender Methoden zur Halluzinationserkennung adressiert: (1) die Kontextfensterbeschränkungen traditioneller encoder-basierter Methoden und (2) die rechnerische Ineffizienz von LLM-basierten Ansätzen. Basierend auf den erweiterten Kontextfähigkeiten von ModernBERT (bis zu 8k Tokens) und trainiert auf dem RAGTruth-Benchmark-Datensatz, übertrifft unser Ansatz alle bisherigen encoder-basierten Modelle und die meisten prompt-basierten Modelle, während er etwa 30-mal kleiner ist als die besten Modelle. LettuceDetect ist ein Token-Klassifikationsmodell, das Kontext-Frage-Antwort-Tripel verarbeitet und die Identifizierung nicht unterstützter Behauptungen auf Token-Ebene ermöglicht. Auswertungen auf dem RAGTruth-Korpus zeigen einen F1-Score von 79,22 % für die Erkennung auf Beispiel-Ebene, was einer Verbesserung von 14,8 % gegenüber Luna, der bisherigen state-of-the-art encoder-basierten Architektur, entspricht. Darüber hinaus kann das System 30 bis 60 Beispiele pro Sekunde auf einer einzelnen GPU verarbeiten, was es praktikabler für reale RAG-Anwendungen macht.
Die zunehmende Komplexität und Parameteranzahl von Convolutional Neural Networks (CNNs) und Transformern stellt Herausforderungen in Bezug auf Recheneffizienz und Ressourcenbedarf dar. Pruning wurde als effektive Strategie identifiziert, um diese Herausforderungen zu bewältigen, indem redundante Elemente wie Neuronen, Kanäle oder Verbindungen entfernt werden, wodurch die Recheneffizienz gesteigert wird, ohne die Leistung erheblich zu beeinträchtigen. Diese Arbeit baut auf den grundlegenden Arbeiten von Optimal Brain Damage (OBD) auf, indem sie die Methodik zur Schätzung der Parameterbedeutung mithilfe der Hessian-Matrix weiterentwickelt. Im Gegensatz zu früheren Ansätzen, die auf Approximationen beruhen, führen wir Optimal Brain Apoptosis (OBA) ein, eine neuartige Pruning-Methode, die den Hessian-Vektor-Produktwert direkt für jeden Parameter berechnet. Durch die Zerlegung der Hessian-Matrix über Netzwerkschichten und die Identifizierung von Bedingungen, unter denen inter-schichtliche Hessian-Untermatrizen nicht null sind, schlagen wir eine hocheffiziente Technik zur Berechnung der Taylor-Entwicklung zweiter Ordnung der Parameter vor. Dieser Ansatz ermöglicht einen präziseren Pruning-Prozess, insbesondere im Kontext von CNNs und Transformern, wie in unseren Experimenten mit VGG19, ResNet32, ResNet50 und ViT-B/16 auf den CIFAR10-, CIFAR100- und Imagenet-Datensätzen validiert wurde. Unser Code ist verfügbar unter https://github.com/NEU-REAL/OBA.
Geschicktes Greifen bleibt ein grundlegendes, aber herausforderndes Problem in der Robotik. Ein universell einsetzbarer Roboter muss in der Lage sein, verschiedene Objekte in beliebigen Szenarien zu greifen. Bisherige Forschung stützt sich jedoch typischerweise auf spezifische Annahmen, wie Einzelobjekt-Szenarien oder begrenzte Umgebungen, was zu eingeschränkter Generalisierung führt. Unsere Lösung ist DexGraspVLA, ein hierarchisches Framework, das ein vortrainiertes Vision-Language-Modell als übergeordneten Aufgabenplaner nutzt und eine diffusionsbasierte Policy als untergeordneten Aktionscontroller lernt. Der Schlüssel liegt in der iterativen Transformation vielfältiger Sprach- und visueller Eingaben in domäneninvariante Repräsentationen, bei denen Imitationslernen aufgrund der Reduzierung von Domänenverschiebungen effektiv angewendet werden kann. Dadurch ermöglicht es eine robuste Generalisierung über eine breite Palette realer Szenarien hinweg. Bemerkenswerterweise erreicht unsere Methode eine Erfolgsrate von über 90 % bei Tausenden von ungesehenen Objekt-, Beleuchtungs- und Hintergrundkombinationen in einer „Zero-Shot“-Umgebung. Empirische Analysen bestätigen weiterhin die Konsistenz des internen Modellverhaltens über Umweltvariationen hinweg, wodurch unser Design validiert und seine Generalisierungsleistung erklärt wird. Wir hoffen, dass unsere Arbeit ein Schritt vorwärts in Richtung allgemeinen geschickten Greifens sein kann. Unsere Demo und der Code sind unter https://dexgraspvla.github.io/ verfügbar.
Die Anwendung großer Sprachmodelle (LLMs) zur Unterstützung in der psychologischen Beratung ist ein aufstrebender und bedeutungsvoller Ansatz, der durch die erhebliche Lücke zwischen den Bedürfnissen der Patienten und der Verfügbarkeit von psychologischer Unterstützung vorangetrieben wird. Allerdings haben aktuelle LLMs Schwierigkeiten, konsistente und effektive Antworten auf die Äußerungen von Klienten zu liefern, was größtenteils auf den Mangel an qualitativ hochwertigen, realen psychologischen Beratungsdaten zurückzuführen ist, deren Inhalte aufgrund von Datenschutzbedenken der Klienten typischerweise nicht zugänglich sind. Darüber hinaus kann die Qualität der Antworten von Therapeuten in verfügbaren Sitzungen erheblich variieren, abhängig von ihrer professionellen Ausbildung und Erfahrung. Die Bewertung der Qualität der Antworten von Therapeuten bleibt eine offene Herausforderung. In dieser Arbeit gehen wir diese Herausforderungen an, indem wir zunächst einen Satz professioneller und umfassender Prinzipien zur Bewertung der Antworten von Therapeuten auf die Äußerungen von Klienten vorschlagen. Mit diesen Prinzipien erstellen wir einen Präferenzdatensatz, PsychoCounsel-Preference, der 36.000 hochwertige Präferenzvergleichspaare enthält. Dieser Datensatz stimmt mit den Präferenzen professioneller Psychotherapeuten überein und bietet eine robuste Grundlage für die Bewertung und Verbesserung von LLMs in der psychologischen Beratung. Experimente zur Belohnungsmodellierung und Präferenzlernens zeigen, dass PsychoCounsel-Preference eine hervorragende Ressource für LLMs ist, um wesentliche Fähigkeiten für die Reaktion auf Klienten in einer Beratungssitzung zu erwerben. Unser bestangepasstes Modell, PsychoCounsel-Llama3-8B, erreicht eine beeindruckende Gewinnrate von 87 % gegenüber GPT-4o. Wir veröffentlichen PsychoCounsel-Preference, PsychoCounsel-Llama3-8B und das Belohnungsmodell PsychoCounsel Llama3-8B-Reward, um die Forschung zur psychologischen Beratung mit LLMs zu fördern, unter: https://hf.co/Psychotherapy-LLM.
Menschliches Handeln wird durch Normen reguliert. Wenn Menschen Handlungen in der realen Welt ausführen, folgen sie nicht nur Normen, sondern berücksichtigen auch den Abwägungsprozess zwischen verschiedenen Normen. Maschinen hingegen werden oft ohne explizite Anleitung zum Verständnis und zur Argumentation von Normen trainiert, insbesondere wenn diese Normen in einem physischen und sozialen Kontext verankert sind. Um die normative Argumentationsfähigkeit von Vision-Sprach-Modellen (VLMs) zu verbessern und zu bewerten, stellen wir EgoNormia |epsilon| vor, das aus 1.853 egozentrischen Videos menschlicher Interaktionen besteht, von denen jedes zwei verwandte Fragen enthält, die sowohl die Vorhersage als auch die Begründung normativer Handlungen bewerten. Die normativen Handlungen umfassen sieben Kategorien: Sicherheit, Privatsphäre, Proxemik, Höflichkeit, Kooperation, Koordination/Proaktivität und Kommunikation/Verständlichkeit. Um diesen Datensatz in großem Maßstab zu erstellen, schlagen wir eine neuartige Pipeline vor, die Video-Sampling, automatische Antwortgenerierung, Filterung und menschliche Validierung nutzt. Unsere Arbeit zeigt, dass aktuelle state-of-the-art Vision-Sprach-Modelle ein mangelhaftes Verständnis von Normen aufweisen und auf EgoNormia maximal 45 % erreichen (im Vergleich zu einer menschlichen Benchmark von 92 %). Unsere Analyse der Leistung in jeder Dimension unterstreicht die erheblichen Risiken in Bezug auf Sicherheit, Privatsphäre sowie die mangelnde Fähigkeit zur Zusammenarbeit und Kommunikation, wenn diese Modelle auf reale Agenten angewendet werden. Zusätzlich zeigen wir, dass es durch eine retrieverbasierte Generationsmethode möglich ist, EgoNormia zu nutzen, um die normative Argumentationsfähigkeit in VLMs zu verbessern.
Trotz bedeutender Fortschritte bei der diffusionsbasierten Bildgenerierung bleiben subjektgetriebene Generierung und anweisungsbasierte Bearbeitung herausfordernd. Bestehende Methoden behandeln sie typischerweise separat und kämpfen mit begrenzten hochwertigen Daten und schlechter Generalisierung. Beide Aufgaben erfordern jedoch die Erfassung komplexer visueller Variationen bei gleichzeitiger Wahrung der Konsistenz zwischen Eingaben und Ausgaben. Daher schlagen wir MIGE vor, ein einheitliches Framework, das Aufgabenrepräsentationen durch multimodale Anweisungen standardisiert. Es behandelt subjektgetriebene Generierung als Erstellung auf einer leeren Leinwand und anweisungsbasierte Bearbeitung als Modifikation eines bestehenden Bildes, wodurch eine gemeinsame Eingabe-Ausgabe-Formulierung etabliert wird. MIGE führt einen neuartigen multimodalen Encoder ein, der freiformulierte multimodale Anweisungen in einen einheitlichen Vision-Sprache-Raum abbildet und visuelle und semantische Merkmale durch einen Feature-Fusion-Mechanismus integriert. Diese Vereinheitlichung ermöglicht das gemeinsame Training beider Aufgaben und bietet zwei wesentliche Vorteile: (1) Aufgabenübergreifende Verbesserung: Durch die Nutzung gemeinsamer visueller und semantischer Repräsentationen verbessert das gemeinsame Training die Anweisungsbefolgung und visuelle Konsistenz sowohl bei der subjektgetriebenen Generierung als auch bei der anweisungsbasierten Bearbeitung. (2) Generalisierung: Das Lernen in einem einheitlichen Format erleichtert den Wissenstransfer zwischen Aufgaben, wodurch MIGE in der Lage ist, sich auf neuartige kompositionelle Aufgaben zu verallgemeinern, einschließlich anweisungsbasierter subjektgetriebener Bearbeitung. Experimente zeigen, dass MIGE sowohl in der subjektgetriebenen Generierung als auch in der anweisungsbasierten Bearbeitung hervorragende Leistungen erzielt und gleichzeitig einen State-of-the-Art in der neuen Aufgabe der anweisungsbasierten subjektgetriebenen Bearbeitung setzt. Code und Modell sind öffentlich unter https://github.com/Eureka-Maggie/MIGE verfügbar.
Aktuelle Multi-modale Large Language Models (MLLMs) haben große Fortschritte im Bereich des Videoverständnisses erzielt. Ihre Leistung bei Videos, die menschliche Handlungen beinhalten, ist jedoch nach wie vor durch den Mangel an hochwertigen Daten eingeschränkt. Um dies zu beheben, führen wir einen zweistufigen Datenannotationsprozess ein. Zunächst entwickeln wir Strategien, um Videos mit eindeutigen menschlichen Handlungen aus dem Internet zu sammeln. Anschließend werden die Videos in einem standardisierten Beschreibungsformat annotiert, das menschliche Attribute zur Unterscheidung von Personen verwendet und deren Handlungen und Interaktionen chronologisch detailliert beschreibt. Durch diesen Prozess haben wir zwei Datensätze kuratiert, nämlich HAICTrain und HAICBench. HAICTrain umfasst 126.000 Video-Beschreibungs-Paare, die von Gemini-Pro generiert und für Trainingszwecke verifiziert wurden. HAICBench hingegen enthält 500 manuell annotierte Video-Beschreibungs-Paare sowie 1.400 Frage-Antwort-Paare, um ein umfassendes Verständnis menschlicher Handlungen zu evaluieren. Experimentelle Ergebnisse zeigen, dass das Training mit HAICTrain nicht nur das Verständnis menschlicher Handlungen über 4 Benchmarks hinweg signifikant verbessert, sondern auch die Ergebnisse der Text-zu-Video-Generierung steigern kann. Sowohl HAICTrain als auch HAICBench sind unter https://huggingface.co/datasets/KuaishouHAIC/HAIC veröffentlicht.