Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die jüngsten Fortschritte bei Multi-modalen Large Language Models (MLLMs) haben neue Möglichkeiten für Anwendungen in der Embodied AI eröffnet. Aufbauend auf früheren Arbeiten, EgoThink, stellen wir VidEgoThink vor, einen umfassenden Benchmark zur Bewertung der Fähigkeiten zur Verständnis von egozentrischen Videos. Um die Kluft zwischen MLLMs und der niedrigstufigen Steuerung in der Embodied AI zu überbrücken, entwerfen wir vier Schlüsselaufgaben: Video-Fragenbeantwortung, Hierarchieplanung, visuelle Verankerung und Belohnungsmodellierung. Um manuelle Annotierungskosten zu minimieren, entwickeln wir eine automatische Datengenerierungspipeline basierend auf dem Ego4D-Datensatz, unter Nutzung des Vorwissens und der multimodalen Fähigkeiten von GPT-4o. Drei menschliche Annotatoren filtern dann die generierten Daten, um Vielfalt und Qualität sicherzustellen, was zum VidEgoThink-Benchmark führt. Wir führen umfangreiche Experimente mit drei Arten von Modellen durch: API-basierte MLLMs, Open-Source-Bild-basierte MLLMs und Open-Source-Video-basierte MLLMs. Die experimentellen Ergebnisse deuten darauf hin, dass alle MLLMs, einschließlich GPT-4o, bei allen Aufgaben im Zusammenhang mit dem Verständnis von egozentrischen Videos schlecht abschneiden. Diese Erkenntnisse legen nahe, dass Grundlagenmodelle noch erhebliche Fortschritte benötigen, um effektiv auf Szenarien aus der Ich-Perspektive in der Embodied AI angewendet zu werden. Abschließend spiegelt VidEgoThink einen Forschungstrend wider, MLLMs für egozentrische Visionen einzusetzen, ähnlich den menschlichen Fähigkeiten, die eine aktive Beobachtung und Interaktion in komplexen realen Umgebungen ermöglichen.
Das Codieren von Aufgaben war wertvoll für die Bewertung von Large Language Models (LLMs), da sie das Verständnis von hochrangigen Anweisungen, komplexe Schlussfolgerungen und die Implementierung funktionaler Programme erfordern - Kernkompetenzen zur Förderung der Künstlichen Allgemeinen Intelligenz. Trotz des Fortschritts bei Large Multimodal Models (LMMs), die LLMs um visuelle Wahrnehmungs- und Verständnisfähigkeiten erweitern, besteht weiterhin ein bemerkenswerter Mangel an Codierungs-Benchmarks, die diese Modelle rigoros bewerten, insbesondere in Aufgaben, die visuelle Schlussfolgerungen betonen. Um diese Lücke zu schließen, stellen wir HumanEval-V vor, einen neuartigen und leichtgewichtigen Benchmark, der speziell entwickelt wurde, um die visuelle Verständnis- und Schlussfolgerungsfähigkeiten von LMMs durch Codegenerierung zu bewerten. HumanEval-V umfasst 108 sorgfältig ausgearbeitete, Einsteiger-Python-Codierungsaufgaben, die von Plattformen wie CodeForces und Stack Overflow abgeleitet sind. Jede Aufgabe wird durch Anpassung des Kontexts und der algorithmischen Muster der ursprünglichen Probleme angepasst, wobei visuelle Elemente neu gezeichnet werden, um eine Unterscheidung von der Quelle sicherzustellen und potenzielle Datenlecks zu verhindern. LMMs müssen die Code-Lösung basierend auf dem bereitgestellten visuellen Kontext und einer vordefinierten Python-Funktions-Signatur, die die Aufgabenanforderungen umreißt, vervollständigen. Jede Aufgabe ist mit sorgfältig handgefertigten Testfällen ausgestattet, um eine gründliche und zuverlässige Bewertung der vom Modell generierten Lösungen sicherzustellen. Wir evaluieren 19 hochmoderne LMMs mit HumanEval-V und decken signifikante Herausforderungen auf. Proprietäre Modelle wie GPT-4o erreichen nur 13% pass@1 und 36,4% pass@10, während Open-Weight-Modelle mit 70 Milliarden Parametern unter 4% pass@1 erzielen. Ablationsstudien zeigen weiterhin die Grenzen der aktuellen LMMs in der visuellen Schlussfolgerung und den Codierungsfähigkeiten auf. Diese Ergebnisse unterstreichen Schlüsselbereiche für zukünftige Forschung zur Verbesserung der Fähigkeiten von LMMs. Wir haben unseren Code und Benchmark unter https://github.com/HumanEval-V/HumanEval-V-Benchmark Open Source zur Verfügung gestellt.
Die Layout-Analyse von Dokumenten ist entscheidend für Systeme zur Dokumentenverarbeitung in der realen Welt, stößt jedoch auf einen herausfordernden Kompromiss zwischen Geschwindigkeit und Genauigkeit: Multimodale Methoden, die sowohl Text- als auch visuelle Merkmale nutzen, erzielen eine höhere Genauigkeit, leiden jedoch unter signifikanter Latenz, während unimodale Methoden, die ausschließlich auf visuellen Merkmalen beruhen, schnellere Verarbeitungsgeschwindigkeiten aufweisen, jedoch auf Kosten der Genauigkeit. Um dieses Dilemma anzugehen, stellen wir DocLayout-YOLO vor, einen neuartigen Ansatz, der die Genauigkeit verbessert, während er Geschwindigkeitsvorteile durch dokumentenspezifische Optimierungen sowohl im Pre-Training als auch im Modellentwurf beibehält. Für ein robustes Dokumenten-Pre-Training führen wir den Mesh-candidate BestFit-Algorithmus ein, der die Dokumentsynthese als ein zweidimensionales Behälterpackungsproblem darstellt und den umfangreichen und vielfältigen DocSynth-300K-Datensatz generiert. Das Pre-Training auf dem resultierenden DocSynth-300K-Datensatz verbessert die Feinabstimmungsleistung signifikant für verschiedene Dokumententypen. In Bezug auf die Modelloptimierung schlagen wir ein Global-to-Local Controllable Receptive Module vor, das in der Lage ist, mehrskalige Variationen von Dokumentenelementen besser zu handhaben. Darüber hinaus führen wir zur Validierung der Leistung über verschiedene Dokumententypen hinweg einen komplexen und anspruchsvollen Benchmark namens DocStructBench ein. Umfangreiche Experimente mit nachgelagerten Datensätzen zeigen, dass DocLayout-YOLO sowohl in Bezug auf Geschwindigkeit als auch Genauigkeit hervorragende Leistungen erbringt. Der Code, die Daten und die Modelle sind unter https://github.com/opendatalab/DocLayout-YOLO verfügbar.
In jüngster Zeit haben bedeutende Fortschritte bei großen multimodalen Modellen (LMMs) die Leistungsfähigkeit bei verschiedenen Aufgaben erheblich verbessert, wobei laufende Bemühungen bestehen, zusätzliche Modalitäten wie Video und Audio weiter zu integrieren. Allerdings bleiben die meisten bestehenden LMMs anfällig für Halluzinationen, also Diskrepanzen zwischen den tatsächlichen multimodalen Eingaben und den generierten textuellen Ausgaben, was ihre Anwendbarkeit in verschiedenen realen Szenarien einschränkt. Diese Arbeit präsentiert die erste systematische Untersuchung von Halluzinationen in LMMs, die die drei häufigsten Modalitäten umfassen: Sprache, visuell und Audio. Unsere Studie zeigt zwei Hauptursachen für Halluzinationen auf: übermäßiges Vertrauen in unimodale Voraussetzungen und irreführende Intermodalitätskorrelationen. Um diesen Herausforderungen zu begegnen, führen wir den Benchmark "Der Fluch der Multi-Modalitäten" (CMM) ein, der Halluzinationen in LMMs umfassend bewertet und eine detaillierte Analyse ihrer zugrunde liegenden Probleme bietet. Unsere Ergebnisse heben Schlüsselanfälligkeiten hervor, darunter Ungleichgewichte in der Modalitätsintegration und Voreingenommenheiten aus den Trainingsdaten, was die Notwendigkeit ausgewogener kreuzmodaler Lernansätze und verbesserter Halluzinationsminderungsstrategien unterstreicht. Basierend auf unseren Beobachtungen und Ergebnissen schlagen wir potenzielle Forschungsrichtungen vor, die die Zuverlässigkeit von LMMs verbessern könnten.
Autonomes Planen ist eine fortlaufende Bestrebung seit der Entstehung der künstlichen Intelligenz. Basierend auf kuratierten Problemlösern konnten frühe Planungsagenten präzise Lösungen für spezifische Aufgaben liefern, jedoch fehlte es an Verallgemeinerung. Das Aufkommen großer Sprachmodelle (LLMs) und ihrer leistungsstarken Schlussfolgerungsfähigkeiten hat das Interesse am autonomen Planen wieder entfacht, indem sie automatisch plausible Lösungen für gegebene Aufgaben generieren. Dennoch zeigen frühere Forschungen und unsere Experimente, dass aktuelle Sprachagenten immer noch nicht über Planungsfähigkeiten auf menschlichem Niveau verfügen. Selbst das modernste Schlussfolgerungsmodell, OpenAI o1, erreicht nur 15,6% in einem der komplexen Planungs-Benchmarktests in der realen Welt. Dies wirft eine entscheidende Frage auf: Was hindert Sprachagenten daran, menschenähnliche Planung zu erreichen? Obwohl bestehende Studien eine schwache Leistung bei der Agentenplanung aufgezeigt haben, bleiben die tieferliegenden Probleme sowie die Mechanismen und Grenzen der vorgeschlagenen Strategien zu ihrer Bewältigung unzureichend verstanden. In dieser Arbeit wenden wir die Merkmalsattributionsstudie an und identifizieren zwei Schlüsselfaktoren, die die Agentenplanung behindern: die begrenzte Rolle von Einschränkungen und der abnehmende Einfluss von Fragen. Wir stellen auch fest, dass aktuelle Strategien zwar dazu beitragen, diese Herausforderungen zu mildern, sie jedoch nicht vollständig lösen, was darauf hindeutet, dass Agenten noch einen langen Weg vor sich haben, bevor sie menschenähnliche Intelligenz erreichen.
Die Zusammenführung von Modellen ist zu einer der Schlüsseltechnologien zur Verbesserung der Leistungsfähigkeit und Effizienz von Large Language Models (LLMs) geworden. Allerdings ist unser Verständnis der erwarteten Leistungssteigerungen und Prinzipien beim Zusammenführen von zwei Modellen noch begrenzt. In dieser Arbeit führen wir das Konzept der Modellverwandtschaft ein, den Grad der Ähnlichkeit oder Verwandtschaft zwischen LLMs, analog zur biologischen Evolution. Durch umfassende empirische Analysen stellen wir fest, dass es eine bestimmte Beziehung zwischen der Modellverwandtschaft und den Leistungssteigerungen nach der Modellzusammenführung gibt, die uns bei der Auswahl von Kandidatenmodellen unterstützen kann. Inspiriert davon schlagen wir eine neue Strategie zur Modellzusammenführung vor: Top-k Greedy Merging mit Modellverwandtschaft, die bessere Leistungen auf Benchmark-Datensätzen erzielen kann. Insbesondere entdecken wir, dass die Verwendung der Modellverwandtschaft als Kriterium uns dabei helfen kann, kontinuierlich Modellzusammenführungen durchzuführen, um den Abbau (lokale Optima) in der Modellentwicklung zu lindern, während die Modellverwandtschaft als Leitfaden dienen kann, um diesen Fallen zu entkommen. Der Code ist verfügbar unter https://github.com/zjunlp/ModelKinship.
Konsistenzmodelle (CMs) sind eine leistungsstarke Klasse von Diffusions-basierten generativen Modellen, die für schnelles Sampling optimiert sind. Die meisten bestehenden CMs werden unter Verwendung diskretisierter Zeitschritte trainiert, die zusätzliche Hyperparameter einführen und anfällig für Diskretisierungsfehler sind. Während kontinuierliche Zeitformulierungen diese Probleme mildern können, war ihr Erfolg durch Trainingsinstabilität begrenzt. Um dies zu lösen, schlagen wir einen vereinfachten theoretischen Rahmen vor, der frühere Parametrisierungen von Diffusionsmodellen und CMs vereinheitlicht und die Ursachen für Instabilität identifiziert. Basierend auf dieser Analyse führen wir wesentliche Verbesserungen in der Parameterisierung des Diffusionsprozesses, der Netzwerkarchitektur und der Trainingsziele ein. Diese Änderungen ermöglichen es uns, kontinuierliche CMs in einem noch nie dagewesenen Maßstab zu trainieren, wobei wir 1,5 Milliarden Parameter auf ImageNet 512x512 erreichen. Unser vorgeschlagener Trainingsalgorithmus, der nur zwei Sampling-Schritte verwendet, erzielt FID-Werte von 2,06 auf CIFAR-10, 1,48 auf ImageNet 64x64 und 1,88 auf ImageNet 512x512, wodurch der Unterschied in den FID-Werten zu den besten bestehenden Diffusionsmodellen auf weniger als 10% reduziert wird.
Mit der fortschreitenden Entwicklung großer Sprachmodell (LLMs) sind effiziente Evaluierungsmetriken entscheidend, um ihre Fähigkeit zur Informationskompression und Redundanzreduzierung zu bewerten. Während traditionelle Metriken wie die Matrixentropie wertvolle Einblicke bieten, sind sie aufgrund ihrer \( O(n^3) \) Zeitkomplexität mit Singulärwertzerlegung (SVD) rechenintensiv für Modelle im großen Maßstab. Um dieses Problem zu mildern, führen wir die Matrixkernnorm ein, die nicht nur als Metrik dient, um die Datenkompressionsfähigkeit des LLM zu quantifizieren, sondern auch eine konvexe Näherung des Matrixrangs bietet, um sowohl die prädiktive Unterscheidbarkeit als auch Vielfalt zu erfassen. Durch die Verwendung der \( L_{1,2}-Norm \) zur weiteren Approximation der Kernnorm können wir effektiv die Informationskompressionsfähigkeiten des Modells bewerten. Dieser Ansatz reduziert die Zeitkomplexität auf \( O(n^2) \) und eliminiert die Notwendigkeit für SVD-Berechnungen. Folglich erreicht die Matrixkernnorm Geschwindigkeiten, die 8 bis 24 Mal schneller sind als die Matrixentropie für das CEREBRAS-GPT-Modell, wenn die Größen von 111M auf 6,7B ansteigen. Dieser Leistungsunterschied wird bei größeren Modellen deutlicher, wie in Tests mit anderen Modellen wie Pythia bestätigt. Zusätzlich bestätigen Evaluierungen anhand von Benchmarks und Modellantworten, dass unsere vorgeschlagene Matrixkernnorm ein zuverlässiges, skalierbares und effizientes Werkzeug zur Bewertung der Leistung von LLMs ist, das einen Ausgleich zwischen Genauigkeit und Rechenleistung schafft. Der Code ist verfügbar unter https://github.com/MLGroupJLU/MatrixNuclearNorm.
Der rasante Fortschritt von Text-zu-Bild (T2I) Diffusionsmodellen hat sie befähigt, beispiellose Ergebnisse aus gegebenen Texten zu generieren. Allerdings stoßen bestehende Codierungsmethoden wie CLIP an ihre Grenzen, wenn die Texteingaben länger werden, und die Ausrichtung der generierten Bilder mit langen Texten wird herausfordernd. Um diese Probleme anzugehen, schlagen wir LongAlign vor, das eine Segmentebene-Codierungsmethode zur Verarbeitung langer Texte und eine zerlegte Präferenzoptimierungsmethode für effektives Ausrichtungstraining umfasst. Bei der Segmentebene-Codierung werden lange Texte in mehrere Segmente aufgeteilt und separat verarbeitet. Diese Methode überwindet die maximalen Eingabelängenbeschränkungen vortrainierter Codierungsmodelle. Für die Präferenzoptimierung stellen wir zerlegte CLIP-basierte Präferenzmodelle zur Feinabstimmung der Diffusionsmodelle bereit. Insbesondere tauchen wir in ihre Bewertungsmechanismen ein und stellen fest, dass die Präferenzwerte in zwei Komponenten zerlegt werden können: ein textrelevanter Teil, der die T2I-Ausrichtung misst, und ein textirrelevanter Teil, der andere visuelle Aspekte der menschlichen Präferenz bewertet. Darüber hinaus stellen wir fest, dass der textirrelevante Teil zu einem häufigen Überanpassungsproblem während der Feinabstimmung beiträgt. Um dies anzugehen, schlagen wir eine Neugewichtungsstrategie vor, die diesen beiden Komponenten unterschiedliche Gewichte zuweist, um so Überanpassung zu reduzieren und die Ausrichtung zu verbessern. Nachdem wir 512-mal 512 Stable Diffusion (SD) v1.5 für etwa 20 Stunden mit unserer Methode feinabgestimmt haben, übertrifft der feinabgestimmte SD stärkere Grundlagenmodelle in der T2I-Ausrichtung, wie PixArt-alpha und Kandinsky v2.2. Der Code ist verfügbar unter https://github.com/luping-liu/LongAlign.
Der aktuelle Paradigmenwechsel für die Sicherheitsausrichtung großer Sprachmodelle (LLMs) folgt einem Einheitsansatz: Das Modell weigert sich, mit Inhalten zu interagieren, die vom Modellanbieter als unsicher eingestuft werden. Dieser Ansatz mangelt an Flexibilität angesichts unterschiedlicher sozialer Normen in verschiedenen Kulturen und Regionen. Darüber hinaus können Benutzer unterschiedliche Sicherheitsbedürfnisse haben, wodurch ein Modell mit statischen Sicherheitsstandards zu restriktiv ist, um nützlich zu sein, und zu kostspielig, um neu ausgerichtet zu werden. Wir schlagen Controllable Safety Alignment (CoSA) vor, ein Framework, das entwickelt wurde, um Modelle an verschiedene Sicherheitsanforderungen anzupassen, ohne sie neu zu trainieren. Anstatt ein festes Modell auszurichten, passen wir Modelle an, um Sicherheitskonfigurationen zu befolgen - freiformnatürliche Sprachbeschreibungen des gewünschten Sicherheitsverhaltens -, die als Teil der Systemaufforderung bereitgestellt werden. Um das Sicherheitsverhalten des Modells anzupassen, müssen autorisierte Benutzer nur solche Sicherheitskonfigurationen zur Inferenzzeit ändern. Um dies zu ermöglichen, schlagen wir CoSAlign vor, eine datenzentrierte Methode zur Ausrichtung von LLMs, um sich leicht an verschiedene Sicherheitskonfigurationen anzupassen. Darüber hinaus entwickeln wir ein neuartiges Kontrollierbarkeitsbewertungsprotokoll, das sowohl Hilfreichkeit als auch konfigurierte Sicherheit berücksichtigt und sie in den CoSA-Score zusammenfasst, und konstruieren CoSApien, einen von Menschen erstellten Benchmark, der aus LLM-Anwendungsfällen aus der realen Welt mit unterschiedlichen Sicherheitsanforderungen und entsprechenden Bewertungsaufforderungen besteht. Wir zeigen, dass CoSAlign zu erheblichen Verbesserungen der Kontrollierbarkeit im Vergleich zu starken Baselines, einschließlich der kontextbezogenen Ausrichtung, führt. Unser Framework fördert eine bessere Repräsentation und Anpassung an pluralistische menschliche Werte in LLMs und erhöht dadurch ihre Praktikabilität.
Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten in verschiedenen Aufgaben gezeigt, aber ihre Leistung ist stark abhängig von den verwendeten Anfragen. Diese Variabilität stellt Herausforderungen für eine genaue Bewertung und Benutzerzufriedenheit dar. Aktuelle Forschung vernachlässigt häufig prompt-spezifische Variationen und deren Auswirkungen auf subjektive Bewertungen. Um diese Mängel anzugehen, stellen wir ProSA vor, ein Framework, das entwickelt wurde, um die Empfindlichkeit von Anfragen in LLMs zu bewerten und zu verstehen. ProSA integriert eine neuartige Empfindlichkeitsmetrik, PromptSensiScore, und nutzt die Dekodierungskonfidenz, um zugrundeliegende Mechanismen zu erläutern. Unsere umfangreiche Studie, die mehrere Aufgaben umfasst, zeigt, dass die Empfindlichkeit von Anfragen je nach Datensätzen und Modellen schwankt, wobei größere Modelle eine verbesserte Robustheit aufweisen. Wir beobachten, dass Few-Shot-Beispiele dieses Empfindlichkeitsproblem lindern können und subjektive Bewertungen auch anfällig für Anfrageempfindlichkeiten sind, insbesondere bei komplexen, auf Schlussfolgerungen ausgerichteten Aufgaben. Darüber hinaus zeigen unsere Ergebnisse, dass eine höhere Modellkonfidenz mit einer erhöhten Anfrage-Robustheit korreliert. Wir sind der Ansicht, dass diese Arbeit als nützliches Werkzeug zur Untersuchung der Anfrageempfindlichkeit von LLMs dienen wird. Das Projekt ist unter folgendem Link verfügbar: https://github.com/open-compass/ProSA.
Gelernte Sparse Retrieval (LSR) Modelle verwenden Vokabulare aus vorab trainierten Transformern, die Entitäten oft in sinnlose Fragmente aufteilen. Das Aufteilen von Entitäten kann die Abrufgenauigkeit verringern und die Fähigkeit des Modells einschränken, aktuelles Weltwissen zu integrieren, das nicht in den Trainingsdaten enthalten ist. In dieser Arbeit erweitern wir den LSR-Wortschatz um Wikipedia-Konzepte und -Entitäten, um dem Modell zu ermöglichen, Mehrdeutigkeiten effektiver aufzulösen und mit dem sich entwickelnden Wissen Schritt zu halten. Zentral für unseren Ansatz ist ein Dynamischer Vokabelkopf (DyVo), der vorhandene Entitäts-Einbettungen und eine Entitätsabrufkomponente nutzt, um Entitäten zu identifizieren, die für eine Abfrage oder ein Dokument relevant sind. Wir verwenden den DyVo-Kopf, um Entitätsgewichte zu generieren, die dann mit Wortstück-Gewichten fusioniert werden, um gemeinsame Repräsentationen für eine effiziente Indizierung und Abfrage mithilfe eines invertierten Index zu erstellen. In Experimenten über drei entitätenreiche Dokumenten-Ranglisten-Datensätze hinweg übertrifft das resultierende DyVo-Modell deutlich die State-of-the-Art-Baselines.
Die Effizienz großer Seh-Sprach-Modelle (LVLMs) wird durch das Rechenengpass des Aufmerksamkeitsmechanismus während der Vorausfüllphase und den Speicherengpass beim Abrufen des Schlüssel-Wert (KV)-Caches in der Decodierungsphase eingeschränkt, insbesondere in Szenarien mit hochauflösenden Bildern oder Videos. Visueller Inhalt zeigt oft erhebliche Redundanz, was zu stark spärlichen Aufmerksamkeitskarten innerhalb von LVLMs führt. Diese Sparsamkeit kann genutzt werden, um die Aufmerksamkeitsberechnung zu beschleunigen oder den KV-Cache durch verschiedene Ansätze zu komprimieren. Die meisten Studien konzentrieren sich jedoch darauf, nur einen dieser Engpässe zu bewältigen und unterstützen keine dynamische Anpassung der Sparsamkeit in Bezug auf unterschiedliche Schichten oder Aufgaben ausreichend. In diesem Artikel stellen wir ZipVL vor, ein effizientes Inferenz-Framework, das für LVLMs entwickelt wurde und sowohl Rechen- als auch Speicherengpässe durch eine dynamische Zuweisungsstrategie von wichtigen Tokens löst. Dieses Verhältnis wird adaptiv basierend auf der schichtspezifischen Verteilung der Aufmerksamkeitswerte bestimmt, anstatt auf festen Hyperparametern zu beruhen, wodurch die Effizienz für weniger komplexe Aufgaben verbessert wird, während die Leistung für anspruchsvollere erhalten bleibt. Anschließend wählen wir wichtige Tokens basierend auf ihren normalisierten Aufmerksamkeitswerten aus und führen den Aufmerksamkeitsmechanismus ausschließlich auf diesen wichtigen Tokens durch, um die Vorausfüllphase zu beschleunigen. Um den Speicherengpass in der Decodierungsphase zu mildern, wenden wir eine gemischte Präzisionsquantisierung auf den KV-Cache an, wobei eine hohe Bit-Quantisierung für Caches von wichtigen Tokens verwendet wird, während eine niedrige Bit-Quantisierung für die von geringerer Bedeutung angewendet wird. Unsere Experimente zeigen, dass ZipVL die Vorausfüllphase um das 2,6-fache beschleunigen und den GPU-Speicherverbrauch um 50,0 % reduzieren kann, bei einer minimalen Genauigkeitsreduzierung von nur 0,2 % im Video-MME-Benchmark über das LongVA-7B-Modell, wodurch die Generierungseffizienz von LVLMs effektiv verbessert wird.
Latentenbasierte Bild-generative Modelle, wie Latente Diffusionsmodelle (LDMs) und Maskenbildmodelle (MIMs), haben bemerkenswerten Erfolg bei Bildgenerierungsaufgaben erzielt. Diese Modelle nutzen in der Regel rekonstruktive Autoencoder wie VQGAN oder VAE, um Pixel in einen kompakteren latenten Raum zu kodieren und die Datenverteilung im latenten Raum anstelle direkt von den Pixeln zu erlernen. Diese Praxis wirft jedoch eine wichtige Frage auf: Ist dies wirklich die optimale Wahl? Als Antwort beginnen wir mit einer faszinierenden Beobachtung: Obwohl autoregressive Modelle den gleichen latenten Raum teilen, hinken sie bei der Bildgenerierung signifikant hinter LDMs und MIMs hinterher. Dieser Befund steht im starken Kontrast zum Bereich der natürlichen Sprachverarbeitung, wo das autoregressive Modell GPT eine dominierende Präsenz etabliert hat. Um diese Diskrepanz anzugehen, führen wir eine vereinheitlichte Perspektive auf die Beziehung zwischen latentem Raum und generativen Modellen ein und betonen die Stabilität des latenten Raums bei der Bildgenerierung. Darüber hinaus schlagen wir einen einfachen, aber effektiven diskreten Bild-Tokenizer vor, um den latenten Raum für die Bildgenerierung zu stabilisieren. Experimentelle Ergebnisse zeigen, dass die Bildautoregressive Modellierung mit unserem Tokenizer (DiGIT) sowohl der Bildverarbeitung als auch der Bildgenerierung mit dem Prinzip der Vorhersage des nächsten Tokens zugute kommt, das für GPT-Modelle inhärent einfach, aber für andere generative Modelle herausfordernd ist. Bemerkenswert ist, dass ein GPT-ähnliches autoregressives Modell für Bilder erstmals LDMs übertrifft, was auch eine deutliche Verbesserung ähnlich wie bei GPT bei Skalierung der Modellgröße zeigt. Unsere Ergebnisse unterstreichen das Potenzial eines optimierten latenten Raums und die Integration der diskreten Tokenisierung zur Weiterentwicklung der Fähigkeiten von Bild-generativen Modellen. Der Code ist verfügbar unter https://github.com/DAMO-NLP-SG/DiGIT.
Große Sprachmodelle (LLMs) haben signifikanten Einfluss auf viele Aspekte unseres Lebens. Die Bewertung und Sicherstellung ihres chronologischen Wissens bleibt jedoch eine Herausforderung. Bestehende Ansätze sind unzureichend, um die akkumulative Natur des Wissens zu berücksichtigen und verlassen sich oft auf einen einzigen Zeitstempel. Um dies zu überwinden, stellen wir ChroKnowBench vor, einen Benchmark-Datensatz, der entwickelt wurde, um chronologisch akkumuliertes Wissen in drei Schlüsselaspekten zu bewerten: multiple Domänen, Zeitabhängigkeit, zeitlicher Zustand. Unser Benchmark unterscheidet zwischen Wissen, das sich entwickelt (z. B. wissenschaftliche Entdeckungen, geänderte Gesetze) und Wissen, das konstant bleibt (z. B. mathematische Wahrheiten, Alltagsfakten). Aufbauend auf diesem Benchmark präsentieren wir ChroKnowledge (Chronologische Kategorisierung des Wissens), ein neuartiges sampling-basiertes Framework zur Bewertung und Aktualisierung des nicht-parametrischen chronologischen Wissens von LLMs. Unsere Evaluation zeigt: (1) Die Fähigkeit, zeitliches Wissen zu erlangen, variiert je nach Datenformat, auf dem das Modell trainiert wurde. (2) LLMs rufen Wissen teilweise ab oder zeigen einen Abbruch an zeitlichen Grenzen, anstatt alle Aspekte des Wissens korrekt abzurufen. Daher wenden wir unser ChroKnowPrompt an, eine eingehende Aufforderung, um chronologisches Wissen zu erlangen, indem wir schrittweise durch die umliegenden Zeitspannen gehen. Wir beobachten, dass unser Framework das Gesamtwissen über die gesamte Zeitspanne sowohl in der biomedizinischen Domäne (+11,9%) als auch in der allgemeinen Domäne (+2,8%) erfolgreich aktualisiert, was seine Wirksamkeit bei der Verfeinerung des zeitlichen Wissens zeigt. Dieser nicht-parametrische Ansatz ermöglicht auch Wissensaktualisierungen nicht nur in Open-Source-Modellen, sondern auch in proprietären LLMs und gewährleistet eine umfassende Anwendbarkeit über Modelltypen hinweg. Wir führen eine umfassende Analyse basierend auf den zeitlichen Eigenschaften von ChroKnowPrompt durch und validieren das Potenzial verschiedener Modelle, intrinsisches zeitliches Wissen durch unsere Methode zu erlangen.
Dieses Paper stellt ein neues Lernparadigma namens Neural Metamorphosis (NeuMeta) vor, das darauf abzielt, selbstveränderliche neuronale Netzwerke aufzubauen. Im Gegensatz zur Erstellung separater Modelle für verschiedene Architekturen oder Größen lernt NeuMeta direkt das kontinuierliche Gewichtsmanifold neuronaler Netzwerke. Nach dem Training können wir Gewichte für Netzwerke jeder Größe direkt aus dem Manifold sampeln, selbst für zuvor nicht gesehene Konfigurationen, ohne erneutes Training. Um dieses ehrgeizige Ziel zu erreichen, trainiert NeuMeta neuronale implizite Funktionen als Hypernetzwerke. Sie akzeptieren Koordinaten im Modellraum als Eingabe und generieren entsprechende Gewichtswerte im Manifold. Mit anderen Worten wird die implizite Funktion so gelernt, dass die vorhergesagten Gewichte über verschiedene Modellgrößen hinweg gut funktionieren. Beim Training dieser Modelle stellen wir fest, dass die endgültige Leistung eng mit der Glattheit des gelernten Manifolds zusammenhängt. Um diese Glattheit zu verbessern, verwenden wir zwei Strategien. Erstens permutieren wir Gewichtsmatrizen, um Intra-Modell-Glattheit zu erreichen, indem wir das Problem des kürzesten Hamiltonschen Pfads lösen. Darüber hinaus fügen wir beim Training der impliziten Funktion eine Rauschkomponente zu den Eingabekoordinaten hinzu, um sicherzustellen, dass Modelle mit verschiedenen Größen konsistente Ausgaben zeigen. Auf diese Weise zeigt NeuMeta vielversprechende Ergebnisse bei der Synthese von Parametern für verschiedene Netzwerkkonfigurationen. Unsere umfangreichen Tests in der Bildklassifizierung, semantischen Segmentierung und Bildgenerierung zeigen, dass NeuMeta die Leistung in voller Größe auch bei einer Kompressionsrate von 75 % aufrechterhält.
Multimodale/Sprachmodelle für Vision (VLMs) werden zunehmend in Gesundheitseinrichtungen weltweit eingesetzt, was robuste Benchmarks erfordert, um ihre Sicherheit, Wirksamkeit und Fairness zu gewährleisten. Mehrfachauswahl-Frage-und-Antwort (QA)-Datensätze, die aus nationalen medizinischen Prüfungen abgeleitet sind, haben lange Zeit als wertvolle Evaluierungswerkzeuge gedient, aber bestehende Datensätze bestehen größtenteils nur aus Text und sind nur in einer begrenzten Anzahl von Sprachen und Ländern verfügbar. Um diesen Herausforderungen zu begegnen, präsentieren wir WorldMedQA-V, einen aktualisierten mehrsprachigen, multimodalen Benchmark-Datensatz, der entwickelt wurde, um VLMs im Gesundheitswesen zu evaluieren. WorldMedQA-V umfasst 568 gekennzeichnete mehrfachauswahl QA-Paare mit 568 medizinischen Bildern aus vier Ländern (Brasilien, Israel, Japan und Spanien), die jeweils die Originalsprachen und validierte englische Übersetzungen durch Muttersprachler-Kliniker abdecken. Baseline-Performance für gängige Open- und Closed-Source-Modelle werden in der lokalen Sprache und in englischen Übersetzungen bereitgestellt, sowohl mit als auch ohne Bilder, die dem Modell zur Verfügung gestellt werden. Der WorldMedQA-V Benchmark zielt darauf ab, KI-Systeme besser an die vielfältigen Gesundheitsumgebungen anzupassen, in denen sie eingesetzt werden, um gerechtere, effektivere und repräsentativere Anwendungen zu fördern.
Wir untersuchen, wie Merkmale in Modellen entstehen, verschwinden und über verschiedene auf Text spezialisierte Modelle hinweg bestehen bleiben. Genauer gesagt beginnen wir mit einem grundlegenden Transformer-Sprachmodell mit einer Schicht, das auf einer Kombination des BabyLM-Korpus und einer Sammlung von Python-Code aus The Stack trainiert wird. Dieses Grundmodell wird an zwei neue Textdomänen angepasst: TinyStories und die Lua-Programmiersprache; und dann werden diese beiden Modelle mithilfe einer sphärischen linearen Interpolation fusioniert. Unsere Untersuchung zielt darauf ab, tiefere Einblicke in die Stabilität und Transformation von Merkmalen über typische Szenarien des Transfer-Learnings mithilfe von kleinskaligen Modellen und spärlichen Autoencodern zu liefern.
Große Sprachmodelle (LLMs), die mit Verstärkendem Lernen aus menschlichem Feedback (RLHF) trainiert wurden, haben bemerkenswerte Fähigkeiten gezeigt, aber ihre zugrunde liegenden Belohnungsfunktionen und Entscheidungsprozesse bleiben undurchsichtig. Dieser Artikel stellt einen neuartigen Ansatz zur Interpretation von LLMs vor, indem inverse Verstärkungslernen (IRL) angewendet wird, um ihre impliziten Belohnungsfunktionen wiederherzustellen. Wir führen Experimente an Toxizitäts-ausgerichteten LLMs unterschiedlicher Größen durch und extrahieren Belohnungsmodelle, die bis zu 80,40% Genauigkeit bei der Vorhersage menschlicher Präferenzen erreichen. Unsere Analyse enthüllt wichtige Erkenntnisse zur Nicht-Identifizierbarkeit von Belohnungsfunktionen, der Beziehung zwischen Modellgröße und Interpretierbarkeit sowie potenziellen Fallstricken im RLHF-Prozess. Wir zeigen, dass durch IRL abgeleitete Belohnungsmodelle zur Feinabstimmung neuer LLMs verwendet werden können, was zu vergleichbarer oder verbesserter Leistung bei Toxizitäts-Benchmarks führt. Diese Arbeit bietet eine neue Perspektive zur Verständnis und Verbesserung der Ausrichtung von LLMs, mit Implikationen für die verantwortungsbewusste Entwicklung und Bereitstellung dieser leistungsstarken Systeme.
Große Sprachmodelle (LLMs) haben bedeutende Fortschritte bei der Textgenerierung und -verständnis erzielt, wobei jüngste Entwicklungen in multimodale LLMs vorgedrungen sind, die visuelle und auditive Eingaben integrieren. Dennoch haben diese Modelle weiterhin Schwierigkeiten mit feingranularem, cross-modalem zeitlichem Verständnis, insbesondere bei der Korrelation von Ereignissen über Audio- und Videoströme hinweg. Wir gehen diese Herausforderungen mit zwei wesentlichen Beiträgen an: einem neuen Datensatz und Modell, genannt OCTAV und OMCAT. OCTAV (Omni Kontext und zeitlich Audio Video) ist ein neuartiger Datensatz, der Ereignisübergänge über Audio und Video erfassen soll. Zweitens ist OMCAT (Omni Kontext-bewusster Transformer) ein leistungsstarkes Modell, das RoTE (Rotary Time Embeddings), eine innovative Erweiterung von RoPE, nutzt, um zeitliche Verankerung und Rechenleistungseffizienz in zeitgebundenen Aufgaben zu verbessern. Durch einen robusten dreistufigen Trainingsprozess - Merkmalsausrichtung, Anweisungsfeinabstimmung und OCTAV-spezifisches Training - zeichnet sich OMCAT im cross-modalen zeitlichen Verständnis aus. Unser Modell zeigt Spitzenleistungen bei Audio-Visuelle Frage-Antwort (AVQA) Aufgaben und dem OCTAV Benchmark, wobei signifikante Fortschritte im zeitlichen Denken und cross-modalen Abgleich demonstriert werden, wie durch umfassende Experimente und Ablationsstudien validiert. Unser Datensatz und Code werden öffentlich zugänglich gemacht. Der Link zu unserer Demo-Seite lautet https://om-cat.github.io.
Moderne Frage-Antwort (QA) und Begründungsansätze basierend auf Großen Sprachmodellen (LLMs) verwenden häufig Anregungstechniken wie Chain-of-Thought (CoT), in der Annahme, dass die resultierende Generierung eine detailliertere Exploration und Begründung des Fragebereichs und -umfangs aufweisen wird. Allerdings haben solche Methoden Schwierigkeiten bei der Generierung von Ausgaben, die dem Zwischenschritt der Begründung, der vom Modell erzeugt wurde, treu bleiben. Auf der anderen Seite des Spektrums schlagen neuro-symbolische Methoden wie Faithful CoT (F-CoT) vor, LLMs mit externen symbolischen Lösungsmitteln zu kombinieren. Obwohl solche Ansätze einen hohen Grad an Treue aufweisen, erfordern sie in der Regel ein für die Codegenerierung trainiertes Modell und haben Schwierigkeiten mit Aufgaben, die mehrdeutig oder schwer streng zu formalisieren sind. Wir stellen Faithful Logic-Aided Reasoning and Exploration (FLARE) vor, einen neuartigen interpretierbaren Ansatz zur Durchquerung des Problemraums unter Verwendung von Aufgabendekompositionen. Wir verwenden das LLM, um eine Lösung zu planen, die Abfrage in Fakten und Prädikate mithilfe eines logischen Programmiercodes weich zu formalisieren und simulieren die Ausführung dieses Codes mittels einer erschöpfenden Mehrfachsprungsuche über den definierten Raum. Unsere Methode ermöglicht es uns, die Treue des Begründungsprozesses hinsichtlich des generierten Codes zu berechnen und die Schritte der Mehrfachsprungsuche zu analysieren, ohne auf externe Solver angewiesen zu sein. Unsere Methoden erzielen SOTA-Ergebnisse bei 7 von 9 verschiedenen Begründungstests. Wir zeigen auch, dass die Modelltreue positiv mit der Gesamtleistung korreliert und zeigen weiterhin, dass FLARE es ermöglicht, die entscheidenden Faktoren zu lokalisieren, die für die korrekte Antwort mit optimaler Begründung während der Mehrfachsprungsuche ausreichend sind und dazu führen.
Die Kalibrierung von Sprachmodellen bezieht sich auf die Übereinstimmung zwischen der Zuversicht des Modells und der tatsächlichen Leistung seiner Antworten. Während frühere Studien das Phänomen der Überzuversicht bei großen Sprachmodellen (Large Language Models, LLMs) aufzeigen und zeigen, dass LLMs, die mit Verstärkendem Lernen aus menschlichem Feedback (Reinforcement Learning from Human Feedback, RLHF) trainiert wurden, übermäßig zuversichtlich mit einer schärferen Ausgabewahrscheinlichkeit sind, enthüllen wir in dieser Studie, dass RLHF dazu neigt, Modelle dazu zu bringen, verbalisierte Überzuversicht in ihren eigenen Antworten auszudrücken. Wir untersuchen die zugrunde liegende Ursache dieser Überzuversicht und zeigen, dass Belohnungsmodelle, die für die Proximal Policy Optimization (PPO) verwendet werden, inhärente Voreingenommenheiten gegenüber hoch zuversichtlichen Punktzahlen aufweisen, unabhängig von der tatsächlichen Qualität der Antworten. Aufbauend auf dieser Erkenntnis schlagen wir zwei PPO-Varianten vor: PPO-M: PPO mit kalibrierter Belohnungsmodellierung und PPO-C: PPO mit kalibrierter Belohnungsberechnung. PPO-M integriert explizite Zuversichtspunktzahlen in das Training des Belohnungsmodells, was die Belohnungsmodelle kalibriert, um die Übereinstimmung zwischen Antwortqualität und verbalisierter Zuversicht besser zu erfassen. PPO-C passt den Belohnungspunkt während PPO basierend auf dem Unterschied zwischen der aktuellen Belohnung und dem gleitenden Durchschnitt vergangener Belohnungen an. Sowohl PPO-M als auch PPO-C können nahtlos in die aktuelle PPO-Pipeline integriert werden und erfordern keine zusätzlichen goldenen Etiketten. Wir evaluieren unsere Methoden sowohl auf Llama3-8B als auch auf Mistral-7B über sechs verschiedene Datensätze, einschließlich Multiple-Choice und offener Generierung. Die Experimentergebnisse zeigen, dass beide unserer Methoden den Kalibrierungsfehler reduzieren können und eine Leistung aufrechterhalten, die mit der Standard-PPO vergleichbar ist. Darüber hinaus zeigen wir, dass sie die Fähigkeiten des Modells in offenen Gesprächseinstellungen nicht beeinträchtigen.
Große Sprachmodelle (LLMs) haben ein signifikantes Potenzial in der Entwicklung intelligenter Anwendungen und Systeme wie LLM-basierte Agenten und Agenten-Betriebssysteme (AIOS) gezeigt. Wenn diese Anwendungen und Systeme jedoch mit dem zugrunde liegenden Dateisystem interagieren, bleibt das Dateisystem immer noch im traditionellen Paradigma verankert: abhängig von manueller Navigation durch präzise Befehle. Dieses Paradigma stellt eine Engstelle für die Benutzerfreundlichkeit dieser Systeme dar, da Benutzer komplexe Ordnerhierarchien durchsuchen und kryptische Dateinamen merken müssen. Um diese Einschränkung zu überwinden, schlagen wir ein auf LLM basierendes semantisches Dateisystem (LSFS) für promptgesteuertes Dateimanagement vor. Im Gegensatz zu herkömmlichen Ansätzen integriert LSFS LLMs, um Benutzern oder Agenten die Interaktion mit Dateien über natürliche Sprachbefehle zu ermöglichen und so semantisches Dateimanagement zu erleichtern. Auf Makroebene entwickeln wir einen umfassenden API-Satz, um semantische Dateimanagementfunktionen zu erreichen, wie semantische Dateiwiederherstellung, Dateiaktualisierungsüberwachung und -zusammenfassung sowie semantischer Dateirücknahme. Auf Mikroebene speichern wir Dateien, indem wir semantische Indizes für sie erstellen, Syscalls für verschiedene semantische Operationen (z. B. CRUD, Gruppierung, Verknüpfung) entwerfen und implementieren, unterstützt durch eine Vektordatenbank. Unsere Experimente zeigen, dass LSFS signifikante Verbesserungen gegenüber traditionellen Dateisystemen in Bezug auf Benutzerfreundlichkeit, die Vielfalt der unterstützten Funktionen sowie die Genauigkeit und Effizienz von Dateioperationen bietet. Darüber hinaus ermöglicht unser System mit der Integration von LLM intelligentere Dateimanagementaufgaben wie Inhaltszusammenfassung und Versionsvergleich, was seine Fähigkeiten weiter verbessert.