Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle (LLMs) haben bemerkenswerte Leistungen bei Schlussfolgerungsaufgaben gezeigt. Sie nutzen die autoregressive Token-Generierung, um Schlussfolgerungspfade zu konstruieren, die die Entwicklung einer kohärenten Gedankenreihe ermöglichen. In dieser Arbeit untersuchen wir die Auswirkung einzelner Tokens auf die endgültigen Ergebnisse von Schlussfolgerungsaufgaben. Wir identifizieren die Existenz von „kritischen Tokens“, die zu falschen Schlussfolgerungspfaden in LLMs führen. Speziell stellen wir fest, dass LLMs dazu neigen, positive Ergebnisse zu erzielen, wenn sie gezwungen sind, andere Tokens anstelle von kritischen Tokens zu decodieren. Basierend auf dieser Beobachtung schlagen wir einen neuartigen Ansatz - cDPO - vor, der darauf abzielt, kritische Tokens automatisch zu erkennen und auf Token-Ebene Belohnungen während des Ausrichtungsprozesses durchzuführen. Konkret entwickeln wir einen kontrastiven Schätzansatz, um kritische Tokens automatisch zu identifizieren. Dies wird erreicht, indem die Generierungswahrscheinlichkeit von positiven und negativen Modellen verglichen wird. Um dies zu erreichen, feinabstimmen wir die positiven und negativen Modelle separat auf verschiedenen Schlussfolgerungspfaden, sodass sie in der Lage sind, kritische Tokens innerhalb falscher Pfade zu identifizieren, die zu fehlerhaften Ergebnissen beitragen. Darüber hinaus erweitern wir die konventionellen DPO-Algorithmen während des Ausrichtungsprozesses auf Token-Ebene und nutzen die differentielle Wahrscheinlichkeit aus den genannten positiven und negativen Modellen als wichtige Gewichtung für das Lernen auf Token-Ebene. Experimentelle Ergebnisse zu den Benchmarks GSM8K und MATH500 mit den beiden weit verbreiteten Modellen Llama-3 (8B und 70B) und deepseek-math (7B) zeigen die Wirksamkeit des vorgeschlagenen Ansatzes cDPO.
Aktuelle Videogenerierungsmodelle sind hervorragend darin, kurze Clips zu generieren, haben jedoch nach wie vor Schwierigkeiten, mehrschüssige, filmähnliche Videos zu erstellen. Bestehende Modelle, die auf groß angelegten Datensätzen und reichhaltigen Rechenressourcen trainiert wurden, sind wenig überraschend unzureichend, um eine logische Handlung und visuelle Konsistenz über mehrere Aufnahmen eines zusammenhängenden Drehbuchs aufrechtzuerhalten, da sie oft mit einem Einzelaufnahmenziel trainiert werden. Zu diesem Zweck schlagen wir VideoGen-of-Thought (VGoT) vor, eine kollaborative und trainingsfreie Architektur, die speziell für die Generierung von mehrschüssigen Videos entwickelt wurde. VGoT wurde mit drei Zielen entworfen, wie folgt. Generierung von mehrschüssigen Videos: Wir unterteilen den Videogenerierungsprozess in eine strukturierte, modulare Sequenz, einschließlich (1) Drehbuchgenerierung, die eine knappe Geschichte in detaillierte Anweisungen für jede Aufnahme übersetzt; (2) Schlüsselbildgenerierung, die für die Erstellung visuell konsistenter Schlüsselbilder treu zu den Charakterdarstellungen verantwortlich ist; und (3) Aufnahmeebene Videogenerierung, die Informationen aus Drehbüchern und Schlüsselbildern in Aufnahmen umwandelt; (4) Glättungsmechanismus, der eine konsistente mehrschüssige Ausgabe sicherstellt. Angemessenes Erzählungsdesign: Inspiriert von der Drehbuchschreibung im Film erstreckt sich unser Ansatz zur Anweisungsgenerierung über fünf Schlüsselbereiche und gewährleistet logische Konsistenz, Charakterentwicklung und Erzählfluss über das gesamte Video hinweg. Konsistenz zwischen den Aufnahmen: Wir gewährleisten zeitliche und Identitätskonsistenz, indem wir identitätserhaltende (IP) Einbettungen über Aufnahmen hinweg nutzen, die automatisch aus der Erzählung erstellt werden. Darüber hinaus integrieren wir einen Querschnitt-Glättungsmechanismus, der eine Rücksetzgrenze einbezieht, die latenten Merkmale von benachbarten Aufnahmen effektiv kombiniert, was zu sanften Übergängen führt und die visuelle Kohärenz über das gesamte Video hinweg aufrechterhält. Unsere Experimente zeigen, dass VGoT bestehende Methoden zur Videogenerierung in der Produktion hochwertiger, kohärenter, mehrschüssiger Videos übertrifft.
Die Ermöglichung einer effektiven Zusammenarbeit zwischen LLMs ist ein entscheidender Schritt zur Entwicklung autonomer Systeme, die in der Lage sind, komplexe Probleme zu lösen. Während LLMs in der Regel als Generatoren einzelner Modelle verwendet werden, bei denen Menschen ihre Ausgaben kritisieren und verfeinern, bleibt das Potenzial für gemeinsam trainierte kooperative Modelle weitgehend unerforscht. Trotz vielversprechender Ergebnisse in Multi-Agenten-Kommunikations- und Debattensituationen wurde bisher wenig Fortschritt bei der Schulung von Modellen erzielt, die gemeinsam an Aufgaben arbeiten. In diesem Papier präsentieren wir einen ersten Schritt hin zur "Multi-Agenten-LLM-Schulung" (MALT) bei Problemen des logischen Denkens. Unser Ansatz verwendet ein sequentielles Multi-Agenten-Setup mit heterogenen LLMs, die spezialisierte Rollen zugewiesen bekommen: ein Generator, ein Verifizierer und ein Verfeinerungsmodell, die iterativ Probleme lösen. Wir schlagen einen Prozess zur synthetischen Datengenerierung auf Basis von Trajektorienausweitung und eine Zuteilungsstrategie von Krediten vor, die von gemeinsamen ergebnisbasierten Belohnungen gesteuert wird. Dies ermöglicht es unserem Post-Training-Setup, sowohl positive als auch negative Trajektorien zu nutzen, um die spezialisierten Fähigkeiten jedes Modells autonom im Rahmen eines gemeinsamen sequentiellen Systems zu verbessern. Wir evaluieren unseren Ansatz in den Bereichen MATH, GSM8k und CQA, wobei MALT auf Llama 3.1 8B-Modellen relative Verbesserungen von 14,14%, 7,12% bzw. 9,40% gegenüber dem gleichen Basislinienmodell erzielt. Dies zeigt einen frühen Fortschritt bei kooperativen Fähigkeiten von Multi-Agenten zur Leistung bei mathematischen und gesunden Menschenverstand-Logikfragen. Allgemeiner betrachtet bietet unsere Arbeit eine konkrete Richtung für die Forschung im Bereich Multi-Agenten-LLM-Schulungsansätze.
Im Gegensatz zu ihren Gegenstücken, den Outcome Reward Models (ORMs), die die gesamten Antworten bewerten, bewertet ein Process Reward Model (PRM) einen Denkprozess Schritt für Schritt und liefert dichtere und feinere Belohnungen. Das Training eines PRM erfordert jedoch Beschriftungen, die bei jedem Zwischenschritt annotiert sind, was sowohl bei manueller als auch automatischer Datensammlung erhebliche Herausforderungen darstellt. Diese Arbeit zielt darauf ab, diese Herausforderung anzugehen. Theoretisch und empirisch zeigen wir, dass ein implizites PRM ohne zusätzliche Kosten erhalten werden kann, indem einfach ein ORM mit den kostengünstigeren Antwort-Level-Beschriftungen trainiert wird. Die einzige Annahme besteht darin, die Outcome-Belohnung als den Log-Likelihood-Verhältnissen der Richtlinien- und Referenzmodelle zu parametrisieren, die unabhängig von der spezifischen Wahl der Verlustziele optimiert werden können. In Experimenten instantiieren wir unsere impliziten PRMs mit verschiedenen Zielen und bewerten ihre Leistung in MATH. Wir zeigen, dass unser implizites PRM eine starke MCTS-basierte Baseline à la Math-Shepherd mit weniger als 1/38 der Trainingsdaten übertrifft. Seine Leistung kann durch Mehrheitsabstimmung weiter verbessert werden. Wir stellen fest, dass die Skalierung von Anweisungen und Antworten unserem impliziten PRM zugutekommt, wobei Letzteres einen größeren Gewinn bringt. Insbesondere stellen wir fest, dass unser implizites PRM, wenn es mit dem Cross-Entropy (CE)-Verlust instantiiert wird, dateneffizienter ist und die Generationsmodelle weiter verbessern kann, selbst wenn sie nur mit einer Antwort pro Anweisung trainiert werden, einem Setup, das unter extremem Datenmangel und Ungleichgewicht leidet. Darüber hinaus sollten Anweisungen für nachgelagerte Aufgaben relevant sein, während die Vielfalt der Antworten keine Vorteile bringt. Überraschenderweise bringen zusätzliche Math-Shepherd-Schrittbewertungen kein weiteres Verbesserungspotenzial für unser implizites PRM, das nur mit Outcome-Daten trainiert wurde. Wir hoffen, dass unsere Arbeit dazu beiträgt, die Herangehensweise an das Training von PRMs zu überdenken und dazu beiträgt, das Training von PRMs zugänglicher zu machen.
Große Sprachmodelle (LLMs) haben die Entwicklung von multimodalen LLMs ermöglicht, die eine starke Verständnisfähigkeit für visuelle Daten wie Bilder und Videos aufweisen. Diese Modelle verlassen sich jedoch in der Regel auf umfangreiche visuelle Token von visuellen Encodern, was zu hohen Rechenanforderungen führt und ihre Anwendbarkeit in ressourcenbeschränkten Umgebungen und für Aufgaben mit langem Kontext einschränkt. In dieser Arbeit schlagen wir eine trainingsfreie adaptive Inferenzmethode für multimodale LLMs vor, die eine breite Palette von Effizienzanforderungen mit minimalem Leistungsabfall bewältigen kann. Unsere Methode besteht aus a) iterativem Token-Merging basierend auf Einbettungssimilarität vor LLMs und b) progressivem Token-Pruning innerhalb von LLM-Schichten basierend auf multimodaler Bedeutung. Mit einem minimalistischen Design kann unsere Methode sowohl auf Video- als auch auf Bild-LLMs angewendet werden. Umfangreiche Experimente an verschiedenen Video- und Bild-Benchmarks zeigen, dass unsere Methode die Rechenlast erheblich reduziert (z. B. eine 7-fache Reduzierung der FLOPs), während die Leistung von Video- und Bild-LLMs erhalten bleibt. Darüber hinaus übertrifft unsere Methode unter ähnlichen Rechenkosten die State-of-the-Art-Methoden im Verständnis langer Videos (z. B. +4,6 bei MLVU). Darüber hinaus liefert unsere eingehende Analyse Einblicke in die Token-Redundanz und das Verhalten von LLM-Schichten und bietet Anleitung für zukünftige Forschung bei der Gestaltung effizienter multimodaler LLMs. Unser Code wird unter https://github.com/LaVi-Lab/AIM verfügbar sein.
In letzter Zeit haben multimodale große Sprachmodelle (MLLMs) wie GPT-4o, Gemini 1.5 Pro und Reka Core ihre Fähigkeiten erweitert, um auch Bild- und Audio-Modalitäten einzubeziehen. Obwohl diese Modelle beeindruckende Leistungen in einer Vielzahl von audiovisuellen Anwendungen zeigen, zeigt unser vorgeschlagener DeafTest, dass MLLMs oft mit einfachen Aufgaben kämpfen, die Menschen als trivial empfinden: 1) festzustellen, welcher von zwei Geräuschen lauter ist, und 2) festzustellen, welches von zwei Geräuschen eine höhere Tonhöhe hat. Motiviert durch diese Beobachtungen stellen wir AV-Odyssey Bench vor, einen umfassenden audiovisuellen Benchmark, der darauf abzielt zu bewerten, ob diese MLLMs tatsächlich die audiovisuellen Informationen verstehen können. Dieser Benchmark umfasst 4.555 sorgfältig ausgearbeitete Probleme, die jeweils Text-, visuelle und Audio-Komponenten integrieren. Um Antworten erfolgreich ableiten zu können, müssen die Modelle Hinweise sowohl aus visuellen als auch aus Audio-Eingaben effektiv nutzen. Um eine präzise und objektive Bewertung der MLLM-Antworten sicherzustellen, haben wir die Fragen als Multiple-Choice strukturiert, was die Notwendigkeit einer menschlichen Bewertung oder LLM-unterstützten Bewertung eliminiert. Wir bewerten eine Reihe von Closed-Source- und Open-Source-Modellen und fassen die Beobachtungen zusammen. Indem wir die Grenzen der aktuellen Modelle aufzeigen, möchten wir nützliche Einblicke für zukünftige Datensammlung und Modellentwicklung bieten.
Die Retrieval-augmented Generation (RAG) verbessert Large Language Models (LLMs), indem externe Wissensquellen integriert werden, um Halluzinationen zu reduzieren und aktuelle Informationen ohne Neutrainieren zu integrieren. Als wesentlicher Bestandteil von RAG werden externe Wissensbasen in der Regel aufgebaut, indem strukturierte Daten aus unstrukturierten PDF-Dokumenten mithilfe von Optical Character Recognition (OCR) extrahiert werden. Aufgrund unvollkommener OCR-Vorhersagen und der inhärenten nicht einheitlichen Darstellung strukturierter Daten enthalten Wissensbasen zwangsläufig verschiedene OCR-Störungen. In diesem Papier stellen wir OHRBench vor, den ersten Benchmark zur Untersuchung der kaskadierenden Auswirkungen von OCR auf RAG-Systeme. OHRBench umfasst 350 sorgfältig ausgewählte unstrukturierte PDF-Dokumente aus sechs realen RAG-Anwendungsbereichen sowie Fragen und Antworten, die aus multimodalen Elementen in den Dokumenten abgeleitet sind, und stellt bestehende OCR-Lösungen für RAG vor Herausforderungen. Um den Einfluss von OCR auf RAG-Systeme besser zu verstehen, identifizieren wir zwei Hauptarten von OCR-Störungen: Semantische Störungen und Formatierungsstörungen und wenden Störungen an, um eine Reihe von strukturierten Daten mit unterschiedlichen Grad an jeder OCR-Störung zu generieren. Unter Verwendung von OHRBench führen wir zunächst eine umfassende Bewertung der aktuellen OCR-Lösungen durch und zeigen auf, dass keine davon kompetent ist, hochwertige Wissensbasen für RAG-Systeme zu erstellen. Anschließend bewerten wir systematisch die Auswirkungen dieser beiden Arten von Störungen und zeigen die Anfälligkeit von RAG-Systemen auf. Darüber hinaus diskutieren wir das Potenzial des Einsatzes von Vision-Language Models (VLMs) ohne OCR in RAG-Systemen. Code: https://github.com/opendatalab/OHR-Bench
Nach der Einführung von Large Language Models (LLMs) gab es wesentliche Verbesserungen in der Leistung von Natural Language Generation (NLG)-Aufgaben, einschließlich Textzusammenfassung und maschineller Übersetzung. Dennoch liefern LLMs immer noch Ausgaben, die Halluzinationen enthalten, das heißt, Inhalte, die nicht auf faktischen Informationen basieren. Daher ist die Entwicklung von Methoden zur Bewertung der Faktizität von LLMs dringend erforderlich. Tatsächlich sind in letzter Zeit Ressourcen zur Faktizitätsbewertung aufgetaucht. Obwohl herausfordernd, stehen diesen Ressourcen eine oder mehrere der folgenden Einschränkungen gegenüber: (i) sie sind auf eine bestimmte Aufgabe oder Domäne zugeschnitten; (ii) sie sind in ihrer Größe begrenzt, was das Training neuer Faktizitätsbewerter verhindert; (iii) sie sind für einfachere Verifizierungsaufgaben wie Behauptungsüberprüfung konzipiert. Um diese Probleme anzugehen, stellen wir LLM-Oasis vor, nach unserem Kenntnisstand die größte Ressource zur Schulung von End-to-End-Faktizitätsbewertern. LLM-Oasis wird erstellt, indem Behauptungen aus Wikipedia extrahiert, ein Teil dieser Behauptungen falsifiziert und Paare von faktischen und nicht-faktischen Texten generiert werden. Anschließend verlassen wir uns auf menschliche Annotatoren, um sowohl die Qualität unseres Datensatzes zu validieren als auch einen Goldstandard-Testdatensatz zur Benchmarking von Faktizitätsbewertungssystemen zu erstellen. Unsere Experimente zeigen, dass LLM-Oasis eine signifikante Herausforderung für modernste LLMs darstellt, wobei GPT-4o in unserer vorgeschlagenen End-to-End-Faktizitätsbewertungsaufgabe eine Genauigkeit von bis zu 60% erreicht, was sein Potenzial zur Förderung zukünftiger Forschung in diesem Bereich unterstreicht.
Die Bewegungssteuerung ist entscheidend für die Erzeugung ausdrucksstarker und überzeugender Videoinhalte. Die meisten bestehenden Videogenerierungsmodelle stützen sich jedoch hauptsächlich auf Texteingaben zur Steuerung, die Schwierigkeiten haben, die Feinheiten dynamischer Aktionen und zeitlicher Kompositionen einzufangen. Zu diesem Zweck trainieren wir ein Videogenerierungsmodell, das auf räumlich-zeitlich spärlichen oder dichten Bewegungsbahnen basiert. Im Gegensatz zu früheren Arbeiten zur Bewegungssteuerung kann diese flexible Darstellung beliebig viele Bahnen, objektspezifische oder globale Szenenbewegungen und zeitlich spärliche Bewegungen kodieren; aufgrund seiner Flexibilität bezeichnen wir diese Steuerung als Bewegungsanweisungen. Während Benutzer spärliche Bahnen direkt angeben können, zeigen wir auch, wie sich hochrangige Benutzeranfragen in detaillierte, halbdichte Bewegungsanweisungen übersetzen lassen, ein Prozess, den wir als Bewegungsanweisungserweiterung bezeichnen. Wir zeigen die Vielseitigkeit unseres Ansatzes durch verschiedene Anwendungen, einschließlich Kamera- und Objektbewegungssteuerung, "Interaktion" mit einem Bild, Bewegungsübertragung und Bildbearbeitung. Unsere Ergebnisse zeigen aufkommende Verhaltensweisen wie realistische Physik und deuten auf das Potenzial von Bewegungsanweisungen hin, um Videomodelle zu untersuchen und mit zukünftigen generativen Weltmodellen zu interagieren. Abschließend bewerten wir quantitativ, führen eine Benutzerstudie durch und zeigen eine starke Leistung. Die Videobeweise sind auf unserer Webseite verfügbar: https://motion-prompting.github.io/
Wir stellen OmniCreator vor, ein neuartiges Framework, das Text-aufgeforderte vereinheitlichte (Bild+Video)-Generierung sowie Bearbeitung an einem Ort durchführen kann. OmniCreator erwirbt generative und universelle Bearbeitungsfähigkeiten auf selbstüberwachter Weise, indem es originale Text-Video-Paare als Bedingungen verwendet und gleichzeitig dasselbe Video als Rauschunterdrückungsziel nutzt, um die semantische Entsprechung zwischen Video und Text zu erlernen. Während der Inferenz, wenn ein Textprompt und ein Video präsentiert werden, ist OmniCreator in der Lage, ein Ziel zu generieren, das beiden treu ist und einen universellen Bearbeitungseffekt erzielt, der im Gegensatz zu bestehenden Bearbeitungsarbeiten steht, die hauptsächlich auf bestimmte Bearbeitungstypen abzielen oder zusätzliche Steuerungen (z.B. strukturelle Bedingungen, Aufmerksamkeitsmerkmale oder DDIM-Inversion) erfordern. Andererseits wird OmniCreator bei Vorlage eines Textprompts allein generativ und produziert hochwertige Videos als Ergebnis der erlernten semantischen Entsprechung. Es wurde festgestellt, dass diese Fähigkeiten auch auf Bilder übertragen werden können, was OmniCreator zu einem wirklich vereinheitlichten Framework macht. Darüber hinaus, aufgrund des Mangels an bestehenden generativen Video-Bearbeitungs-Benchmarks, stellen wir den OmniBench-99 Datensatz vor, der entworfen wurde, um die Leistung generativer Video-Bearbeitungsmodelle umfassend zu bewerten. Umfangreiche Experimente zeigen, dass OmniCreator eine wesentliche Überlegenheit gegenüber allen anderen Modellen aufweist.
Forschung zu 3D Vision-Language-Modellen (3D-VLMs) gewinnt zunehmend an Aufmerksamkeit, was für die Entwicklung von verkörpertem KI innerhalb von 3D-Szenen, wie visuelle Navigation und verkörperte Fragebeantwortung, entscheidend ist. Aufgrund der hohen Dichte visueller Merkmale, insbesondere in großen 3D-Szenen, ist es herausfordernd, relevante visuelle Informationen präzise zu lokalisieren. Bestehende Arbeiten versuchen, alle Objekte zu segmentieren und deren Merkmale als Szenedarstellungen zu betrachten. Allerdings enthalten diese aufgabenagnostischen Objektmerkmale viele redundante Informationen und fehlende Details für den relevanten Bereich. Um diese Probleme zu bewältigen, schlagen wir LSceneLLM vor, ein adaptives Framework, das automatisch relevante Bereiche identifiziert, indem es LLMs visuelle Präferenz für verschiedene Aufgaben nutzt, gefolgt von einem Plug-and-Play-Szenenvergrößerungsmodul, um feingliedrige Details in fokussierten Bereichen einzufangen. Speziell untersucht ein dichter Token-Selektor die Aufmerksamkeitskarte von LLM, um visuelle Präferenzen für die Anweisungseingabe zu identifizieren. Anschließend vergrößert er feingliedrige Details des fokussierten Bereichs. Ein adaptives Selbst-Aufmerksamkeitsmodul wird genutzt, um die grob- und ausgewählten feingliedrigen visuellen Informationen zu verschmelzen. Um die Fähigkeit zur umfassenden Bewertung großer Szenenverständnisse von 3D-VLMs zu evaluieren, führen wir weiterhin einen Verständnis-Benchmark für über Raumgrenzen hinweg, XR-Scene, ein, der eine Reihe von Aufgaben zum Verständnis großer Szenen enthält, einschließlich XR-QA, XR-EmbodiedPlanning und XR-SceneCaption. Experimente zeigen, dass unsere Methode bestehende Methoden sowohl im Verständnis großer Szenen als auch in bestehenden Szenenverständnis-Benchmarks übertrifft. Die Integration unseres Szenenvergrößerungsmoduls in bestehende 3D-VLMs bringt ebenfalls signifikante Verbesserungen.
Vision-Tokenizer haben aufgrund ihrer Skalierbarkeit und Kompaktheit viel Aufmerksamkeit erregt; frühere Arbeiten basieren auf altmodischen GAN-basierten Hyperparametern, voreingenommenen Vergleichen und einem Mangel an umfassender Analyse des Skalierungsverhaltens. Um diese Probleme anzugehen, führen wir Grouped Spherical Quantization (GSQ) ein, das sphärische Codebuchinitialisierung und Lookup-Regularisierung bietet, um das Codebuchlatent auf einer sphärischen Oberfläche zu beschränken. Unsere empirische Analyse von Bild-Tokenizer-Trainingsstrategien zeigt, dass GSQ-GAN eine überlegene Rekonstruktionsqualität im Vergleich zu State-of-the-Art-Methoden mit weniger Trainingsiterationen erreicht und somit eine solide Grundlage für Skalierungsstudien bietet. Aufbauend darauf untersuchen wir systematisch das Skalierungsverhalten von GSQ, insbesondere in Bezug auf die latente Dimensionalität, die Codebuchgröße und die Kompressionsraten sowie deren Auswirkungen auf die Modellleistung. Unsere Ergebnisse zeigen unterschiedliche Verhaltensweisen bei hohen und niedrigen räumlichen Kompressionsniveaus und betonen die Herausforderungen bei der Darstellung hochdimensionaler latenter Räume. Wir zeigen, dass GSQ hochdimensionale Latente in kompakte, niedrigdimensionale Räume umstrukturieren kann, was eine effiziente Skalierung mit verbesserter Qualität ermöglicht. Als Ergebnis erreicht GSQ-GAN eine 16-fache Down-Sampling mit einem Rekonstruktions-FID (rFID) von 0,50.
Die Maskierte Bildsegmentierung (Maskierte Bildsegmentierung, MaskRIS) ist eine fortgeschrittene Aufgabe der Bild-Sprache, bei der die Identifizierung und Segmentierung von Objekten innerhalb eines Bildes anhand von Freiformtextbeschreibungen erfolgt. Während frühere Studien darauf abzielten, visuelle und sprachliche Merkmale abzugleichen, bleibt die Erforschung von Schulungstechniken wie der Datenanreicherung unterbelichtet. In dieser Arbeit untersuchen wir effektive Datenanreicherung für die maskierte Bildsegmentierung und schlagen einen neuartigen Schulungsrahmen namens Maskierte Bildsegmentierung (MaskRIS) vor. Wir stellen fest, dass herkömmliche Bildanreicherungen bei der maskierten Bildsegmentierung nicht ausreichen und zu einer Leistungsverschlechterung führen, während einfaches zufälliges Maskieren die Leistung der maskierten Bildsegmentierung signifikant verbessert. MaskRIS verwendet sowohl Bild- als auch Textmaskierung, gefolgt von einer verzerrungsbewussten kontextuellen Lernmethode (DCL), um die Vorteile der Maskierungsstrategie voll auszuschöpfen. Dieser Ansatz kann die Robustheit des Modells gegenüber Verdeckungen, unvollständigen Informationen und verschiedenen sprachlichen Komplexitäten verbessern, was zu einer signifikanten Leistungssteigerung führt. Experimente zeigen, dass MaskRIS leicht auf verschiedene Modelle der maskierten Bildsegmentierung angewendet werden kann und bestehende Methoden sowohl in vollständig überwachten als auch schwach überwachten Umgebungen übertrifft. Schließlich erzielt MaskRIS eine neue Bestleistung auf den Datensätzen RefCOCO, RefCOCO+ und RefCOCOg. Der Code ist unter https://github.com/naver-ai/maskris verfügbar.
KI-Technologien bewegen sich schnell von der Forschung in die Produktion. Mit der Beliebtheit von Grundlagenmodellen (FMs), die Texte, Bilder und Videos generieren, erhöhen KI-basierte Systeme ihre Komplexität. Im Vergleich zu traditioneller KI-Software sind Systeme, die FMs verwenden oder auf GenAI basieren, aufgrund ihrer Größe und Vielseitigkeit schwieriger zu gestalten. Dies macht es notwendig, bewährte Verfahren zu dokumentieren, die als Entwurfsmuster in der Softwaretechnik bekannt sind und in GenAI-Anwendungen verwendet werden können. Unser erster Beitrag besteht darin, zwei Techniken, Aufgabenaufteilung und abrufgestützte Generierung (RAG), als Entwurfsmuster für GenAI-basierte Systeme zu formalisieren. Wir diskutieren ihre Kompromisse in Bezug auf Softwarequalitätsattribute und kommentieren alternative Ansätze. Wir empfehlen KI-Praktikern, diese Techniken nicht nur aus wissenschaftlicher Sicht, sondern auch hinsichtlich gewünschter technischer Eigenschaften wie Flexibilität, Wartbarkeit, Sicherheit und Schutz zu betrachten. Als zweiten Beitrag beschreiben wir unsere Branchenerfahrung bei der Anwendung von Aufgabenaufteilung und RAG zum Aufbau einer komplexen GenAI-Anwendung für Unternehmensbenutzer: Workflow-Generierung. Die Aufgabe der Workflow-Generierung besteht darin, einen spezifischen Plan unter Verwendung von Daten aus der Systemumgebung zu generieren, wobei eine Benutzeranforderung als Eingabe dient. Da diese beiden Muster den gesamten KI-Entwicklungszyklus beeinflussen, erklären wir, wie sie die Datensatzerstellung, das Modelltraining, die Modellbewertung und die Bereitstellungsphasen beeinflusst haben.
Das AIPC-Konzept gewinnt an Popularität, und immer mehr Hybrid-CPUs werden KI-Modelle auf Client-Geräten ausführen. Allerdings vernachlässigt das aktuelle KI-Inferenz-Framework die unausgeglichenen Hardware-Fähigkeiten von Hybrid-CPUs, was zu einer geringen Inferenzleistung führt. Um dieses Problem zu lösen, haben wir eine dynamische parallele Methode für Hybrid-CPUs eingeführt, die die Inferenzleistung von LLM signifikant erhöht, indem die Arbeitslast für jeden Kern einer Hybrid-CPU vor Beginn der parallelen Arbeit ausgeglichen wird. Diese Methode hat es Neural Speed ermöglicht, mehr als 90 % (im Durchschnitt) des Speicherbandbreite auf zwei Hybrid-Intel-CPUs zu erreichen.
Die Erkennung von Video-Highlights und das Abrufen von Momenten (HD/MR) sind wesentlich für die Videoanalyse. Aktuelle gemeinsame Vorhersage-Transformer-Modelle vernachlässigen oft ihre kreuzaufgabenbezogene Dynamik sowie die Video-Text-Ausrichtung und -Verfeinerung. Darüber hinaus verwenden die meisten Modelle typischerweise begrenzte, unidirektionale Aufmerksamkeitsmechanismen, was zu schwach integrierten Repräsentationen und suboptimaler Leistung bei der Erfassung der Wechselwirkung zwischen Video- und Textmodalitäten führt. Obwohl große Sprach- und Bildsprachmodelle (LLM/LVLMs) in verschiedenen Bereichen an Bedeutung gewonnen haben, bleibt ihre Anwendung in diesem Bereich relativ unerforscht. Hier schlagen wir VideoLights vor, ein neuartiges HD/MR-Framework, das diese Einschränkungen durch (i) Konvolutionale Projektions- und Merkmalverfeinerungsmodule mit einem Ausrichtungsverlust für eine bessere Video-Text-Merkmalabstimmung, (ii) ein bidirektionales Cross-Modal-Fusionsnetzwerk für stark gekoppelte abfragebewusste Clip-Repräsentationen und (iii) einen unidirektionalen gemeinsamen Aufgabenrückkopplungsmechanismus zur Verbesserung beider Aufgaben durch Korrelation, angeht. Darüber hinaus (iv) führen wir harte positive/negative Verluste für adaptive Fehlerstrafung und verbessertes Lernen ein und (v) nutzen LVLMs wie BLIP-2 für eine verbesserte multimodale Merkmalsintegration und intelligentes Vortraining unter Verwendung von synthetischen Daten, die von LVLMs generiert wurden. Umfassende Experimente an den Benchmarks QVHighlights, TVSum und Charades-STA zeigen eine erstklassige Leistung. Codes und Modelle sind verfügbar unter https://github.com/dpaul06/VideoLights.