Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Bestehende Vision-Sprach-Modelle (VLMs) stützen sich hauptsächlich auf Vision-Encoder, um visuelle Merkmale zu extrahieren, gefolgt von großen Sprachmodellen (LLMs) für visuell-sprachliche Aufgaben. Die Vision-Encoder setzen jedoch starke induktive Vorurteile bei der Abstraktion visueller Darstellungen, z.B. Auflösung, Seitenverhältnis und semantische Vorgaben, die die Flexibilität und Effizienz der VLMs beeinträchtigen könnten. Das Training reiner VLMs, die nahtlose Vision- und Spracheingaben akzeptieren, d.h. ohne Vision-Encoder, bleibt herausfordernd und wurde selten erforscht. Empirische Beobachtungen zeigen, dass ein direktes Training ohne Encoder zu langsamer Konvergenz und großen Leistungsunterschieden führt. In dieser Arbeit überbrücken wir die Kluft zwischen encoderbasierten und encoderfreien Modellen und präsentieren ein einfaches, aber effektives Schulungsrezept für reine VLMs. Insbesondere enthüllen wir die Schlüsselaspekte des effizienten Trainings von encoderfreien VLMs durch gründliche Experimente: (1) Verknüpfung der Vision-Sprach-Repräsentation in einem vereinheitlichten Decoder; (2) Verbesserung der visuellen Erkennungsfähigkeit durch zusätzliche Überwachung. Mit diesen Strategien starten wir EVE, ein encoderfreies Vision-Sprach-Modell, das effizient trainiert und weitergeleitet werden kann. Bemerkenswerterweise kann EVE allein mit 35M öffentlich zugänglichen Daten beeindruckend mit den encoderbasierten VLMs ähnlicher Kapazitäten in mehreren Vision-Sprach-Benchmarks konkurrieren. Es übertrifft signifikant das Gegenstück Fuyu-8B mit mysteriösen Trainingsverfahren und nicht offengelegten Trainingsdaten. Wir glauben, dass EVE einen transparenten und effizienten Weg zur Entwicklung einer reinen Decoder-Architektur über Modalitäten hinweg bietet. Unser Code und unsere Modelle sind öffentlich unter folgendem Link verfügbar: https://github.com/baaivision/EVE.
Dieser Bericht stellt FunAudioLLM vor, eine Modellfamilie, die entwickelt wurde, um natürliche Sprachinteraktionen zwischen Menschen und großen Sprachmodellen (LLMs) zu verbessern. Im Kern stehen zwei innovative Modelle: SenseVoice, das mehrsprachige Spracherkennung, Emotionserkennung und Audio-Event-Erkennung behandelt; und CosyVoice, das natürliche Spracherzeugung mit Kontrolle über mehrere Sprachen, Klangfarbe, Sprechstil und Sprecheridentität ermöglicht. SenseVoice-Small bietet eine außergewöhnlich geringe Latenz für ASR in 5 Sprachen, und SenseVoice-Large unterstützt hochpräzise ASR für über 50 Sprachen, während CosyVoice in mehrsprachiger Spracherzeugung, Zero-Shot-In-Context-Lernen, cross-lingualem Voice-Cloning und Anweisungsfolge-Fähigkeiten herausragt. Die Modelle im Zusammenhang mit SenseVoice und CosyVoice wurden auf Modelscope und Huggingface Open Source gemacht, zusammen mit den entsprechenden Schulungs-, Inferenz- und Feinabstimmungscodes, die auf GitHub veröffentlicht wurden. Durch die Integration dieser Modelle mit LLMs ermöglicht FunAudioLLM Anwendungen wie Sprach-zu-Sprach-Übersetzung, emotionale Sprachchats, interaktive Podcasts und expressive Hörbuchnarration, wodurch die Grenzen der Sprachinteraktionstechnologie erweitert werden. Demos sind verfügbar unter https://fun-audio-llm.github.io, und der Code kann unter https://github.com/FunAudioLLM abgerufen werden.
Die Selbst-Aufmerksamkeit funktioniert gut bei langem Kontext, hat jedoch quadratische Komplexität. Bestehende RNN-Schichten haben lineare Komplexität, aber ihre Leistung bei langem Kontext wird durch die Ausdruckskraft ihres versteckten Zustands begrenzt. Wir schlagen eine neue Klasse von Sequenzmodellierungsschichten mit linearer Komplexität und einem ausdrucksstarken versteckten Zustand vor. Die Schlüsselidee besteht darin, den versteckten Zustand selbst zu einem maschinellen Lernmodell zu machen und die Aktualisierungsregel zu einem Schritt des selbstüberwachten Lernens. Da der versteckte Zustand durch Training auch auf Testsequenzen aktualisiert wird, werden unsere Schichten Testzeit-Trainings (TTT) Schichten genannt. Wir betrachten zwei Instantiierungen: TTT-Linear und TTT-MLP, deren versteckter Zustand jeweils ein lineares Modell und ein MLP mit zwei Schichten ist. Wir evaluieren unsere Instantiierungen im Maßstab von 125M bis 1.3B Parametern, verglichen mit einem leistungsstarken Transformer und Mamba, einem modernen RNN. Sowohl TTT-Linear als auch TTT-MLP entsprechen oder übertreffen die Basislinien. Ähnlich wie der Transformer können sie die Perplexität weiter reduzieren, indem sie sich auf mehr Tokens beziehen, während Mamba dies nach 16k Kontext nicht kann. Mit vorläufiger Systemoptimierung ist TTT-Linear bereits schneller als der Transformer bei 8k Kontext und entspricht Mamba in der Wanduhrzeit. TTT-MLP steht noch vor Herausforderungen im Speicher-I/O, zeigt jedoch ein größeres Potenzial bei langem Kontext und weist in eine vielversprechende Richtung für zukünftige Forschung.
Fortschritte in der generativen KI haben das Potenzial der Anwendungen von Large Language Models (LLMs) bei der Entwicklung autonomer Agenten erweitert. Wahre Autonomie zu erreichen erfordert das Sammeln und Aktualisieren von Wissen, das aus Interaktionen mit der Umgebung gewonnen wird, und dessen effektive Nutzung. Aktuelle LLM-basierte Ansätze nutzen vergangene Erfahrungen mithilfe eines vollständigen Verlaufs von Beobachtungen, Zusammenfassung oder Abrufverstärkung. Diese unstrukturierten Speicherrepräsentationen erleichtern jedoch nicht das Denken und Planen, die für komplexe Entscheidungsfindungen wesentlich sind. In unserer Studie stellen wir AriGraph vor, eine neuartige Methode, bei der der Agent einen Gedächtnisgraphen erstellt, der semantische und episodische Erinnerungen integriert, während er die Umgebung erkundet. Diese Graphenstruktur erleichtert ein effizientes assoziatives Abrufen von miteinander verbundenen Konzepten, die für den aktuellen Zustand und die Ziele des Agenten relevant sind, und dient somit als effektives Umgebungsmodell, das die explorativen und planerischen Fähigkeiten des Agenten verbessert. Wir zeigen, dass unser Ariadne LLM-Agent, ausgestattet mit dieser vorgeschlagenen Gedächtnisarchitektur, die um Planung und Entscheidungsfindung erweitert wurde, komplexe Aufgaben auf Nullbasis in der TextWorld-Umgebung effektiv bewältigt. Unser Ansatz übertrifft etablierte Methoden wie Vollverlauf, Zusammenfassung und Abrufverstärkte Generierung in verschiedenen Aufgaben, einschließlich der Kochherausforderung aus dem Wettbewerb First TextWorld Problems und neuartigen Aufgaben wie Hausreinigung und Rätsel-Schatzsuche deutlich.
Das kürzliche Aufkommen von Medical Large Vision Language Models (Med-LVLMs) hat die medizinische Diagnose verbessert. Allerdings stoßen aktuelle Med-LVLMs häufig auf sachliche Probleme und generieren oft Antworten, die nicht mit etablierten medizinischen Fakten übereinstimmen. Retrieval-Augmented Generation (RAG), das externes Wissen nutzt, kann die faktische Genauigkeit dieser Modelle verbessern, bringt jedoch zwei Hauptprobleme mit sich. Erstens könnten begrenzte abgerufene Kontexte nicht alle erforderlichen Informationen abdecken, während ein übermäßiger Abruf irrelevante und ungenaue Verweise einführen kann, was die Generierung des Modells beeinträchtigt. Zweitens kann in Fällen, in denen das Modell ursprünglich korrekt antwortet, die Anwendung von RAG zu einer übermäßigen Abhängigkeit von abgerufenen Kontexten führen, was zu falschen Antworten führt. Um diese Probleme anzugehen, schlagen wir RULE vor, das aus zwei Komponenten besteht. Erstens führen wir eine nachweislich effektive Strategie zur Kontrolle des Faktizitätsrisikos durch die kalibrierte Auswahl der Anzahl abgerufener Kontexte ein. Zweitens erstellen wir basierend auf Beispielen, in denen eine übermäßige Abhängigkeit von abgerufenen Kontexten zu Fehlern führte, ein Präferenzdatenset zur Feinabstimmung des Modells, um sein Gleichgewicht zwischen dem eigenen Wissen und abgerufenen Kontexten für die Generierung zu wahren. Wir zeigen die Wirksamkeit von RULE anhand von drei medizinischen VQA-Datensätzen und erzielen eine durchschnittliche Verbesserung der faktischen Genauigkeit um 20,8%. Wir veröffentlichen unseren Benchmark und den Code öffentlich unter https://github.com/richard-peng-xia/RULE.
Angesichts der Allgegenwart von Diagrammen als Instrument zur Datenanalyse, Visualisierung und Entscheidungsfindung in verschiedenen Branchen und Wissenschaften besteht ein wachsendes Interesse an der Entwicklung von vorab trainierten Grundlagenmodellen sowie allgemeinen zweckangepassten Modellen für das Verständnis und die Argumentation von Diagrammen. Allerdings weisen bestehende Methoden entscheidende Nachteile entlang zweier kritischer Achsen auf, die die Leistung von Diagrammdarstellungsmodellen beeinträchtigen: Sie werden auf Daten trainiert, die aus den zugrunde liegenden Datentabellen der Diagramme generiert wurden, wobei visuelle Trends und Muster in Diagrammbildern ignoriert werden, und verwenden schwach ausgerichtete Bildsprach-Backbonemodelle für domänenspezifisches Training, was ihre Verallgemeinerbarkeit einschränkt, wenn sie auf Diagramme in freier Wildbahn treffen. Wir adressieren diese wichtigen Nachteile und stellen ChartGemma vor, ein neuartiges Modell für das Verständnis und die Argumentation von Diagrammen, das über PaliGemma entwickelt wurde. Anstatt sich auf zugrunde liegende Datentabellen zu verlassen, wird ChartGemma auf Anweisungstuning-Daten trainiert, die direkt aus Diagrammbildern generiert werden, wodurch sowohl übergeordnete Trends als auch niederwertige visuelle Informationen aus einer vielfältigen Menge von Diagrammen erfasst werden. Unser einfacher Ansatz erzielt Spitzenleistung auf 5 Benchmarks, die Diagrammzusammenfassung, Fragebeantwortung und Faktenprüfung umfassen, und unsere ausführlichen qualitative Studien an realen Diagrammen zeigen, dass ChartGemma im Vergleich zu seinen Zeitgenossen realistischere und faktisch korrekte Zusammenfassungen generiert. Wir veröffentlichen den Code, Modell-Checkpoints, Datensatz und Demos unter https://github.com/vis-nlp/ChartGemma.
Menschen teilen eine Vielzahl von Bildern, die mit ihren persönlichen Erfahrungen in Gesprächen über Instant-Messaging-Tools verbunden sind. Allerdings konzentrieren sich bestehende Arbeiten auf (1) das Verhalten des Bildteilens in einzelnen Sitzungen, was zu begrenzten langfristigen sozialen Interaktionen führt, und (2) ein Mangel an personalisiertem Bildteilungsverhalten. In dieser Arbeit stellen wir Stark vor, ein umfangreiches, langfristiges Multi-Modal-Konversationsdatenset, das eine breite Palette sozialer Persönlichkeiten in einem Multi-Modal-Format, Zeitintervallen und Bildern abdeckt. Um Stark automatisch zu erstellen, schlagen wir ein neuartiges Multi-Modal-Kontextualisierungs-Framework, Mcu, vor, das langfristige Multi-Modal-Dialoge generiert, die aus ChatGPT und unserem vorgeschlagenen Plan-and-Execute-Bildausrichter destilliert sind. Unter Verwendung von Stark trainieren wir ein Multi-Modal-Konversationsmodell, Ultron 7B, das eine beeindruckende visuelle Vorstellungskraft zeigt. Darüber hinaus zeigen wir die Wirksamkeit unseres Datensets in einer menschlichen Bewertung. Wir stellen unseren Quellcode und unser Datenset öffentlich zur Verfügung.
Große Sprachmodelle (LLMs) haben beeindruckende Fortschritte bei der Bewältigung einfacher mathematischer Probleme erzielt, kämpfen jedoch immer noch mit anspruchsvolleren und komplexeren mathematischen Aufgaben. In diesem Papier stellen wir eine Reihe von LLMs vor, die die Zerlegung von Gedanken mit Code-Unterstützung und Selbstkorrektur für mathematisches Denken verwenden, die als DotaMath bezeichnet wird. DotaMath-Modelle bewältigen komplexe mathematische Aufgaben, indem sie sie in einfachere logische Teilaufgaben zerlegen, Code nutzen, um diese Teilaufgaben zu lösen, fein abgestimmtes Feedback vom Code-Interpreter erhalten und sich in Selbstreflexion und Korrektur engagieren. Durch die Annotation verschiedener interaktiver Werkzeugnutzungsverläufe und die Verwendung von Abfrageentwicklung auf den GSM8K- und MATH-Datensätzen generieren wir einen Anweisungsfeinabstimmungsdatensatz namens DotaMathQA mit 574.000 Abfrage-Antwort-Paaren. Wir trainieren eine Reihe von Basis-LLMs mit Imitationslernen auf DotaMathQA, was zu DotaMath-Modellen führt, die im Vergleich zu Open-Source-LLMs eine bemerkenswerte Leistung bei verschiedenen inländischen und ausländischen Benchmarks erzielen. Insbesondere zeigt DotaMath-deepseek-7B eine herausragende Leistung von 64,8% auf dem anspruchsvollen MATH-Datensatz und 86,7% auf GSM8K. Darüber hinaus behält DotaMath-deepseek-7B eine starke Wettbewerbsfähigkeit bei einer Reihe von inländischen und ausländischen Benchmarks bei (Durchschnitt 80,1%). In Zukunft erwarten wir, dass das DotaMath-Paradigma neue Wege zur Bewältigung komplexer mathematischer Probleme eröffnen wird. Unser Code ist öffentlich verfügbar unter https://github.com/ChengpengLi1003/DotaMath.
Dieses Papier stellt LLM-jp vor, ein länderübergreifendes Projekt für die Forschung und Entwicklung von japanischen großen Sprachmodellen (LLMs). LLM-jp zielt darauf ab, Open-Source und leistungsstarke japanische LLMs zu entwickeln, und zum Zeitpunkt dieser Veröffentlichung arbeiten mehr als 1.500 Teilnehmer aus der Akademie und der Industrie zusammen für dieses Ziel. Dieses Papier präsentiert den Hintergrund der Gründung von LLM-jp, Zusammenfassungen seiner Aktivitäten und technische Berichte über die von LLM-jp entwickelten LLMs. Für die neuesten Aktivitäten besuchen Sie bitte https://llm-jp.nii.ac.jp/en/.
Dank der Fortschritte bei großen Sprachmodellen und der Kreuzmodalen Ausrichtung haben bestehende multimodale Videoverständnis-Methoden eine herausragende Leistung in Offline-Szenarien erzielt. Online-Videostreams, als eine der häufigsten Medienformen in der realen Welt, wurden jedoch selten beachtet. Im Vergleich zu Offline-Videos stellt die "dynamische" Natur von Online-Videostreams Herausforderungen für die direkte Anwendung bestehender Modelle dar und führt zu neuen Problemen, wie der Speicherung von extrem langfristigen Informationen, der Interaktion zwischen kontinuierlichen visuellen Inhalten und "asynchronen" Benutzerfragen. Daher präsentieren wir in diesem Papier Flash-VStream, ein Video-Sprachmodell, das den Speichermechanismus des Menschen simuliert. Unser Modell kann extrem lange Videostreams in Echtzeit verarbeiten und gleichzeitig auf Benutzeranfragen antworten. Im Vergleich zu bestehenden Modellen erzielt Flash-VStream signifikante Reduzierungen bei der Inferenzlatenz und dem VRAM-Verbrauch, was eng mit dem Verständnis von Online-Streaming-Videos zusammenhängt. Darüber hinaus schlagen wir angesichts der Tatsache, dass bestehende Videoverständnis-Benchmarks hauptsächlich auf Offline-Szenarien ausgerichtet sind, VStream-QA vor, einen neuartigen Frage-Antwort-Benchmark, der speziell für das Verständnis von Online-Video-Streaming entwickelt wurde. Vergleiche mit beliebten bestehenden Methoden auf dem vorgeschlagenen Benchmark zeigen die Überlegenheit unserer Methode für solche anspruchsvollen Szenarien. Um die Verallgemeinerbarkeit unseres Ansatzes zu überprüfen, bewerten wir ihn weiterhin an bestehenden Videoverständnis-Benchmarks und erzielen ebenfalls eine Spitzenleistung in Offline-Szenarien. Der gesamte Code, Modelle und Datensätze sind unter https://invinciblewyq.github.io/vstream-page/ verfügbar.
Skalierbare Aufsichtsprotokolle zielen darauf ab, es Menschen zu ermöglichen, übermenschliche KI genau zu überwachen. In diesem Papier untersuchen wir Debatten, bei denen zwei KIs um die Überzeugung eines Richters konkurrieren; Beratung, bei der eine einzelne KI versucht, einen Richter zu überzeugen, der Fragen stellt; und vergleichen dies mit einem Baseline-Modell direkter Frage-Antwort, bei dem der Richter einfach direkt antwortet, ohne die KI. Wir verwenden große Sprachmodelle (LLMs) sowohl als KI-Agenten als auch als Stellvertreter für menschliche Richter, wobei wir die Richtermodelle als schwächer als die Agentenmodelle ansehen. Wir führen Benchmarktests an einer Vielzahl von Asymmetrien zwischen Richtern und Agenten durch, die über bisherige Arbeiten an einer einzigen extraktiven QA-Aufgabe mit Informationsasymmetrie hinausgehen, um auch Mathematik, Codierung, Logik und multimodale Denkasymmetrien einzubeziehen. Wir stellen fest, dass Debatten bei allen Aufgaben besser abschneiden als Beratungen, wenn dem Berater zufällig die Argumentation für die richtige/falsche Antwort zugewiesen wird. Beim Vergleich von Debatten mit direkter Fragebeantwortung hängen die Ergebnisse vom Typ der Aufgabe ab: Bei extraktiven QA-Aufgaben mit Informationsasymmetrie schneiden Debatten besser ab als direkte Fragebeantwortung, aber bei anderen Aufgaben ohne Informationsasymmetrie sind die Ergebnisse gemischt. In früheren Arbeiten wurde den Debattierern/Beratern eine Antwort zugewiesen, für die sie argumentieren sollten. Wenn wir ihnen stattdessen erlauben, selbst zu wählen, für welche Antwort sie argumentieren möchten, stellen wir fest, dass Richter in Debatten seltener von der falschen Antwort überzeugt werden als in Beratungen. Darüber hinaus stellen wir fest, dass stärkere Debattiermodelle die Richtergenauigkeit erhöhen, wenn auch weniger stark als in früheren Studien.
LLMs sind bekannt dafür, anfällig für Jailbreak-Angriffe zu sein, selbst nach Sicherheitsausrichtung. Eine wichtige Beobachtung ist, dass verschiedene Arten von Jailbreak-Angriffen zwar signifikant unterschiedliche Abfragen generieren können, sie jedoch meist zu ähnlichen Antworten führen, die auf dem gleichen schädlichen Wissen basieren (z. B. detaillierte Schritte zur Herstellung einer Bombe). Daher vermuten wir, dass das direkte Verlernen des schädlichen Wissens im LLM ein effektiverer Weg sein könnte, um sich gegen Jailbreak-Angriffe zu verteidigen als die gängigen auf überwachtem Feintuning (SFT) basierenden Ansätze. Unsere umfangreichen Experimente bestätigten unsere Einsicht und deuteten auf eine überraschende Verallgemeinerbarkeit unseres verlernbasierten Ansatzes hin: Mit nur 20 rohen schädlichen Fragen ohne jegliche Jailbreak-Aufforderung während des Trainings reduzierte unsere Lösung die Angriffserfolgsrate (ASR) in Vicuna-7B bei schädlichen Fragen außerhalb der Verteilung, die mit verschiedenen komplexen Jailbreak-Aufforderungen versehen waren, von 82,6\% auf 7,7\%. Dies übertrifft signifikant Llama2-7B-Chat, der auf etwa 0,1M Sicherheitsausrichtungsbeispielen feinabgestimmt ist, aber selbst unter Hilfe einer zusätzlichen Sicherheitssystem-Aufforderung eine ASR von 21,9\% aufweist. Eine weitere Analyse zeigt, dass die Verallgemeinerungsfähigkeit unserer Lösung aus der intrinsischen Verwandtschaft zwischen schädlichen Antworten über schädliche Fragen hinweg resultiert (z. B. Antwortmuster, gemeinsame Schritte und Handlungen und Ähnlichkeit zwischen ihren erlernten Repräsentationen im LLM). Unser Code ist verfügbar unter https://github.com/thu-coai/SafeUnlearning.
Multimodale Grundlagenmodelle, die Text zusammen mit Bildern, Videos, Audio und anderen sensorischen Modalitäten ganzheitlich verarbeiten können, werden zunehmend in einer Vielzahl von realen Anwendungen eingesetzt. Es ist jedoch herausfordernd, den Fortschritt bei multimodalen Grundlagenmodellen zu charakterisieren und zu untersuchen, angesichts der Vielzahl möglicher Modellierungsentscheidungen, Aufgaben und Domänen. In diesem Papier stellen wir die Holistic Evaluation of Multimodal Models (HEMM) vor, um die Fähigkeiten von multimodalen Grundlagenmodellen systematisch über einen Satz von 3 Dimensionen zu bewerten: Grundfertigkeiten, Informationsfluss und Anwendungsfälle in der realen Welt. Grundlegende multimodale Fertigkeiten sind interne Fähigkeiten, die erforderlich sind, um Probleme zu lösen, wie das Erlernen von Interaktionen über Modalitäten hinweg, fein abgestimmte Ausrichtung, mehrstufiges Denken und die Fähigkeit, externes Wissen zu verarbeiten. Der Informationsfluss untersucht, wie sich multimodaler Inhalt während einer Aufgabe durch Abfragen, Übersetzung, Bearbeitung und Fusion verändert. Anwendungsfälle umfassen domänenspezifische Herausforderungen, die in realen multimedialen, affektiven Berechnungen, Naturwissenschaften, Gesundheitswesen und Anwendungen der Mensch-Computer-Interaktion eingeführt werden. Durch umfassende Experimente über die 30 Aufgaben in HEMM identifizieren wir (1) Schlüsseldatensatzdimensionen (z. B. Grundfertigkeiten, Informationsflüsse und Anwendungsfälle), die heute Modellen Herausforderungen stellen, und (2) destillieren Leistungstrends hinsichtlich der Einflüsse verschiedener Modellierungsdimensionen (z. B. Skalierung, Vortrainingsdaten, multimodale Ausrichtung, Vortraining und Anpassung von Anweisungen) auf die Leistung. Unsere Schlussfolgerungen zu herausfordernden multimodalen Interaktionen, Anwendungsfällen und Aufgaben, die Denken und externes Wissen erfordern, den Vorteilen von Daten- und Modellskalierung sowie den Auswirkungen der Anpassung von Anweisungen liefern handlungsrelevante Erkenntnisse für zukünftige Arbeiten an multimodalen Grundlagenmodellen.
Neuronale Strahlungsfelder (NeRFs) haben aufgrund ihrer Fähigkeit zur hochwertigen Darstellung neuer Ansichten erhebliche Aufmerksamkeit erhalten, was die Forschung veranlasst hat, verschiedene reale Anwendungsfälle zu behandeln. Eine entscheidende Herausforderung ist der Kamerabewegungsunschärfe, die durch die Kamerabewegung während der Belichtungszeit verursacht wird und eine genaue 3D-Szenenrekonstruktion verhindert. In dieser Studie schlagen wir kontinuierliches starres Bewegungsbewusstsein mit Gauß'schem Splatting (CRiM-GS) vor, um genaue 3D-Szenen aus unscharfen Bildern mit Echtzeit-Renderinggeschwindigkeit zu rekonstruieren. Unter Berücksichtigung des tatsächlichen Kamerabewegungsunschärfe-Prozesses, der komplexe Bewegungsmuster umfasst, sagen wir die kontinuierliche Bewegung der Kamera basierend auf neuronalen gewöhnlichen Differentialgleichungen (ODEs) vorher. Speziell nutzen wir starre Körpertransformationen, um die Kamerabewegung mit angemessener Regularisierung zu modellieren, wobei die Form und Größe des Objekts erhalten bleiben. Darüber hinaus führen wir eine kontinuierliche verformbare 3D-Transformation im SE(3)-Feld ein, um die starre Körpertransformation an reale Probleme anzupassen, indem ein höherer Freiheitsgrad sichergestellt wird. Durch die erneute Betrachtung der grundlegenden Kameratheorie und den Einsatz fortschrittlicher Schulungstechniken für neuronale Netzwerke erreichen wir eine genaue Modellierung kontinuierlicher Kameratrajektorien. Wir führen umfangreiche Experimente durch, die eine Spitzenleistung sowohl quantitativ als auch qualitativ auf Benchmark-Datensätzen zeigen.
Vision Language Models (VLMs) entwickeln sich schnell in ihrer Fähigkeit, informationsuchende Fragen zu beantworten. Da diese Modelle weit verbreitet in Verbraucheranwendungen eingesetzt werden, könnten sie aufgrund aufkommender Fähigkeiten, Personen auf Fotos zu identifizieren, Bilder zu geolokalisieren usw., zu neuen Datenschutzrisiken führen. Wie wir zeigen, sind aktuelle Open-Source- und proprietäre VLMs überraschend leistungsfähige Bildgeolokalisierer, was die weit verbreitete Geolokalisierung mit VLMs zu einem unmittelbaren Datenschutzrisiko macht, anstatt nur eine theoretische zukünftige Sorge zu sein. Als ersten Schritt zur Bewältigung dieser Herausforderung entwickeln wir einen neuen Benchmark, GPTGeoChat, um die Fähigkeit von VLMs zu testen, Geolokalisierungsdialoge mit Benutzern zu moderieren. Wir sammeln eine Reihe von 1.000 Bildgeolokalisierungsgesprächen zwischen hauseigenen Annotatoren und GPT-4v, die mit der Genauigkeit der bei jedem Schritt offengelegten Standortinformationen annotiert sind. Unter Verwendung dieses neuen Datensatzes bewerten wir die Fähigkeit verschiedener VLMs, GPT-4v-Geolokalisierungsgespräche zu moderieren, indem wir feststellen, wann zu viele Standortinformationen preisgegeben wurden. Wir stellen fest, dass speziell angepasste feinabgestimmte Modelle ähnlich gut abschneiden wie aufgeforderte API-basierte Modelle bei der Identifizierung von durchgesickerten Standortinformationen auf Länder- oder Stadtebene; jedoch scheint eine Feinabstimmung auf überwachte Daten erforderlich zu sein, um feinere Granularitäten wie den Namen eines Restaurants oder Gebäudes genau zu moderieren.