papers.description
Vision-Encoder erzeugen typischerweise eine große Anzahl von visuellen Tokens, die informationsreiche Repräsentationen bieten, aber den Rechenaufwand erheblich erhöhen. Dies wirft die Frage auf, ob alle generierten Tokens gleichermaßen wertvoll sind oder ob einige davon verworfen werden können, um die Rechenkosten zu reduzieren, ohne die Qualität zu beeinträchtigen. In diesem Artikel stellen wir eine neue Methode zur Bestimmung der Nützlichkeit von Merkmalen vor, die auf der Idee basiert, dass weniger wertvolle Merkmale aus wertvolleren rekonstruiert werden können. Wir implementieren dieses Konzept, indem wir einen Autoencoder mit einem Gumbel-Softmax-Auswahlmechanismus kombinieren, der es ermöglicht, nur die informativsten visuellen Tokens zu identifizieren und beizubehalten. Um unseren Ansatz zu validieren, verglichen wir die Leistung des LLaVA-NeXT-Modells, das mit von unserer Methode ausgewählten Merkmalen arbeitet, mit zufällig ausgewählten Merkmalen. Wir fanden heraus, dass bei OCR-basierten Aufgaben mehr als 50 % des visuellen Kontexts entfernt werden können, ohne die Leistung wesentlich zu beeinträchtigen, während das zufällige Verwerfen des gleichen Anteils von Merkmalen die Modellfähigkeiten erheblich beeinträchtigt. Darüber hinaus erreicht bei allgemeinen Aufgaben sogar das zufällige Beibehalten von nur 30 % der Tokens eine Leistung, die der Verwendung des vollständigen Satzes von visuellen Tokens vergleichbar ist. Unsere Ergebnisse verdeutlichen eine vielversprechende Richtung hin zu adaptivem und effizientem multimodalem Pruning, das skalierbare und ressourcenschonende Inferenz ermöglicht, ohne die Leistung zu beeinträchtigen.
Multimodale wissenschaftliche Probleme (MSPs) umfassen komplexe Fragestellungen, die die Integration multipler Modalitäten wie Text und Diagramme erfordern und stellen somit eine erhebliche Herausforderung in der künstlichen Intelligenz dar. Während Fortschritte bei der Bewältigung traditioneller wissenschaftlicher Probleme erzielt wurden, stehen MSPs weiterhin vor zwei Hauptproblemen: der Herausforderung des multimodalen umfassenden Denkens bei der Lösung wissenschaftlicher Probleme und dem Mangel an reflektierenden und überdenkenden Fähigkeiten. Um diese Probleme anzugehen, führen wir ein Multi-Agenten-Framework basierend auf den Big Seven Persönlichkeitsmerkmalen und sokratischer Anleitung (MAPS) ein. Dieses Framework nutzt sieben verschiedene Agenten, die Feedback-Mechanismen und die sokratische Methode einsetzen, um die Lösung von MSPs zu leiten. Um das erste Problem zu bewältigen, schlagen wir eine progressive Vier-Agenten-Lösungsstrategie vor, bei der jeder Agent auf eine spezifische Phase des Problemlösungsprozesses fokussiert ist. Für das zweite Problem führen wir einen Kritiker-Agenten ein, der von sokratischem Fragen inspiriert ist und kritisches Denken anregt sowie autonomes Lernen fördert. Wir führen umfangreiche Experimente auf den Datensätzen EMMA, Olympiad und MathVista durch und erzielen vielversprechende Ergebnisse, die das aktuelle SOTA-Modell über alle Aufgaben hinweg um 15,84% übertreffen. Gleichzeitig bestätigen zusätzliche analytische Experimente den Fortschritt sowie die Generalisierungsfähigkeit des Modells.
Die effiziente Verarbeitung langer Kontexte ist ein anhaltendes Ziel in der Verarbeitung natürlicher Sprache. Mit der zunehmenden Anzahl langer Dokumente, Dialoge und anderer textueller Daten ist es wichtig, Long Context Language Models (LCLMs) zu entwickeln, die umfangreiche Eingaben effektiv und effizient verarbeiten und analysieren können. In diesem Artikel präsentieren wir einen umfassenden Überblick über die jüngsten Fortschritte in der Modellierung langer Kontexte für große Sprachmodelle. Unser Überblick ist um drei Schlüsselaspekte strukturiert: wie effektive und effiziente LCLMs erzielt werden können, wie LCLMs effizient trainiert und eingesetzt werden können und wie LCLMs umfassend evaluiert und analysiert werden können. Für den ersten Aspekt diskutieren wir Datenstrategien, Architekturentwürfe und Workflow-Ansätze, die auf die Verarbeitung langer Kontexte ausgerichtet sind. Für den zweiten Aspekt bieten wir eine detaillierte Untersuchung der Infrastruktur, die für das Training und die Inferenz von LCLMs erforderlich ist. Für den dritten Aspekt präsentieren wir Evaluationsparadigmen für das Verständnis langer Kontexte und die Generierung langer Texte sowie Verhaltensanalysen und Mechanismeninterpretierbarkeit von LCLMs. Über diese drei Schlüsselaspekte hinaus erforschen wir gründlich die vielfältigen Anwendungsszenarien, in denen bestehende LCLMs eingesetzt wurden, und skizzieren vielversprechende zukünftige Entwicklungsrichtungen. Dieser Überblick bietet eine aktuelle Zusammenfassung der Literatur zu Long-Context-LLMs, die wir als wertvolle Ressource sowohl für Forscher als auch für Ingenieure bereitstellen möchten. Ein zugehöriges GitHub-Repository, das die neuesten Artikel und Repos sammelt, ist verfügbar unter: https://github.com/LCLM-Horizon/A-Comprehensive-Survey-For-Long-Context-Language-Modeling{\color[RGB]{175,36,67}{LCLM-Horizon}}.
Das grundlegende Frage-Antwort-Format großer Sprachmodelle besteht darin, einen Prompt einzugeben und eine Antwort zu erhalten, wobei die Qualität des Prompts die Effektivität der Antwort direkt beeinflusst. Automatisierte Prompt-Optimierung (APO) zielt darauf ab, sich von den kognitiven Verzerrungen manuell gestalteter Prompts zu befreien und einen breiteren Gestaltungsraum für Prompts zu erkunden. Allerdings leiden bestehende APO-Methoden unter der begrenzten Flexibilität fester Vorlagen und ineffizienter Suche in Prompt-Räumen als zentrale Probleme. Zu diesem Zweck schlagen wir ein Multi-Agenten-Framework mit sokratischer Anleitung (MARS) vor, das Multi-Agenten-Fusionstechnologie zur automatischen Planung nutzt, mit schrittweiser kontinuierlicher Optimierung und Bewertung. Konkret besteht MARS aus sieben Agenten, die jeweils unterschiedliche Funktionen haben und autonom den Planner verwenden, um einen Optimierungspfad zu entwerfen, der Flexibilität gewährleistet. Zudem wird ein Lehrer-Kritiker-Schüler-Sokratischer Dialogmuster eingesetzt, um die Prompts iterativ zu optimieren und gleichzeitig eine effektive Suche durchzuführen. Wir führen umfangreiche Experimente auf verschiedenen Datensätzen durch, um die Wirksamkeit unserer Methode zu validieren, und führen zusätzliche analytische Experimente durch, um den Fortschritt des Modells sowie die Interpretierbarkeit zu bewerten.
Die Gestaltung effektiver verkörperter Multi-Agenten-Systeme ist entscheidend für die Lösung komplexer realer Aufgaben in verschiedenen Domänen. Aufgrund der Komplexität verkörperter Multi-Agenten-Systeme scheitern bestehende Methoden daran, automatisch sichere und effiziente Trainingsdaten für solche Systeme zu generieren. Zu diesem Zweck schlagen wir das Konzept der kompositionellen Beschränkungen für verkörperte Multi-Agenten-Systeme vor, das die Herausforderungen der Zusammenarbeit zwischen verkörperten Agenten adressiert. Wir entwerfen verschiedene Schnittstellen, die auf unterschiedliche Arten von Beschränkungen zugeschnitten sind und eine nahtlose Interaktion mit der physischen Welt ermöglichen. Unter Nutzung kompositioneller Beschränkungen und speziell entwickelter Schnittstellen entwickeln wir ein automatisiertes Datenerfassungsframework für verkörperte Multi-Agenten-Systeme und führen den ersten Benchmark für verkörperte Multi-Agenten-Manipulation, RoboFactory, ein. Basierend auf dem RoboFactory-Benchmark passen wir die Methode des Imitationslernens an und bewerten ihre Leistung in Aufgaben mit unterschiedlichem Schwierigkeitsgrad für Agenten. Darüber hinaus untersuchen wir die Architekturen und Trainingsstrategien für Multi-Agenten-Imitationslernen, mit dem Ziel, sichere und effiziente verkörperte Multi-Agenten-Systeme zu entwickeln.
Da kreative Schreibaufgaben keine einzigen richtigen Antworten haben, sollten große Sprachmodelle (LLMs), die für diese Aufgaben trainiert werden, in der Lage sein, diverse gültige Ausgaben zu generieren. Allerdings konzentriert sich das Post-Training von LLMs oft darauf, die Generierungsqualität zu verbessern, vernachlässigt jedoch die Förderung der Ausgabevielfalt. Daher untersuchen wir im Bereich der kreativen Textgenerierung Post-Training-Ansätze, die sowohl die Vielfalt als auch die Qualität der Ausgaben fördern. Unser Kernkonzept besteht darin, die Abweichung – den Grad der Differenz zwischen einem Trainingsbeispiel und allen anderen Beispielen mit demselben Prompt – in das Trainingsziel einzubeziehen, um das Lernen aus seltenen, hochwertigen Instanzen zu erleichtern. Durch die Anwendung unseres Ansatzes auf Direct Preference Optimization (DPO) und Odds Ratio Preference Optimization (ORPO) zeigen wir, dass wir die Ausgabevielfalt der trainierten Modelle fördern können, während die Qualität nur minimal abnimmt. Unser bestes Modell mit 8B Parametern konnte eine vergleichbare Vielfalt wie ein von Menschen erstellter Datensatz erreichen, während die Ausgabequalität ähnlich zu den besten instruktionsoptimierten Modellen war, die wir untersucht haben, GPT-4o und DeepSeek-R1. Wir validieren unsere Ansätze weiterhin durch eine menschliche Bewertung, eine Ablation und einen Vergleich zu einem bestehenden Diversifizierungsansatz, DivPO.
Autoregressive Modelle zur visuellen Generierung verwenden typischerweise Tokenizer, um Bilder in Token zu komprimieren, die sequenziell vorhergesagt werden können. Ein grundlegendes Dilemma besteht in der Token-Repräsentation: Diskrete Token ermöglichen eine einfache Modellierung mit dem Standard-Cross-Entropy-Verlust, leiden jedoch unter Informationsverlust und Instabilität beim Training des Tokenizers; kontinuierliche Token bewahren visuelle Details besser, erfordern jedoch eine komplexe Verteilungsmodellierung, was den Generierungsprozess verkompliziert. In diesem Artikel schlagen wir TokenBridge vor, das diese Lücke schließt, indem es die starke Repräsentationsfähigkeit kontinuierlicher Token beibehält und gleichzeitig die Modellierungseinheit diskreter Token bewahrt. Um dies zu erreichen, entkoppeln wir die Diskretisierung vom Tokenizer-Trainingsprozess durch eine Post-Training-Quantisierung, die direkt diskrete Token aus kontinuierlichen Repräsentationen gewinnt. Insbesondere führen wir eine dimensionsweise Quantisierungsstrategie ein, die jede Merkmalsdimension unabhängig diskretisiert, gepaart mit einem leichten autoregressiven Vorhersagemechanismus, der den daraus resultierenden großen Tokenraum effizient modelliert. Umfangreiche Experimente zeigen, dass unser Ansatz eine Rekonstruktions- und Generierungsqualität erreicht, die mit kontinuierlichen Methoden vergleichbar ist, während er eine standardmäßige kategorische Vorhersage verwendet. Diese Arbeit zeigt, dass die Überbrückung diskreter und kontinuierlicher Paradigmen die Stärken beider Ansätze effektiv nutzen kann und eine vielversprechende Richtung für hochwertige visuelle Generierung mit einfacher autoregressiver Modellierung bietet. Projektseite: https://yuqingwang1029.github.io/TokenBridge.
Realistische 3D-Ganzkörper-Avatare mit Sprechfunktion bergen großes Potenzial in der AR, mit Anwendungen, die von E-Commerce-Livestreaming bis hin zu holografischer Kommunikation reichen. Trotz Fortschritten bei der 3D-Gaussian-Splatting-Technik (3DGS) für lebensechte Avatar-Erstellung kämpfen bestehende Methoden mit der feingranularen Steuerung von Gesichtsausdrücken und Körperbewegungen in Ganzkörper-Sprechaufgaben. Zudem fehlt es ihnen oft an ausreichenden Details, und sie können nicht in Echtzeit auf mobilen Geräten laufen. Wir präsentieren TaoAvatar, einen hochauflösenden, leichtgewichtigen, 3DGS-basierten Ganzkörper-Sprechavatar, der durch verschiedene Signale gesteuert wird. Unser Ansatz beginnt mit der Erstellung einer personalisierten, bekleideten menschlichen parametrischen Vorlage, die Gaussians bindet, um das Erscheinungsbild darzustellen. Anschließend trainieren wir ein StyleUnet-basiertes Netzwerk vor, um komplexe, posenabhängige nicht-rigide Verformungen zu handhaben, die hochfrequente Erscheinungsdetails erfassen können, aber für mobile Geräte zu ressourcenintensiv sind. Um dies zu überwinden, „backen“ wir die nicht-rigiden Verformungen in ein leichtgewichtiges MLP-basiertes Netzwerk ein, indem wir eine Destillationstechnik verwenden, und entwickeln Blend Shapes, um Details zu kompensieren. Umfangreiche Experimente zeigen, dass TaoAvatar eine state-of-the-art Renderqualität erreicht, während es in Echtzeit auf verschiedenen Geräten läuft und 90 FPS auf hochauflösenden Stereo-Geräten wie dem Apple Vision Pro beibehält.
Jüngste Fortschritte, die von DeepSeek-R1 demonstriert wurden, haben gezeigt, dass komplexe Denkfähigkeiten in großen Sprachmodellen (LLMs), einschließlich anspruchsvoller Verhaltensweisen wie Selbstüberprüfung und Selbstkorrektur, durch Reinforcement Learning (RL) mit überprüfbaren Belohnungen erreicht werden können und die Modellleistung bei herausfordernden Aufgaben wie AIME erheblich verbessern. Motiviert durch diese Erkenntnisse untersucht unsere Studie, ob ähnliche Denkfähigkeiten erfolgreich in große Vision-Sprach-Modelle (LVLMs) integriert werden können und bewertet deren Auswirkungen auf anspruchsvolle multimodale Denkaufgaben. Wir betrachten einen Ansatz, der iterativ überwachtes Fein-Tuning (SFT) auf leichtgewichtigen Trainingsdaten und Reinforcement Learning (RL) nutzt, um die Modellgeneralisierung weiter zu verbessern. Zunächst wurden Denkfähigkeiten aus reinen Text-R1-Modellen destilliert, indem Denkschritte mithilfe hochwertiger Bildbeschreibungen aus diversen visuellen Datensätzen generiert wurden. Anschließend wurde das iterative RL-Training weitergeführt, um die Denkfähigkeiten zu verbessern, wobei das RL-verbesserte Modell jeder Iteration verfeinerte SFT-Datensätze für die nächste Runde erzeugte. Dieser iterative Prozess führte zu OpenVLThinker, einem LVLM, das durchweg verbesserte Denkleistungen auf anspruchsvollen Benchmarks wie MathVista, MathVerse und MathVision zeigt und damit das Potenzial unserer Strategie für robustes Vision-Sprach-Denken unterstreicht. Der Code, das Modell und die Daten sind unter https://github.com/yihedeng9/OpenVLThinker verfügbar.
Trotz erheblicher Fortschritte in der Text-zu-Video-Generierung bleibt die präzise und flexible Steuerung feinkörniger raumzeitlicher Attribute eine bedeutende ungelöste Herausforderung in der Videogenerierungsforschung. Um diese Einschränkungen zu überwinden, stellen wir VCtrl (auch als PP-VCtrl bezeichnet) vor, ein neuartiges Framework, das eine feinkörnige Steuerung vortrainierter Video-Diffusionsmodelle auf einheitliche Weise ermöglicht. VCtrl integriert diverse benutzerdefinierte Steuersignale – wie Canny-Kanten, Segmentierungsmasken und menschliche Keypoints – in vortrainierte Video-Diffusionsmodelle über ein generalisierbares bedingtes Modul, das in der Lage ist, mehrere Arten von Hilfssignalen einheitlich zu kodieren, ohne den zugrunde liegenden Generator zu modifizieren. Zusätzlich entwerfen wir eine einheitliche Pipeline zur Kodierung von Steuersignalen und einen Mechanismus für spärliche Restverbindungen, um Steuerungsrepräsentationen effizient einzubinden. Umfassende Experimente und menschliche Bewertungen zeigen, dass VCtrl die Steuerbarkeit und Generierungsqualität effektiv verbessert. Der Quellcode und die vortrainierten Modelle sind öffentlich verfügbar und wurden mit dem PaddlePaddle-Framework unter http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl implementiert.
Trotz beeindruckender Leistungen in verschiedenen Aufgaben haben Multimodale Große Sprachmodelle (MLLMs) ihr Potenzial in der visuellen mathematischen Problemlösung noch nicht vollständig unter Beweis gestellt, insbesondere bei der präzisen Wahrnehmung und Interpretation von Diagrammen. Inspiriert von typischen menschlichen Prozessen stellen wir die Hypothese auf, dass die Fähigkeit zur Wahrnehmung, um aussagekräftige Informationen aus Diagrammen zu extrahieren, entscheidend ist, da sie direkt die nachfolgenden Schlussfolgerungsprozesse beeinflusst. Um diese Hypothese zu validieren, entwickelten wir FlowVerse, einen umfassenden Benchmark, der alle während der Problemlösung verwendeten Informationen in vier Komponenten kategorisiert, die dann in sechs Problemversionen für die Bewertung kombiniert werden. Unsere vorläufigen Ergebnisse auf FlowVerse zeigen, dass bestehende MLLMs erhebliche Einschränkungen aufweisen, wenn es darum geht, wesentliche Informationen und abgeleitete Eigenschaften aus Diagrammen zu extrahieren und komplexe Schlussfolgerungen basierend auf diesen visuellen Eingaben durchzuführen. Als Antwort darauf führen wir MathFlow ein, eine modulare Problemlösungspipeline, die Wahrnehmung und Schlussfolgerung in getrennte Phasen entkoppelt und somit jede unabhängig optimiert. Angesichts der beobachteten Wahrnehmungsbeschränkungen aktueller MLLMs haben wir MathFlow-P-7B als dediziertes Wahrnehmungsmodell trainiert. Experimentelle Ergebnisse zeigen, dass MathFlow-P-7B erhebliche Leistungssteigerungen erzielt, wenn es mit verschiedenen Closed-Source- und Open-Source-Schlussfolgerungsmodellen integriert wird. Dies demonstriert die Effektivität der MathFlow-Pipeline und ihre Kompatibilität mit verschiedenen Schlussfolgerungsframeworks. Der FlowVerse-Benchmark und der Code sind unter https://github.com/MathFlow-zju/MathFlow verfügbar.
Die Personalisierung der Bildgenerierung und -bearbeitung ist besonders herausfordernd, wenn wir nur wenige Bilder des Subjekts oder sogar nur ein einzelnes Bild zur Verfügung haben. Ein gängiger Ansatz zur Personalisierung ist das Konzeptlernen, das das Subjekt relativ schnell in bestehende Modelle integrieren kann, aber Bilder erzeugt, deren Qualität tendenziell schnell abnimmt, wenn die Anzahl der Subjektbilder gering ist. Die Qualität kann durch das Vortrainieren eines Encoders verbessert werden, doch das Training beschränkt die Generierung auf die Trainingsverteilung und ist zeitaufwendig. Es bleibt eine offene und schwierige Herausforderung, die Bildgenerierung und -bearbeitung anhand eines einzelnen Bildes ohne Training zu personalisieren. Hier präsentieren wir SISO, einen neuartigen, trainingsfreien Ansatz, der auf der Optimierung eines Ähnlichkeitswerts mit einem Eingabebild des Subjekts basiert. Genauer gesagt generiert SISO iterativ Bilder und optimiert das Modell basierend auf dem Verlust der Ähnlichkeit mit dem gegebenen Subjektbild, bis ein zufriedenstellendes Maß an Ähnlichkeit erreicht ist. Dies ermöglicht eine Plug-and-Play-Optimierung für jeden Bildgenerator. Wir haben SISO in zwei Aufgaben, Bildbearbeitung und Bildgenerierung, mit einem vielfältigen Datensatz persönlicher Subjekte evaluiert und zeigen signifikante Verbesserungen gegenüber bestehenden Methoden in Bezug auf Bildqualität, Subjekttreue und Hintergrundbewahrung.
In diesem Artikel stellen wir \textsc{FastCuRL} vor, einen einfachen, aber effizienten Ansatz für Curriculum Reinforcement Learning mit einer Strategie zur Erweiterung des Kontextfensters, um die Trainings effizienz von R1-ähnlichen Reasoning-Modellen zu beschleunigen und gleichzeitig ihre Leistung bei der Bewältigung komplexer Reasoning-Aufgaben mit langen Chain-of-Thought-Begründungen zu verbessern, insbesondere bei einem Sprachmodell mit 1,5 Milliarden Parametern. \textsc{FastCuRL} besteht aus zwei Hauptverfahren: der längenbewussten Segmentierung der Trainingsdaten und dem Training mit erweitertem Kontextfenster. Konkret teilt das erstgenannte Verfahren die ursprünglichen Trainingsdaten zunächst in drei verschiedene Schwierigkeitsstufen basierend auf der Länge der Eingabeaufforderung ein, während das letztgenannte Verfahren segmentierte Trainingsdatensätze mit schrittweise ansteigender Kontextfensterlänge nutzt, um das Reasoning-Modell zu trainieren. Experimentelle Ergebnisse zeigen, dass \textsc{FastCuRL}-1.5B-Preview DeepScaleR-1.5B-Preview in allen fünf Datensätzen (einschließlich MATH 500, AIME 2024, AMC 2023, Minerva Math und OlympiadBench) übertrifft, obwohl nur 50\% der Trainingsschritte verwendet werden. Darüber hinaus werden alle Trainingsphasen für FastCuRL-1.5B-Preview mit nur einem Knoten und 8 GPUs abgeschlossen.
Die präzise Bewertung der semantischen Ausrichtung zwischen Textprompts und generierten Videos bleibt eine Herausforderung in der Text-zu-Video (T2V)-Generierung. Bestehende Metriken zur Text-zu-Video-Ausrichtung wie CLIPScore erzeugen lediglich grobkörnige Bewertungen ohne feinkörnige Ausrichtungsdetails, was nicht mit den menschlichen Präferenzen übereinstimmt. Um diese Einschränkung zu überwinden, schlagen wir ETVA vor, eine neuartige Evaluationsmethode für die Text-zu-Video-Ausrichtung durch feinkörnige Fragengenerierung und -beantwortung. Zunächst analysiert ein Multi-Agenten-System Prompts in semantische Szenengraphen, um atomare Fragen zu generieren. Anschließend entwerfen wir ein wissensgestütztes, mehrstufiges Rahmenwerk für die Beantwortung von Fragen, bei dem ein unterstützendes LLM zunächst relevantes Allgemeinwissen (z.B. physikalische Gesetze) abruft und dann ein Video-LLM die generierten Fragen durch einen mehrstufigen Denkmechanismus beantwortet. Umfangreiche Experimente zeigen, dass ETVA einen Spearman-Korrelationskoeffizienten von 58,47 erreicht, was eine deutlich höhere Korrelation mit menschlichen Bewertungen aufweist als bestehende Metriken, die lediglich 31,0 erreichen. Wir erstellen außerdem einen umfassenden Benchmark, der speziell für die Bewertung der Text-zu-Video-Ausrichtung entwickelt wurde und 2k diverse Prompts sowie 12k atomare Fragen aus 10 Kategorien umfasst. Durch eine systematische Bewertung von 15 bestehenden Text-zu-Video-Modellen identifizieren wir deren wesentliche Fähigkeiten und Grenzen und ebnen so den Weg für die nächste Generation der T2V-Generierung.
In diesem Artikel stellen wir MapBench vor – den ersten Datensatz, der speziell für menschenlesbare, pixelbasierte Karten zur Navigation im Freien entwickelt wurde und aus komplexen Pfadfindungsszenarien zusammengestellt ist. MapBench umfasst über 1600 Pfadfindungsprobleme im Pixelraum, die aus 100 verschiedenen Karten stammen. In MapBench generieren LVLMs (Large Vision-Language Models) sprachbasierte Navigationsanweisungen, basierend auf einem Kartenbild und einer Abfrage mit Start- und Zielpunkten. Für jede Karte bietet MapBench ein Map Space Scene Graph (MSSG) als Indexierungsdatenstruktur, um zwischen natürlicher Sprache und den von LVLMs generierten Ergebnissen zu konvertieren und diese zu bewerten. Wir zeigen, dass MapBench state-of-the-art LVLMs sowohl im Zero-Shot-Prompting als auch in einem Chain-of-Thought (CoT)-erweiterten Reasoning-Framework, das die Kartennavigation in sequenzielle kognitive Prozesse zerlegt, erheblich herausfordert. Unsere Bewertung sowohl von Open-Source- als auch von Closed-Source-LVLMs unterstreicht die erheblichen Schwierigkeiten, die MapBench darstellt, und offenbart kritische Einschränkungen in ihren räumlichen Denk- und strukturierten Entscheidungsfähigkeiten. Wir veröffentlichen den gesamten Code und den Datensatz unter https://github.com/taco-group/MapBench.
Große Vision-Sprach-Modelle (Large Vision-Language Models, LVLMs) haben bedeutende Fortschritte bei der Kombination von visuellem Verständnis und Sprachgenerierung erzielt. Trotz dieser Erfolge leidet die Trainingsdatenbasis von LVLMs weiterhin unter Long-Tail (LT)-Problemen, bei denen die Datenverteilung stark unausgewogen ist. Bisherige Arbeiten konzentrierten sich hauptsächlich auf traditionelle VLM-Architekturen wie CLIP oder ViT sowie auf spezifische Aufgaben wie Erkennung und Klassifizierung. Die Erforschung von LVLMs (z. B. LLaVA) und allgemeineren Aufgaben (z. B. Visuelles Frage-Antworten und Visuelles Schlussfolgern) bleibt jedoch weitgehend unerforscht. In diesem Papier führen wir zunächst eine detaillierte Analyse der LT-Probleme in LVLMs durch und identifizieren zwei Kernursachen: die Überrepräsentation von Hauptkonzepten und die Unterrepräsentation von Randkonzepten. Basierend auf dieser Beobachtung schlagen wir ein Adaptives Datenverfeinerungs-Framework (Adaptive Data Refinement Framework, ADR) vor, das aus zwei Phasen besteht: Datenausgleich (Data Rebalancing, DR) und Datensynthese (Data Synthesis, DS). In der DR-Phase gleichen wir die redundanten Daten basierend auf Entitätsverteilungen adaptiv aus, während wir in der DS-Phase Denoising Diffusion Probabilistic Models (DDPMs) und seltene Bilder nutzen, um unterrepräsentierte Anteile zu ergänzen. Durch umfassende Bewertungen über elf Benchmarks hinweg mildert unser vorgeschlagenes ADR effektiv das Long-Tail-Problem in den Trainingsdaten und verbessert die durchschnittliche Leistung von LLaVA 1.5 relativ um 4,36 %, ohne das Trainingsdatenvolumen zu erhöhen.
Implizite Voreingenommenheit bezieht sich auf automatische oder spontane mentale Prozesse, die Wahrnehmungen, Urteile und Verhaltensweisen prägen. Bisherige Forschungen, die „implizite Voreingenommenheit“ in großen Sprachmodellen (LLMs) untersucht haben, haben das Phänomen oft anders angegangen als in Studien mit Menschen, indem sie sich primär auf Modellausgaben konzentrierten anstatt auf die Modellverarbeitung. Um die Modellverarbeitung zu untersuchen, stellen wir eine Methode namens Reasoning Model Implicit Association Test (RM-IAT) vor, um implizite voreingenommene Muster in Reasoning-Modellen zu studieren: LLMs, die schrittweise Argumentation verwenden, um komplexe Aufgaben zu lösen. Mit dieser Methode finden wir heraus, dass Reasoning-Modelle mehr Tokens benötigen, wenn sie assoziationsinkompatible Informationen verarbeiten, verglichen mit assoziationskompatiblen Informationen. Diese Ergebnisse legen nahe, dass KI-Systeme Muster in der Informationsverarbeitung aufweisen, die der menschlichen impliziten Voreingenommenheit analog sind. Wir betrachten die Implikationen dieser impliziten voreingenommenen Muster für ihren Einsatz in realen Anwendungen.
Video Large Language Models (ViLLMs) zeichnen sich durch ein allgemeines Verständnis von Videos aus, z. B. bei der Erkennung von Aktivitäten wie Sprechen und Essen, haben jedoch Schwierigkeiten mit identitätsbewusstem Verständnis, wie z. B. „Wilson erhält eine Chemotherapie“ oder „Tom diskutiert mit Sarah“. Dies schränkt ihre Anwendbarkeit in intelligenten Gesundheits- und Smart-Home-Umgebungen ein. Um diese Einschränkung zu überwinden, schlagen wir ein One-Shot-Learning-Framework namens PVChat vor, das erste personalisierte ViLLM, das subjektbewusstes Frage-Antworten (QA) aus einem einzelnen Video pro Subjekt ermöglicht. Unser Ansatz optimiert ein Mixture-of-Heads (MoH)-erweitertes ViLLM auf einem synthetisch erweiterten Video-QA-Datensatz unter Nutzung einer progressiven Bild-zu-Video-Lernstrategie. Konkret führen wir eine automatisierte Augmentationspipeline ein, die identitätserhaltende positive Beispiele synthetisiert und schwierige Negative aus bestehenden Videokorpora abruft, wodurch ein vielfältiger Trainingsdatensatz mit vier QA-Typen erzeugt wird: Existenz, Aussehen, Handlung und Ortsabfragen. Um das subjektspezifische Lernen zu verbessern, schlagen wir einen ReLU-Routing-MoH-Attentionsmechanismus vor, ergänzt durch zwei neuartige Ziele: (1) Smooth Proximity Regularization für progressives Lernen durch exponentielle Distanzskalierung und (2) Head Activation Enhancement für ausgewogenes Attention-Routing. Schließlich verwenden wir eine zweistufige Trainingsstrategie, die vom Bild-Pre-Training zum Video-Fine-Tuning übergeht und so einen schrittweisen Lernprozess von statischen Attributen zu dynamischen Repräsentationen ermöglicht. Wir evaluieren PVChat auf diversen Datensätzen, die medizinische Szenarien, TV-Serien, Anime und reale Aufnahmen abdecken, und zeigen seine Überlegenheit im Verständnis personalisierter Merkmale nach dem Lernen aus einem einzelnen Video im Vergleich zu state-of-the-art ViLLMs.
In den letzten Jahren hat das Feld der Bildgenerierung bedeutende Fortschritte erlebt, insbesondere bei Feinabstimmungsmethoden, die Modelle mit universellen menschlichen Präferenzen in Einklang bringen. Diese Arbeit untersucht die entscheidende Rolle von Präferenzdaten im Trainingsprozess von Diffusionsmodellen, insbesondere im Kontext von Diffusion-DPO und seinen nachfolgenden Anpassungen. Wir beleuchten die Komplexitäten, die mit universellen menschlichen Präferenzen in der Bildgenerierung verbunden sind, und heben die subjektive Natur dieser Präferenzen sowie die Herausforderungen hervor, die durch Minderheitsproben in Präferenzdatensätzen entstehen. Durch Pilotexperimente zeigen wir die Existenz von Minderheitsproben und deren negative Auswirkungen auf die Modellleistung. Wir schlagen Adaptive-DPO vor – einen neuartigen Ansatz, der eine Minderheitsinstanz-bewusste Metrik in das DPO-Ziel integriert. Diese Metrik, die Intra-Annotator-Konfidenz und Inter-Annotator-Stabilität umfasst, unterscheidet zwischen Mehrheits- und Minderheitsproben. Wir führen eine Adaptive-DPO-Verlustfunktion ein, die den DPO-Verlust in zweierlei Hinsicht verbessert: Sie verstärkt das Lernen der Mehrheitslabels durch das Modell und mildert gleichzeitig die negativen Auswirkungen von Minderheitsproben. Unsere Experimente zeigen, dass diese Methode sowohl synthetische Minderheitsdaten als auch reale Präferenzdaten effektiv handhabt und den Weg für effektivere Trainingsmethodologien in Bildgenerierungsaufgaben ebnet.
Die Bildgeolokalisierung, bei der traditionell ein KI-Modell die genauen GPS-Koordinaten eines Bildes vorhersagt, ist eine anspruchsvolle Aufgabe mit vielen nachgelagerten Anwendungen. Allerdings kann der Benutzer das Modell nicht nutzen, um sein Wissen über die GPS-Koordinate hinaus zu erweitern; dem Modell fehlt das Verständnis des Ortes und die Fähigkeit, mit dem Benutzer in einen Dialog zu treten. In jüngster Zeit haben Forscher, sowohl im proprietären als auch im Open-Source-Bereich, mit den enormen Fortschritten bei großen multimodalen Modellen (LMMs) versucht, Bilder mithilfe von LMMs zu geolokalisieren. Die Probleme bleiben jedoch ungelöst; über allgemeine Aufgaben hinaus, für spezialisiertere nachgelagerte Aufgaben, zu denen auch die Geolokalisierung gehört, kämpfen LMMs. In dieser Arbeit schlagen wir vor, dieses Problem zu lösen, indem wir ein dialogfähiges Modell namens GAEA einführen, das Informationen über den Standort eines Bildes, wie vom Benutzer benötigt, bereitstellen kann. Es existiert kein groß angelegter Datensatz, der das Training eines solchen Modells ermöglicht. Daher schlagen wir einen umfassenden Datensatz GAEA mit 800.000 Bildern und etwa 1,6 Millionen Frage-Antwort-Paaren vor, der durch die Nutzung von OpenStreetMap (OSM)-Attributen und geografischen Kontexthinweisen erstellt wurde. Für die quantitative Bewertung schlagen wir einen vielfältigen Benchmark vor, der 4.000 Bild-Text-Paare umfasst, um die dialogfähigen Fähigkeiten mit verschiedenen Fragetypen zu bewerten. Wir betrachten 11 state-of-the-art Open-Source- und proprietäre LMMs und zeigen, dass GAEA das beste Open-Source-Modell, LLaVA-OneVision, um 25,69 % und das beste proprietäre Modell, GPT-4o, um 8,28 % deutlich übertrifft. Unser Datensatz, Modell und Code sind verfügbar.
Aktuelle 3D-Gesichtsbearbeitungsmethoden, die Masken verwenden, haben durch den Einsatz von Neural Radiance Fields (NeRF) hochwertige bearbeitete Bilder erzeugt. Trotz ihrer beeindruckenden Leistung bieten bestehende Methoden oft nur begrenzte Benutzerkontrolle, da sie auf vortrainierte Segmentierungsmasken zurückgreifen. Um Masken mit einem gewünschten Layout zu nutzen, ist ein umfangreicher Trainingsdatensatz erforderlich, der schwer zu beschaffen ist. Wir stellen FFaceNeRF vor, eine auf NeRF basierende Gesichtsbearbeitungstechnik, die die Herausforderung der begrenzten Benutzerkontrolle durch die Verwendung fester Maskenlayouts überwinden kann. Unsere Methode verwendet einen Geometrie-Adapter mit Feature-Injektion, der eine effektive Manipulation von Geometrieattributen ermöglicht. Zusätzlich setzen wir latentes Mixing für die Tri-Plane-Erweiterung ein, was das Training mit wenigen Proben ermöglicht. Dies erleichtert die schnelle Anpassung des Modells an gewünschte Maskenlayouts, was für Anwendungen in Bereichen wie personalisierter medizinischer Bildgebung oder kreativer Gesichtsbearbeitung entscheidend ist. Unsere vergleichenden Bewertungen zeigen, dass FFaceNeRF bestehende maskenbasierte Gesichtsbearbeitungsmethoden in Bezug auf Flexibilität, Kontrolle und generierte Bildqualität übertrifft und den Weg für zukünftige Fortschritte in der maßgeschneiderten und hochauflösenden 3D-Gesichtsbearbeitung ebnet. Der Code ist auf der {https://kwanyun.github.io/FFaceNeRF_page/{Projektseite}} verfügbar.
Die generalisierte Few-Shot-3D-Punktwolken-Segmentierung (GFS-PCS) passt Modelle an neue Klassen mit wenigen Unterstützungsbeispielen an, während die Segmentierung der Basisklassen beibehalten wird. Bestehende GFS-PCS-Methoden verbessern Prototypen durch Interaktion mit Unterstützungs- oder Abfragemerkmalen, bleiben jedoch durch das spärliche Wissen aus Few-Shot-Beispielen eingeschränkt. Gleichzeitig enthalten 3D-Vision-Language-Modelle (3D VLMs), die sich über offene, neuartige Klassen generalisieren, reiches, aber verrauschtes Wissen über neue Klassen. In dieser Arbeit stellen wir ein GFS-PCS-Framework vor, das dichte, aber verrauschte Pseudolabels aus 3D VLMs mit präzisen, aber spärlichen Few-Shot-Beispielen kombiniert, um die Stärken beider zu maximieren, genannt GFS-VL. Konkret präsentieren wir eine prototypgeleitete Pseudolabel-Auswahl, um qualitativ minderwertige Regionen zu filtern, gefolgt von einer adaptiven Auffüllstrategie, die Wissen aus Pseudolabel-Kontexten und Few-Shot-Beispielen kombiniert, um die gefilterten, unbeschrifteten Bereiche adaptiv zu beschriften. Zusätzlich entwerfen wir eine Novel-Base-Mix-Strategie, um Few-Shot-Beispiele in Trainingsszenen einzubetten und den wesentlichen Kontext für ein verbessertes Lernen neuer Klassen zu bewahren. Darüber hinaus führen wir, in Anerkennung der begrenzten Vielfalt in aktuellen GFS-PCS-Benchmarks, zwei anspruchsvolle Benchmarks mit vielfältigen neuen Klassen für eine umfassende Generalisierungsbewertung ein. Experimente bestätigen die Wirksamkeit unseres Frameworks über Modelle und Datensätze hinweg. Unser Ansatz und die Benchmarks bieten eine solide Grundlage für die Weiterentwicklung von GFS-PCS in der realen Welt. Der Code ist unter https://github.com/ZhaochongAn/GFS-VL verfügbar.