Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Erkennung künstlicher Texte (Artificial Text Detection, ATD) gewinnt mit dem Aufkommen fortschrittlicher großer Sprachmodelle (Large Language Models, LLMs) zunehmend an Bedeutung. Trotz zahlreicher Bemühungen gibt es keinen einzelnen Algorithmus, der konsistent gut bei verschiedenen Arten von unbekannten Texten abschneidet oder eine effektive Generalisierung auf neue LLMs garantiert. Interpretierbarkeit spielt eine entscheidende Rolle bei der Erreichung dieses Ziels. In dieser Studie verbessern wir die Interpretierbarkeit von ATD, indem wir Sparse Autoencoders (SAE) verwenden, um Merkmale aus dem Residual Stream von Gemma-2-2b zu extrahieren. Wir identifizieren sowohl interpretierbare als auch effiziente Merkmale und analysieren ihre Semantik und Relevanz durch domänen- und modellspezifische Statistiken, einen Steuerungsansatz sowie manuelle oder LLM-basierte Interpretation. Unsere Methoden bieten wertvolle Einblicke darin, wie sich Texte verschiedener Modelle von menschengeschriebenen Inhalten unterscheiden. Wir zeigen, dass moderne LLMs einen eigenen Schreibstil haben, insbesondere in informationsdichten Domänen, obwohl sie mit personalisierten Prompts menschenähnliche Ausgaben erzeugen können.
Große Sprachmodelle haben bemerkenswerte Erfolge in verschiedenen Aufgaben der natürlichen Sprachverarbeitung erzielt, doch ihre hohen Rechenkosten während der Inferenz bleiben ein wesentliches Hindernis. Dieses Papier stellt Sparse Expert Activation Pruning (SEAP) vor, eine trainingsfreie Pruning-Methode, die gezielt aufgabenrelevante Parameter beibehält, um den Inferenzaufwand zu reduzieren. Inspiriert von den Clusterungsmustern der verborgenen Zustände und Aktivierungen in großen Sprachmodellen identifiziert SEAP aufgabenspezifische Expertenaktivierungsmuster und reduziert das Modell, während die Aufgabenleistung erhalten bleibt und die Recheneffizienz verbessert wird. Experimentelle Ergebnisse zeigen, dass SEAP den Rechenaufwand erheblich reduziert und dabei eine wettbewerbsfähige Genauigkeit beibehält. Insbesondere übertrifft SEAP bei 50 % Pruning sowohl WandA als auch FLAP um über 20 %, und bei 20 % Pruning führt es nur zu einem Leistungsabfall von 2,2 % im Vergleich zum dichten Modell. Diese Ergebnisse unterstreichen die Skalierbarkeit und Effektivität von SEAP und machen es zu einem vielversprechenden Ansatz zur Optimierung von großskaligen Sprachmodellen.
Wir präsentieren MM-Eureka, ein multimodales Reasoning-Modell, das regelbasiertes Reinforcement Learning (RL) im großen Maßstab erfolgreich auf multimodales Reasoning erweitert. Während regelbasiertes RL bemerkenswerte Erfolge bei der Verbesserung der Reasoning-Fähigkeiten von LLMs in Textdomänen gezeigt hat, blieb seine Anwendung in multimodalen Kontexten bisher eine Herausforderung. Unsere Arbeit reproduziert Schlüsselmerkmale textbasierter RL-Systeme wie DeepSeek-R1 im multimodalen Raum, einschließlich stetiger Steigerungen der Genauigkeitsbelohnung und der Antwortlänge sowie des Auftretens von Reflexionsverhalten. Wir zeigen, dass sowohl instruktionsfeinabgestimmte als auch vortrainierte Modelle durch regelbasiertes RL starke multimodale Reasoning-Fähigkeiten entwickeln können, ohne überwachte Feinabstimmung, und dabei eine überlegene Dateneffizienz im Vergleich zu alternativen Ansätzen aufweisen. Wir stellen unsere vollständige Pipeline als Open Source zur Verfügung, um weitere Forschungen in diesem Bereich zu fördern. Wir veröffentlichen alle unsere Codes, Modelle, Daten usw. unter https://github.com/ModalMinds/MM-EUREKA.
Der Diffusion Transformer hat seine leistungsstarken Fähigkeiten und Skalierbarkeit bei der Erzeugung hochwertiger Bilder und Videos unter Beweis gestellt. Die weitere Verfolgung der Vereinheitlichung von Generierungs- und Bearbeitungsaufgaben hat erhebliche Fortschritte im Bereich der Bildinhaltserstellung gebracht. Aufgrund der intrinsischen Anforderungen an Konsistenz sowohl in zeitlicher als auch räumlicher Dynamik bleibt die Entwicklung eines einheitlichen Ansatzes für die Videosynthese jedoch eine Herausforderung. Wir stellen VACE vor, das es Benutzern ermöglicht, Videoaufgaben innerhalb eines All-in-One-Frameworks für Erstellung und Bearbeitung durchzuführen. Diese Aufgaben umfassen die Referenz-zu-Video-Generierung, Video-zu-Video-Bearbeitung und maskierte Video-zu-Video-Bearbeitung. Insbesondere integrieren wir die Anforderungen verschiedener Aufgaben effektiv, indem wir Videoaufgaben-Eingaben wie Bearbeitung, Referenz und Maskierung in eine einheitliche Schnittstelle, die als Video Condition Unit (VCU) bezeichnet wird, organisieren. Darüber hinaus nutzen wir eine Context Adapter-Struktur, um verschiedene Aufgabenkonzepte durch formalisierte Darstellungen der zeitlichen und räumlichen Dimensionen in das Modell einzubinden, wodurch es flexibel beliebige Videosyntheseaufgaben bewältigen kann. Umfangreiche Experimente zeigen, dass das einheitliche Modell von VACE eine Leistung erzielt, die mit aufgabenspezifischen Modellen über verschiedene Teilaufgaben hinweg vergleichbar ist. Gleichzeitig ermöglicht es durch vielseitige Aufgabenkombinationen diverse Anwendungen. Projektseite: https://ali-vilab.github.io/VACE-Page/.
Bestehende Frameworks für die Erstellung langer Videos mangeln an automatischer Planung und erfordern manuelle Eingaben für Handlungsstränge, Szenen, Kameraführung und Charakterinteraktionen, was zu hohen Kosten und Ineffizienzen führt. Um diese Herausforderungen zu bewältigen, präsentieren wir MovieAgent, eine automatisierte Filmgenerierung durch Multi-Agenten-Ketten von Gedanken (Chain of Thought, CoT). MovieAgent bietet zwei wesentliche Vorteile: 1) Wir erforschen und definieren erstmals das Paradigma der automatisierten Film- bzw. Langvideoerstellung. Basierend auf einem Drehbuch und einer Charakterdatenbank kann MovieAgent mehrszenige, mehrschüssige Langformvideos mit einer kohärenten Erzählung erzeugen, wobei Charakterkonsistenz, synchronisierte Untertitel und stabiler Ton im gesamten Film gewährleistet werden. 2) MovieAgent führt einen hierarchischen, CoT-basierten Denkprozess ein, um Szenen, Kameraeinstellungen und Kameraführung automatisch zu strukturieren, wodurch der menschliche Aufwand erheblich reduziert wird. Durch den Einsatz mehrerer LLM-Agenten, die die Rollen eines Regisseurs, Drehbuchautors, Storyboard-Künstlers und Location Managers simulieren, optimiert MovieAgent die Produktionspipeline. Experimente zeigen, dass MovieAgent neue Spitzenergebnisse in Bezug auf Drehbuchtreue, Charakterkonsistenz und narrative Kohärenz erzielt. Unser hierarchisches Framework macht einen Schritt nach vorn und bietet neue Einblicke in die vollständig automatisierte Filmerstellung. Der Code und die Projektwebsite sind verfügbar unter: https://github.com/showlab/MovieAgent und https://weijiawu.github.io/MovieAgent.
Multimodale große Sprachmodelle (MLLMs), die auf groß angelegten vortrainierten Vision-Türmen und Sprachmodellen basieren, haben beeindruckende Fähigkeiten im multimodalen Verständnis gezeigt. Die meisten bestehenden MLLMs werden jedoch anhand von Einzelrunde-Vision-Frage-Antwort-Aufgaben trainiert, die reale menschliche Konversationen nicht genau widerspiegeln. In diesem Artikel stellen wir MMDiag vor, einen multimodalen Dialogdatensatz für Mehrrundenkonversationen. Dieser Datensatz wird durch gezielt entworfene Regeln und GPT-Unterstützung kollaborativ generiert und zeichnet sich durch starke Korrelationen zwischen Fragen, zwischen Fragen und Bildern sowie zwischen verschiedenen Bildregionen aus, wodurch er sich stärker an realen Szenarien orientiert. MMDiag dient als robuste Benchmark für das Lernen von Mehrrunden-Multimodaldialogen und stellt MLLMs vor zusätzliche Herausforderungen in Bezug auf Verankerungs- und Schlussfolgerungsfähigkeiten. Darüber hinaus präsentieren wir, inspiriert von der menschlichen visuellen Verarbeitung, DiagNote, ein MLLM, das mit multimodalen Verankerungs- und Schlussfolgerungsfähigkeiten ausgestattet ist. DiagNote besteht aus zwei Modulen (Deliberate und Gaze), die miteinander interagieren, um Chain-of-Thought und Annotationen während Mehrrundendialogen durchzuführen. Wir zeigen empirisch die Vorteile von DiagNote sowohl in der Verankerung als auch in der gemeinsamen Verarbeitung und Schlussfolgerung von visuellen und sprachlichen Informationen im Vergleich zu bestehenden MLLMs.
Federated Learning (FL) ist ein weit verbreitetes Framework für das Training von Modellen in dezentralisierter Weise, wobei sichergestellt wird, dass der zentrale Server keinen direkten Zugriff auf die Daten lokaler Clients hat. Dieser Ansatz kann jedoch den vollständigen Schutz der Datenprivatsphäre nicht gewährleisten, da die Modelle der lokalen Clients während des Aggregationsprozesses dem zentralen Server offengelegt werden. Dieses Problem wird noch kritischer, wenn Vision-Language-Modelle (VLMs) mit FL trainiert werden, da VLMs leicht Trainingsdateninstanzen memorieren können, was sie anfällig für Membership Inference Attacks (MIAs) macht. Um diese Herausforderung zu bewältigen, schlagen wir das FedRand-Framework vor, das die Offenlegung des vollständigen Satzes von Client-Parametern vermeidet. In diesem Framework wählt jeder Client zufällig Subparameter der Low-Rank Adaptation (LoRA) vom Server aus und behält die verbleibenden Gegenstücke der LoRA-Gewichte als private Parameter. Nachdem beide Parameter auf dem privaten Datensatz des Clients trainiert wurden, werden nur die nicht-privaten Client-Parameter zur Aggregation an den Server zurückgesendet. Dieser Ansatz verringert das Risiko, clientseitige VLM-Parameter offenzulegen, und verbessert so die Datenprivatsphäre. Wir validieren empirisch, dass FedRand im Vergleich zu relevanten Baselines die Robustheit gegen MIAs verbessert, während es eine Genauigkeit erreicht, die mit Methoden vergleichbar ist, die vollständige LoRA-Parameter über mehrere Benchmark-Datensätze hinweg kommunizieren.
Trotz des Erfolgs der Destillation bei großen Sprachmodellen (LLMs) wenden die meisten bisherigen Arbeiten identische Verlustfunktionen sowohl auf Lehrer- als auch auf Schülergenerierte Daten an. Diese Strategien übersehen die Synergie zwischen Verlustformulierungen und Datentypen, was zu einer suboptimalen Leistungssteigerung in den Schülermodellen führt. Um dies zu beheben, schlagen wir DistiLLM-2 vor, einen kontrastiven Ansatz, der gleichzeitig die Wahrscheinlichkeit von Lehrerantworten erhöht und die von Schülerantworten verringert, indem er diese Synergie nutzt. Unsere umfangreichen Experimente zeigen, dass DistiLLM-2 nicht nur leistungsstarke Schülermodelle über eine breite Palette von Aufgaben hinweg aufbaut, einschließlich Befolgung von Anweisungen und Codegenerierung, sondern auch diverse Anwendungen unterstützt, wie Präferenzabgleich und Vision-Sprache-Erweiterungen. Diese Ergebnisse unterstreichen das Potenzial eines kontrastiven Ansatzes, um die Wirksamkeit der LLM-Destillation zu steigern, indem Lehrer- und Schülermodelle effektiv über verschiedene Datentypen hinweg ausgerichtet werden.
DeepSeek-R1-Zero hat erfolgreich die Entstehung von Denkfähigkeiten in LLMs (Large Language Models) ausschließlich durch Reinforcement Learning (RL) demonstriert. Inspiriert von diesem Durchbruch untersuchen wir, wie RL genutzt werden kann, um die Denkfähigkeit von MLLMs (Multimodal Large Language Models) zu verbessern. Allerdings kämpft das direkte Training mit RL damit, komplexe Denkfähigkeiten wie Fragenstellen und Reflexion in MLLMs zu aktivieren, was auf das Fehlen von umfangreichen, hochwertigen multimodalen Denkdaten zurückzuführen ist. Um dieses Problem zu lösen, schlagen wir das Denkmodell MLLM, Vision-R1, vor, um die multimodale Denkfähigkeit zu verbessern. Konkret konstruieren wir zunächst einen hochwertigen multimodalen CoT-Datensatz (Chain-of-Thought) ohne menschliche Annotationen, indem wir ein bestehendes MLLM und DeepSeek-R1 durch Modalbündelung und Datenfilterung nutzen, um einen 200K multimodalen CoT-Datensatz, den Vision-R1-cold-Datensatz, zu erhalten. Dieser dient als Cold-Start-Initialisierungsdaten für Vision-R1. Um die Optimierungsherausforderungen, die durch Überdenken nach dem Cold Start verursacht werden, zu mildern, schlagen wir die Progressive Thinking Suppression Training (PTST)-Strategie vor und setzen Group Relative Policy Optimization (GRPO) mit der Hard-Formatting-Result-Belohnungsfunktion ein, um die Fähigkeit des Modells, korrekte und komplexe Denkprozesse auf einem 10K multimodalen Mathe-Datensatz zu lernen, schrittweise zu verfeinern. Umfassende Experimente zeigen, dass unser Modell eine durchschnittliche Verbesserung von ~6% über verschiedene multimodale Mathe-Denk-Benchmarks erreicht. Vision-R1-7B erzielt eine Genauigkeit von 73,5% auf dem weit verbreiteten MathVista-Benchmark, was nur 0,4% unter dem führenden Denkmodell, OpenAI O1, liegt. Die Datensätze und der Code werden unter folgendem Link veröffentlicht: https://github.com/Osilly/Vision-R1.
Jüngste Fortschritte bei Unet-basierten Diffusionsmodellen, wie ControlNet und IP-Adapter, haben effektive Mechanismen zur räumlichen und thematischen Steuerung eingeführt. Dennoch kämpft die DiT (Diffusion Transformer)-Architektur weiterhin mit effizienter und flexibler Kontrolle. Um dieses Problem zu lösen, schlagen wir EasyControl vor, ein neuartiges Framework, das darauf abzielt, bedingungsgesteuerte Diffusionstransformer mit hoher Effizienz und Flexibilität zu vereinen. Unser Framework basiert auf drei zentralen Innovationen. Erstens führen wir ein leichtgewichtiges Condition Injection LoRA-Modul ein. Dieses Modul verarbeitet bedingte Signale isoliert und fungiert als eine Plug-and-Play-Lösung. Es vermeidet die Modifikation der Basismodellgewichte, gewährleistet Kompatibilität mit angepassten Modellen und ermöglicht die flexible Einbindung vielfältiger Bedingungen. Bemerkenswerterweise unterstützt dieses Modul auch eine harmonische und robuste Zero-Shot-Multi-Condition-Generalisierung, selbst wenn es nur mit Einzelbedingungsdaten trainiert wurde. Zweitens schlagen wir ein Position-Aware Training Paradigm vor. Dieser Ansatz standardisiert Eingabebedingungen auf feste Auflösungen, was die Erzeugung von Bildern mit beliebigen Seitenverhältnissen und flexiblen Auflösungen ermöglicht. Gleichzeitig optimiert es die Recheneffizienz, wodurch das Framework praktischer für reale Anwendungen wird. Drittens entwickeln wir einen Causal Attention Mechanismus in Kombination mit der KV-Cache-Technik, angepasst für bedingte Generierungsaufgaben. Diese Innovation reduziert die Latenz der Bildsynthese erheblich und verbessert die Gesamteffizienz des Frameworks. Durch umfangreiche Experimente zeigen wir, dass EasyControl in verschiedenen Anwendungsszenarien außergewöhnliche Leistungen erzielt. Diese Innovationen machen unser Framework insgesamt hocheffizient, flexibel und für eine Vielzahl von Aufgaben geeignet.
Die Einbindung von externem Wissen in große Sprachmodelle (LLMs) verbessert deren Nutzen in vielfältigen Anwendungen, doch bestehende Methoden weisen Kompromisse auf. Retrieval-Augmented Generation (RAG) ruft Beweise durch Ähnlichkeitssuche ab, doch wichtige Informationen können außerhalb der bestplatzierten Ergebnisse liegen. Langkontextmodelle können mehrere Dokumente verarbeiten, sind jedoch rechenintensiv und durch die Größe des Kontextfensters begrenzt. Inspiriert von Studierenden, die Lernmaterial für Open-Book-Prüfungen verdichten, schlagen wir eine aufgabenbewusste Key-Value (KV)-Cache-Kompression vor, die externes Wissen in einem Zero- oder Few-Shot-Setup komprimiert. Dies ermöglicht es LLMs, effizient über eine komprimierte Darstellung aller relevanten Informationen zu schlussfolgern. Experimente zeigen, dass unser Ansatz sowohl RAG als auch aufgabenunabhängige Kompressionsmethoden übertrifft. Auf LongBench v2 verbessert es die Genauigkeit um bis zu 7 absolute Punkte gegenüber RAG bei einer 30-fachen Kompressionsrate und reduziert die Inferenzlatenz von 0,43s auf 0,16s. Ein synthetischer Datensatz verdeutlicht, dass RAG gut abschneidet, wenn spärliche Beweise ausreichen, während aufgabenbewusste Kompression für breite Wissensaufgaben überlegen ist.
OpenAI o1 und DeepSeek R1 erreichen oder übertreffen sogar das Leistungsniveau menschlicher Experten in komplexen Bereichen wie Mathematik und Naturwissenschaften, wobei Reinforcement Learning (RL) und logisches Denken eine entscheidende Rolle spielen. Im Bereich des autonomen Fahrens haben neuere End-to-End-Modelle die Planungsleistung erheblich verbessert, kämpfen jedoch weiterhin mit langschwänzigen Problemen aufgrund begrenzter Alltagslogik und Denkfähigkeiten. Einige Studien integrieren Vision-Language-Modelle (VLMs) in das autonome Fahren, verlassen sich jedoch typischerweise auf vortrainierte Modelle mit einfachem Supervised Fine-Tuning (SFT) auf Fahrzeugdaten, ohne weitere Untersuchungen zu Trainingsstrategien oder Optimierungen, die speziell auf die Planung zugeschnitten sind. In diesem Artikel stellen wir AlphaDrive vor, ein RL- und Denkrahmen für VLMs im autonomen Fahren. AlphaDrive führt vier GRPO-basierte RL-Belohnungen ein, die speziell für die Planung entwickelt wurden, und verwendet eine zweistufige Planungsdenk-Trainingsstrategie, die SFT mit RL kombiniert. Dadurch verbessert AlphaDrive sowohl die Planungsleistung als auch die Trainingseffizienz im Vergleich zur alleinigen Verwendung von SFT oder ohne Denkfähigkeiten erheblich. Darüber hinaus freuen wir uns, festzustellen, dass AlphaDrive nach dem RL-Training einige emergente multimodale Planungsfähigkeiten aufweist, die entscheidend für die Verbesserung der Fahrsicherheit und -effizienz sind. Nach unserem besten Wissen ist AlphaDrive das erste System, das GRPO-basiertes RL mit Planungsdenken in das autonome Fahren integriert. Der Code wird veröffentlicht, um zukünftige Forschung zu erleichtern.
Die Implementierung neuer Funktionen in Repository-Level-Codebasen ist eine entscheidende Anwendung von Code-Generierungsmodellen. Allerdings fehlt es in aktuellen Benchmarks an einem speziellen Bewertungsrahmen für diese Fähigkeit. Um diese Lücke zu schließen, führen wir FEA-Bench ein, einen Benchmark, der darauf abzielt, die Fähigkeit großer Sprachmodelle (LLMs) zur inkrementellen Entwicklung innerhalb von Code-Repositories zu bewerten. Wir sammeln Pull Requests aus 83 GitHub-Repositories und verwenden regelbasierte und intentbasierte Filterung, um Aufgabeninstanzen zu konstruieren, die sich auf die Entwicklung neuer Funktionen konzentrieren. Jede Aufgabeninstanz mit Codeänderungen wird mit relevanten Unit-Test-Dateien gepaart, um sicherzustellen, dass die Lösung überprüft werden kann. Die Implementierung der Funktion erfordert, dass LLMs gleichzeitig Code-Vervollständigungsfähigkeiten für neue Komponenten und Code-Bearbeitungsfähigkeiten für andere relevante Teile im Code-Repository besitzen, was eine umfassendere Bewertungsmethode der automatisierten Softwareentwicklungsfähigkeiten von LLMs bietet. Experimentelle Ergebnisse zeigen, dass LLMs in FEA-Bench deutlich schlechter abschneiden, was erhebliche Herausforderungen bei solcher Repository-Level-inkrementellen Code-Entwicklung verdeutlicht.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben die Fähigkeiten zur Textgenerierung erheblich verbessert, doch die Bewertung ihrer Leistung im Bereich des generativen Schreibens bleibt eine Herausforderung. Bestehende Benchmarks konzentrieren sich hauptsächlich auf generische Textgenerierung oder begrenzte Schreibaufgaben und erfassen nicht die vielfältigen Anforderungen hochwertiger schriftlicher Inhalte in verschiedenen Domänen. Um diese Lücke zu schließen, präsentieren wir WritingBench, einen umfassenden Benchmark, der entwickelt wurde, um LLMs in 6 Kernschreibdomänen und 100 Subdomänen zu bewerten, darunter kreatives, überzeugendes, informatives und technisches Schreiben. Wir schlagen weiterhin ein abfrageabhängiges Bewertungsframework vor, das LLMs befähigt, instanzspezifische Bewertungskriterien dynamisch zu generieren. Dieses Framework wird durch ein feinabgestimmtes Kritikermodell für kriterienbewusstes Scoring ergänzt, das Bewertungen in Bezug auf Stil, Format und Länge ermöglicht. Die Gültigkeit des Frameworks wird weiter durch seine Fähigkeit zur Datenkuratierung demonstriert, die es 7B-Parameter-Modellen ermöglicht, sich der State-of-the-Art (SOTA)-Leistung anzunähern. Wir stellen den Benchmark zusammen mit Bewertungstools und modularen Framework-Komponenten als Open Source zur Verfügung, um die Entwicklung von LLMs im Schreiben voranzutreiben.
Traditionelle agentenbasierte Workflows verlassen sich auf externe Aufforderungen, um die Interaktionen mit Werkzeugen und der Umgebung zu steuern, was die Autonomie von Reasoning-Modellen einschränkt. Wir positionieren Large Agent Models (LAMs), die die Generierung von Chain-of-Action (CoA) internalisieren, wodurch das Modell autonom entscheiden kann, wann und wie es externe Werkzeuge nutzt. Unser vorgeschlagenes AutoCoA-Framework kombiniert Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL), sodass das Modell nahtlos zwischen Reasoning und Aktion wechseln kann, während es Umgebungsinteraktionen effizient verwaltet. Zu den Hauptkomponenten gehören die schrittweise Auslösung von Aktionen, die trajektorienbasierte CoA-Optimierung und ein internes Weltmodell, um die Kosten für Interaktionen mit der realen Umgebung zu reduzieren. Evaluierungen auf Open-Domain-QA-Aufgaben zeigen, dass mit AutoCoA trainierte Agentenmodelle ReAct-basierte Workflows bei der Aufgabenbewältigung deutlich übertreffen, insbesondere bei Aufgaben, die langfristiges Reasoning und mehrstufige Aktionen erfordern. Code und Datensätze sind verfügbar unter https://github.com/ADaM-BJTU/AutoCoA.
Übersichtsarbeiten spielen eine entscheidende Rolle in der wissenschaftlichen Forschung, insbesondere angesichts des rasanten Wachstums von Forschungspublikationen. In jüngster Zeit haben Forscher begonnen, LLMs (Large Language Models) zu nutzen, um die Erstellung von Übersichtsarbeiten zu automatisieren und so die Effizienz zu steigern. Allerdings bleibt die Qualitätslücke zwischen LLM-generierten Übersichtsarbeiten und denen, die von Menschen verfasst wurden, erheblich, insbesondere in Bezug auf die Qualität der Gliederung und die Genauigkeit der Zitate. Um diese Lücken zu schließen, stellen wir SurveyForge vor, das zunächst die Gliederung erstellt, indem es die logische Struktur von menschengeschriebenen Gliederungen analysiert und auf die abgerufenen domänenbezogenen Artikel verweist. Anschließend kann SurveyForge, gestützt auf hochwertige Artikel, die von unserem Scholar Navigation Agent aus dem Speicher abgerufen werden, den Inhalt des generierten Artikels automatisch erstellen und verfeinern. Darüber hinaus haben wir SurveyBench entwickelt, um eine umfassende Bewertung zu ermöglichen. SurveyBench umfasst 100 menschengeschriebene Übersichtsarbeiten für einen Win-Rate-Vergleich und bewertet KI-generierte Übersichtsarbeiten in drei Dimensionen: Referenzen, Gliederung und Inhaltsqualität. Experimente zeigen, dass SurveyForge bisherige Arbeiten wie AutoSurvey übertreffen kann.
Große Sprachmodelle (LLMs) haben beeindruckende Leistungen auf bestehenden medizinischen Frage-Antwort-Benchmarks gezeigt. Diese hohe Leistung macht es zunehmend schwierig, fortgeschrittene Methoden sinnvoll zu bewerten und zu differenzieren. Wir präsentieren MedAgentsBench, einen Benchmark, der sich auf herausfordernde medizinische Fragen konzentriert, die mehrstufige klinische Schlussfolgerungen, Diagnoseformulierung und Behandlungsplanung erfordern – Szenarien, in denen aktuelle Modelle trotz ihrer starken Leistung bei Standardtests noch Schwierigkeiten haben. Basierend auf sieben etablierten medizinischen Datensätzen adressiert unser Benchmark drei wesentliche Einschränkungen bestehender Bewertungen: (1) die Prävalenz von einfachen Fragen, bei denen selbst Basismodelle hohe Leistungen erzielen, (2) inkonsistente Stichproben- und Bewertungsprotokolle über Studien hinweg und (3) das Fehlen einer systematischen Analyse des Zusammenspiels zwischen Leistung, Kosten und Inferenzzeit. Durch Experimente mit verschiedenen Basismodellen und Schlussfolgerungsmethoden zeigen wir, dass die neuesten Denkmodelle, DeepSeek R1 und OpenAI o3, außergewöhnliche Leistungen bei komplexen medizinischen Schlussfolgerungsaufgaben erbringen. Darüber hinaus bieten fortgeschrittene suchbasierte Agentenmethoden im Vergleich zu traditionellen Ansätzen vielversprechende Leistungs-Kosten-Verhältnisse. Unsere Analyse zeigt erhebliche Leistungsunterschiede zwischen Modellfamilien bei komplexen Fragen und identifiziert optimale Modellauswahlen für verschiedene rechnerische Einschränkungen. Unser Benchmark und Bewertungsrahmen sind öffentlich unter https://github.com/gersteinlab/medagents-benchmark verfügbar.
Wir präsentieren Autoregressive Representation Alignment (ARRA), ein neues Trainingsframework, das global kohärente Text-zu-Bild-Generierung in autoregressiven LLMs ohne architektonische Änderungen ermöglicht. Im Gegensatz zu früheren Arbeiten, die komplexe architektonische Neugestaltungen erfordern, richtet ARRA die verborgenen Zustände von LLMs mit visuellen Repräsentationen aus externen visuellen Grundlagenmodellen über einen globalen visuellen Ausrichtungsverlust und einen hybriden Token, <HYBNEXT>, aus. Dieser Token erzwingt duale Einschränkungen: lokale Vorhersage des nächsten Tokens und globale semantische Destillation, wodurch LLMs implizit räumliche und kontextuelle Kohärenz lernen können, während sie ihr ursprüngliches autoregressives Paradigma beibehalten. Umfangreiche Experimente bestätigen die Plug-and-Play-Vielseitigkeit von ARRA. Beim Training von LLMs, die nur für die Textgenerierung ausgelegt sind, oder bei zufälliger Initialisierung reduziert ARRA den FID um 25,5 % (MIMIC-CXR), 8,8 % (DeepEyeNet) und 7,5 % (ImageNet) für fortschrittliche autoregressive LLMs wie Chameleon und LlamaGen, alles ohne Framework-Modifikationen. Für die Domänenanpassung richtet ARRA allgemeine LLMs mit spezialisierten Modellen (z. B. BioMedCLIP) aus und erreicht eine FID-Reduktion von 18,6 % gegenüber dem direkten Feinabstimmen auf medizinische Bildgebung (MIMIC-CXR). Indem ARRA zeigt, dass die Neugestaltung des Trainingsziels – nicht nur architektonische Innovation – Herausforderungen der globalen Kohärenz über Modalitäten hinweg lösen kann, bietet es ein komplementäres Paradigma für die Weiterentwicklung autoregressiver Modelle. Code und Modelle werden veröffentlicht, um die autoregressive Bildgenerierung voranzutreiben.
Universelle multimodale Embedding-Modelle spielen eine entscheidende Rolle bei Aufgaben wie der verschachtelten Bild-Text-Retrieval, multimodalen RAG (Retrieval-Augmented Generation) und multimodalen Clustering. Unsere empirischen Ergebnisse zeigen jedoch, dass bestehende LMM-basierte Embedding-Modelle, die mit dem standardmäßigen InfoNCE-Loss trainiert wurden, eine hohe Überschneidung in der Ähnlichkeitsverteilung zwischen positiven und negativen Paaren aufweisen, was die effektive Unterscheidung von schwierigen negativen Paaren erschwert. Um dieses Problem zu lösen, schlagen wir ein einfaches, aber effektives Framework vor, das die Repräsentationslernfähigkeit des Embedding-Modells für negative Paare dynamisch basierend auf deren Unterscheidungsfähigkeit verbessert. Innerhalb dieses Frameworks trainieren wir eine Reihe von Modellen, genannt LLaVE, und evaluieren sie auf dem MMEB-Benchmark, der 4 Meta-Aufgaben und 36 Datensätze umfasst. Die experimentellen Ergebnisse zeigen, dass LLaVE stärkere Baselines etabliert, die state-of-the-art (SOTA) Leistung erzielen und gleichzeitig eine hohe Skalierbarkeit und Effizienz demonstrieren. Insbesondere übertrifft LLaVE-2B die bisherigen SOTA-7B-Modelle, während LLaVE-7B eine weitere Leistungssteigerung von 6,2 Punkten erreicht. Obwohl LLaVE auf Bild-Text-Daten trainiert wurde, kann es sich auf Text-Video-Retrieval-Aufgaben in einem Zero-Shot-Manner verallgemeinern und starke Leistungen erzielen, was sein bemerkenswertes Potenzial für die Übertragung auf andere Embedding-Aufgaben unterstreicht.
Relational Video Customization bezieht sich auf die Erstellung personalisierter Videos, die benutzerdefinierte Beziehungen zwischen zwei Subjekten darstellen, eine entscheidende Aufgabe für das Verständnis von visuellen Inhalten der realen Welt. Während bestehende Methoden die Erscheinungen und Bewegungen von Subjekten personalisieren können, haben sie immer noch Schwierigkeiten mit komplexer relationaler Videopersonalisierung, bei der präzise relationale Modellierung und hohe Generalisierung über Subjektkategorien hinweg entscheidend sind. Die Hauptherausforderung ergibt sich aus den komplexen räumlichen Anordnungen, Layoutvariationen und nuancierten zeitlichen Dynamiken, die in Beziehungen inhärent sind; folglich neigen aktuelle Modelle dazu, irrelevante visuelle Details zu stark zu betonen, anstatt bedeutungsvolle Interaktionen zu erfassen. Um diese Herausforderungen zu bewältigen, schlagen wir DreamRelation vor, einen neuartigen Ansatz, der Beziehungen durch eine kleine Anzahl von Beispielvideos personalisiert und dabei zwei Schlüsselkomponenten nutzt: Relational Decoupling Learning und Relational Dynamics Enhancement. Erstens, in Relational Decoupling Learning, entwirren wir Beziehungen von den Erscheinungen der Subjekte mithilfe von Relation LoRA Triplet und einer hybriden Maskentrainingsstrategie, was eine bessere Generalisierung über verschiedene Beziehungen hinweg gewährleistet. Darüber hinaus bestimmen wir das optimale Design des Relation LoRA Triplets durch die Analyse der unterschiedlichen Rollen der Query-, Key- und Value-Features innerhalb des Aufmerksamkeitsmechanismus von MM-DiT, wodurch DreamRelation das erste relationale Videogenerierungsframework mit erklärbaren Komponenten wird. Zweitens, in Relational Dynamics Enhancement, führen wir den Space-Time Relational Contrastive Loss ein, der die relationale Dynamik priorisiert und gleichzeitig die Abhängigkeit von detaillierten Subjekterscheinungen minimiert. Umfangreiche Experimente zeigen, dass DreamRelation state-of-the-art Methoden in der relationalen Videopersonalisierung übertrifft. Code und Modelle werden öffentlich zugänglich gemacht.
Obwohl Modelle zur Generierung maskierter Bilder und maskierte Diffusionsmodelle mit unterschiedlichen Motivationen und Zielen entwickelt wurden, stellen wir fest, dass sie innerhalb eines einzigen Frameworks vereinheitlicht werden können. Aufbauend auf dieser Erkenntnis untersuchen wir sorgfältig den Gestaltungsraum von Training und Sampling und identifizieren Schlüsselfaktoren, die sowohl zur Leistung als auch zur Effizienz beitragen. Basierend auf den während dieser Untersuchung beobachteten Verbesserungen entwickeln wir unser Modell, das als eMIGM bezeichnet wird. Empirisch zeigt eMIGM eine starke Leistung bei der Bildgenerierung auf ImageNet, gemessen an der Fréchet Inception Distance (FID). Insbesondere auf ImageNet 256x256 übertrifft eMIGM bei einer ähnlichen Anzahl von Funktionsauswertungen (NFEs) und Modellparametern das wegweisende VAR. Darüber hinaus erreicht eMIGM mit zunehmender NFE und Modellparametern eine Leistung, die mit den state-of-the-art kontinuierlichen Diffusionsmodellen vergleichbar ist, während weniger als 40% der NFE benötigt werden. Zusätzlich übertrifft eMIGM auf ImageNet 512x512 mit nur etwa 60% der NFE die state-of-the-art kontinuierlichen Diffusionsmodelle.
Traditionelle Methoden für die Segmentierung durch logisches Schließen basieren auf überwachtem Feinabstimmen mit kategorialen Labels und einfachen Beschreibungen, was die Generalisierung außerhalb des Trainingsbereichs einschränkt und explizite Schlussfolgerungsprozesse vermissen lässt. Um diese Einschränkungen zu überwinden, schlagen wir Seg-Zero vor, ein neuartiges Framework, das bemerkenswerte Generalisierbarkeit zeigt und explizite Ketten von Schlussfolgerungen durch kognitive Verstärkung ableitet. Seg-Zero führt eine entkoppelte Architektur ein, die aus einem Schlussfolgerungsmodell und einem Segmentierungsmodell besteht. Das Schlussfolgerungsmodell interpretiert Benutzerabsichten, erzeugt explizite Schlussfolgerungsketten und produziert Positionshinweise, die anschließend vom Segmentierungsmodell verwendet werden, um präzise pixelgenaue Masken zu generieren. Wir entwerfen einen ausgeklügelten Belohnungsmechanismus, der sowohl Format- als auch Genauigkeitsbelohnungen integriert, um die Optimierungsrichtungen effektiv zu steuern. Ausschließlich durch Verstärkungslernen mit GRPO und ohne explizite Schlussfolgerungsdaten trainiert, erreicht Seg-Zero robuste Zero-Shot-Generalisierung und zeigt emergente Fähigkeiten zur Schlussfolgerung zur Testzeit. Experimente zeigen, dass Seg-Zero-7B eine Zero-Shot-Leistung von 57,5 auf dem ReasonSeg-Benchmark erreicht, was den bisherigen LISA-7B um 18\% übertrifft. Diese signifikante Verbesserung unterstreicht die Fähigkeit von Seg-Zero, domänenübergreifend zu generalisieren, während es einen expliziten Schlussfolgerungsprozess präsentiert. Der Code ist verfügbar unter https://github.com/dvlab-research/Seg-Zero.
Jüngste Fortschritte in der 2D-zu-3D-Wahrnehmung haben das Verständnis von 3D-Szenen aus 2D-Bildern erheblich verbessert. Bestehende Methoden stehen jedoch vor kritischen Herausforderungen, darunter begrenzte Generalisierung über verschiedene Szenen hinweg, suboptimale Wahrnehmungsgenauigkeit und langsame Rekonstruktionsgeschwindigkeiten. Um diese Einschränkungen zu überwinden, schlagen wir Perception-Efficient 3D Reconstruction (PE3R) vor, ein neuartiges Framework, das sowohl die Genauigkeit als auch die Effizienz verbessern soll. PE3R verwendet eine Feedforward-Architektur, um eine schnelle Rekonstruktion des 3D-semantischen Feldes zu ermöglichen. Das Framework zeigt eine robuste Zero-Shot-Generalisierung über diverse Szenen und Objekte hinweg und verbessert gleichzeitig die Rekonstruktionsgeschwindigkeit erheblich. Umfangreiche Experimente zur 2D-zu-3D-Open-Vocabulary-Segmentierung und 3D-Rekonstruktion bestätigen die Wirksamkeit und Vielseitigkeit von PE3R. Das Framework erreicht eine mindestens 9-fache Beschleunigung bei der Rekonstruktion des 3D-semantischen Feldes sowie erhebliche Verbesserungen in der Wahrnehmungsgenauigkeit und Rekonstruktionspräzision, wodurch neue Maßstäbe in diesem Bereich gesetzt werden. Der Code ist öffentlich verfügbar unter: https://github.com/hujiecpp/PE3R.
Objekterkennung und -segmentierung werden in Computer-Vision-Anwendungen weit verbreitet eingesetzt. Konventionelle Modelle wie die YOLO-Serie sind zwar effizient und genau, jedoch durch vordefinierte Kategorien eingeschränkt, was ihre Anpassungsfähigkeit in offenen Szenarien behindert. Neuere Open-Set-Methoden nutzen Textprompts, visuelle Hinweise oder ein Prompt-freies Paradigma, um dies zu überwinden, opfern jedoch oft Leistung und Effizienz aufgrund hoher Rechenanforderungen oder komplexer Implementierung. In dieser Arbeit stellen wir YOLOE vor, das Erkennung und Segmentierung über diverse offene Prompt-Mechanismen in einem einzigen hocheffizienten Modell integriert und Echtzeit-Erkennung von allem ermöglicht. Für Textprompts schlagen wir die Re-parametrisierbare Region-Text-Ausrichtung (RepRTA) vor. Diese verfeinert vortrainierte Text-Einbettungen über ein re-parametrisierbares leichtgewichtiges Hilfsnetzwerk und verbessert die visuell-textuelle Ausrichtung ohne zusätzlichen Inferenz- oder Transferaufwand. Für visuelle Prompts präsentieren wir den Semantisch-Aktivierten Visuellen Prompt-Encoder (SAVPE). Dieser verwendet entkoppelte semantische und Aktivierungszweige, um verbesserte visuelle Einbettungen und Genauigkeit mit minimaler Komplexität zu erreichen. Für Prompt-freie Szenarien führen wir die Lazy Region-Prompt-Kontraststrategie (LRPC) ein. Diese nutzt ein integriertes großes Vokabular und spezialisierte Einbettungen, um alle Objekte zu identifizieren und die kostspielige Abhängigkeit von Sprachmodellen zu vermeiden. Umfangreiche Experimente zeigen die außergewöhnliche Zero-Shot-Leistung und Übertragbarkeit von YOLOE bei hoher Inferenzeffizienz und niedrigen Trainingskosten. Insbesondere übertrifft YOLOE-v8-S auf LVIS mit dreimal geringeren Trainingskosten und 1,4-facher Inferenzbeschleunigung YOLO-Worldv2-S um 3,5 AP. Bei der Übertragung auf COCO erzielt YOLOE-v8-L im Vergleich zum Closed-Set YOLOv8-L einen Gewinn von 0,6 AP^b und 0,4 AP^m bei nahezu viermal kürzerer Trainingszeit. Code und Modelle sind verfügbar unter https://github.com/THU-MIG/yoloe.
Vision-Language Models (VLMs) zeichnen sich durch die Integration visueller und textueller Informationen für visuell zentrierte Aufgaben aus, doch ihr Umgang mit Inkonsistenzen zwischen den Modalitäten ist bisher wenig erforscht. Wir untersuchen die Modalitätspräferenzen von VLMs, wenn sie mit visuellen Daten und variierten textuellen Eingaben in visuell zentrierten Kontexten konfrontiert werden. Durch die Einführung textueller Variationen in vier visuell zentrierte Aufgaben und die Evaluierung von zehn Vision-Language Models (VLMs) entdecken wir ein Phänomen des „blinden Vertrauens in Text“: VLMs vertrauen bei Inkonsistenzen überproportional textuellen Daten gegenüber visuellen Daten, was zu erheblichen Leistungseinbußen bei manipuliertem Text führt und Sicherheitsbedenken aufwirft. Wir analysieren Faktoren, die diese Textverzerrung beeinflussen, darunter Instruktionsprompts, die Größe des Sprachmodells, Textrelevanz, Token-Reihenfolge und das Zusammenspiel zwischen visueller und textueller Gewissheit. Während bestimmte Faktoren, wie die Vergrößerung des Sprachmodells, die Textverzerrung leicht verringern, können andere, wie die Token-Reihenfolge, sie aufgrund von Positionsverzerrungen, die von Sprachmodellen geerbt werden, verstärken. Um dieses Problem zu adressieren, untersuchen wir überwachtes Fine-Tuning mit Textaugmentierung und zeigen dessen Wirksamkeit bei der Reduzierung der Textverzerrung. Zusätzlich liefern wir eine theoretische Analyse, die nahelegt, dass das Phänomen des blinden Vertrauens in Text auf ein Ungleichgewicht zwischen reinem Text und multimodalen Daten während des Trainings zurückzuführen sein könnte. Unsere Ergebnisse unterstreichen die Notwendigkeit eines ausgewogenen Trainings und einer sorgfältigen Berücksichtigung der Modalitätsinteraktionen in VLMs, um deren Robustheit und Zuverlässigkeit im Umgang mit Inkonsistenzen in multimodalen Daten zu verbessern.
Architekturen mit einer Mischung von Large Language Model (LLM)-Agenten (Mixture of Agents, MoA) erreichen Spitzenleistungen auf prominenten Benchmarks wie AlpacaEval 2.0, indem sie die Zusammenarbeit mehrerer LLMs zur Inferenzzeit nutzen. Trotz dieser Erfolge fehlt eine Bewertung der Sicherheit und Zuverlässigkeit von MoA. Wir präsentieren die erste umfassende Studie zur Robustheit von MoA gegenüber täuschenden LLM-Agenten, die absichtlich irreführende Antworten liefern. Wir untersuchen Faktoren wie die Verbreitung von täuschenden Informationen, die Modellgröße und die Verfügbarkeit von Informationen und decken kritische Schwachstellen auf. Auf AlpacaEval 2.0 erreicht das beliebte LLaMA 3.1-70B-Modell eine längenkontrollierte Gewinnrate (Length-Controlled Win Rate, LC WR) von 49,2 %, wenn es mit einem 3-schichtigen MoA (6 LLM-Agenten) kombiniert wird. Wir zeigen jedoch, dass die Einführung eines einzigen sorgfältig instruierten täuschenden Agenten in das MoA die Leistung auf 37,9 % reduzieren kann, wodurch alle Vorteile des MoA effektiv zunichte gemacht werden. Auf QuALITY, einer Multiple-Choice-Verständnisaufgabe, ist die Auswirkung ebenfalls gravierend, wobei die Genauigkeit um erstaunliche 48,5 % einbricht. Inspiriert teilweise durch den historischen Wahlprozess des Dogen von Venedig, der darauf ausgelegt war, Einflussnahme und Täuschung zu minimieren, schlagen wir eine Reihe von unüberwachten Verteidigungsmechanismen vor, die den größten Teil der verlorenen Leistung wiederherstellen.
Wir stellen DiffCLIP vor, ein neuartiges Vision-Language-Modell, das den differentiellen Aufmerksamkeitsmechanismus auf CLIP-Architekturen erweitert. Der differentielle Aufmerksamkeitsmechanismus wurde ursprünglich für große Sprachmodelle entwickelt, um relevanten Kontext zu verstärken und gleichzeitig störende Informationen auszublenden. In dieser Arbeit integrieren wir diesen Mechanismus in das Dual-Encoder-Framework (Bild und Text) von CLIP. Mit minimalen zusätzlichen Parametern erreicht DiffCLIP eine überlegene Leistung bei Aufgaben zur Bild-Text-Verständnis. In Benchmarks für Zero-Shot-Klassifikation, Retrieval und Robustheit übertrifft DiffCLIP durchweg die Baseline-CLIP-Modelle. Bemerkenswert ist, dass diese Verbesserungen mit einem vernachlässigbaren Rechenaufwand einhergehen, was zeigt, dass differentielle Aufmerksamkeit multimodale Repräsentationen erheblich verbessern kann, ohne die Effizienz zu beeinträchtigen. Der Code ist unter https://github.com/hammoudhasan/DiffCLIP verfügbar.
Wir untersuchen ein neuartiges Zero-Shot Audio-Visuelles Spracherkennungsframework (AVSR), genannt Zero-AVSR, das Spracherkennung in Zielsprachen ermöglicht, ohne dass dafür Audio-Visuelle Sprachdaten in diesen Sprachen benötigt werden. Konkret führen wir den Audio-Visuellen Sprachromanisierer (AV-Romanizer) ein, der sprachunabhängige Sprachrepräsentationen durch die Vorhersage von Romantext erlernt. Anschließend nutzen wir die starken mehrsprachigen Modellierungsfähigkeiten von Large Language Models (LLMs), um den vorhergesagten Romantext in sprachspezifische Grapheme umzuwandeln, wodurch das vorgeschlagene Kaskadierte Zero-AVSR entsteht. Darüber hinaus untersuchen wir einen vereinheitlichten Zero-AVSR-Ansatz, indem wir die durch den AV-Romanizer kodierten Audio-Visuellen Sprachrepräsentationen direkt in das LLM integrieren. Dies wird durch das Finetuning des Adapters und des LLMs mithilfe unseres vorgeschlagenen Multi-Task-Learning-Schemas erreicht. Um die breite Palette phonetischer und linguistischer Vielfalt zu erfassen, führen wir außerdem ein Mehrsprachiges Audio-Visuelles Romanisiertes Korpus (MARC) ein, das 2.916 Stunden Audio-Visueller Sprachdaten aus 82 Sprachen sowie Transkriptionen in sowohl sprachspezifischen Graphemen als auch Romantext umfasst. Umfangreiche Analysen und Experimente bestätigen, dass das vorgeschlagene Zero-AVSR-Framework das Potenzial hat, die Sprachunterstützung über die während des Trainings des AV-Romanizers gesehenen Sprachen hinaus zu erweitern.
Zeitreihenmodelle stehen vor erheblichen Herausforderungen, wenn es darum geht, große und komplexe Datensätze zu bewältigen, ähnlich der Skalierung, die von großen Sprachmodellen (LLMs) erreicht wird. Die einzigartigen Eigenschaften von Zeitreihendaten und die rechenintensiven Anforderungen der Modellskalierung erfordern innovative Ansätze. Während Forscher verschiedene Architekturen wie Transformers, LSTMs und GRUs untersucht haben, um diese Herausforderungen zu bewältigen, schlagen wir eine neuartige Lösung mit RWKV-7 vor, das Meta-Lernen in seinen Zustandsaktualisierungsmechanismus integriert. Durch die Einbindung der Zeitmix- und Kanalmix-Komponenten von RWKV-7 in das transformerbasierte Zeitreihenmodell Timer erzielen wir eine erhebliche Leistungssteigerung von etwa 1,13 bis 43,3x und eine Reduzierung der Trainingszeit um das 4,5-fache bei 1/23 der Parameter, wobei gleichzeitig weniger Parameter verwendet werden. Unser Code und die Modellgewichte sind für weitere Forschung und Entwicklung öffentlich verfügbar unter https://github.com/Alic-Li/BlackGoose_Rimer.
State Space Models (SSMs) haben sich als effiziente Alternativen zu Transformern etabliert, die deren quadratische Rechenkosten reduzieren. Die Anwendung von Parameter-Efficient Fine-Tuning (PEFT)-Methoden auf SSMs ist jedoch weitgehend unerforscht. Insbesondere prompt-basierte Methoden wie Prompt Tuning und Prefix-Tuning, die in Transformern weit verbreitet sind, schneiden bei SSMs nicht gut ab. Um dies zu beheben, schlagen wir zustandsbasierte Methoden als überlegene Alternative zu prompt-basierten Methoden vor. Diese neue Familie von Methoden ergibt sich natürlich aus den architektonischen Eigenschaften von SSMs. Zustandsbasierte Methoden passen zustandsbezogene Merkmale direkt an, anstatt sich auf externe Prompts zu verlassen. Darüber hinaus führen wir eine neuartige zustandsbasierte PEFT-Methode ein: State-offset Tuning. Bei jedem Zeitschritt beeinflusst unsere Methode den Zustand im aktuellen Schritt direkt, was zu einer effektiveren Anpassung führt. Durch umfangreiche Experimente über diverse Datensätze hinweg demonstrieren wir die Wirksamkeit unserer Methode. Der Code ist verfügbar unter https://github.com/furiosa-ai/ssm-state-tuning.
Die zunehmende Popularität großer Sprachmodelle hat nicht nur zu einer weitverbreiteten Nutzung geführt, sondern auch verschiedene Risiken mit sich gebracht, darunter die Möglichkeit, systematisch Fake News zu verbreiten. Infolgedessen ist die Entwicklung von Klassifikationssystemen wie DetectGPT von entscheidender Bedeutung geworden. Diese Detektoren sind jedoch anfällig für Umgehungstechniken, wie eine experimentelle Reihe gezeigt hat: Systematische Änderungen der Temperatur der generativen Modelle erwiesen sich als am wenigsten zuverlässig gegenüber oberflächlichen Lern-Detektoren. Die Feinabstimmung des generativen Modells durch Reinforcement Learning umging BERT-basierte Detektoren. Schließlich führte das Umformulieren zu einer >90\%igen Umgehung von Zero-Shot-Detektoren wie DetectGPT, obwohl die Texte dem Original sehr ähnlich blieben. Ein Vergleich mit bestehenden Arbeiten hebt die bessere Leistung der vorgestellten Methoden hervor. Mögliche gesellschaftliche Auswirkungen und weitere Forschungsrichtungen werden diskutiert.
Während die klassifikatorfreie Führung (Classifier-Free Guidance, CFG) für bedingte Diffusionsmodelle unerlässlich ist, verdoppelt sie die Anzahl der neuronalen Funktionsauswertungen (Neural Function Evaluations, NFEs) pro Inferenzschritt. Um diese Ineffizienz zu mindern, führen wir die Adapter-Führungsdestillation (Adapter Guidance Distillation, AGD) ein, einen neuartigen Ansatz, der CFG in einem einzigen Vorwärtsdurchlauf simuliert. AGD nutzt leichtgewichtige Adapter, um CFG zu approximieren, wodurch die Abtastgeschwindigkeit effektiv verdoppelt wird, während die Probenqualität erhalten bleibt oder sogar verbessert wird. Im Gegensatz zu früheren Methoden der Führungsdestillation, die das gesamte Modell anpassen, hält AGD das Basismodell eingefroren und trainiert nur minimale zusätzliche Parameter (ca. 2 %), um den Ressourcenbedarf der Destillationsphase erheblich zu reduzieren. Darüber hinaus bewahrt dieser Ansatz die ursprünglichen Modellgewichte und ermöglicht es, die Adapter nahtlos mit anderen Checkpoints, die vom gleichen Basismodell abgeleitet sind, zu kombinieren. Wir behandeln auch eine zentrale Diskrepanz zwischen Training und Inferenz in bestehenden Führungsdestillationsmethoden, indem wir auf CFG-geführten Trajektorien statt auf standardmäßigen Diffusionspfaden trainieren. Durch umfangreiche Experimente zeigen wir, dass AGD mit nur der Hälfte der NFEs vergleichbare oder bessere FID-Werte (Fréchet Inception Distance) gegenüber CFG über mehrere Architekturen hinweg erreicht. Bemerkenswerterweise ermöglicht unsere Methode die Destillation großer Modelle (ca. 2,6 Mrd. Parameter) auf einer einzelnen Consumer-GPU mit 24 GB VRAM, was sie zugänglicher macht als bisherige Ansätze, die mehrere High-End-GPUs erfordern. Wir werden die Implementierung unserer Methode öffentlich zugänglich machen.
Text-to-Image (T2I)-Modelle sind in der Lage, hochwertige künstlerische Kreationen und visuelle Inhalte zu generieren. Bisher konzentrieren sich bestehende Forschungsarbeiten und Bewertungsstandards jedoch hauptsächlich auf Bildrealismus und oberflächliche Text-Bild-Ausrichtung, wobei eine umfassende Bewertung des komplexen semantischen Verständnisses und der Integration von Weltwissen in der Text-zu-Bild-Generierung fehlt. Um diese Herausforderung zu bewältigen, schlagen wir WISE vor, den ersten Benchmark, der speziell für die weltwissensbasierte semantische Bewertung entwickelt wurde. WISE geht über die einfache Wort-Pixel-Zuordnung hinaus, indem es Modelle mit 1000 sorgfältig gestalteten Prompts aus 25 Teilbereichen in kulturellem Allgemeinwissen, räumlich-zeitlichem Denken und Naturwissenschaften konfrontiert. Um die Grenzen des traditionellen CLIP-Metriken zu überwinden, führen wir WiScore ein, eine neuartige quantitative Metrik zur Bewertung der Wissens-Bild-Ausrichtung. Durch umfassende Tests von 20 Modellen (10 dedizierte T2I-Modelle und 10 einheitliche multimodale Modelle) mit 1.000 strukturierten Prompts aus 25 Teilbereichen zeigen unsere Ergebnisse erhebliche Einschränkungen in ihrer Fähigkeit, Weltwissen effektiv in die Bildgenerierung zu integrieren und anzuwenden. Dies unterstreicht kritische Wege zur Verbesserung der Wissensintegration und -anwendung in der nächsten Generation von T2I-Modellen. Code und Daten sind unter https://github.com/PKU-YuanGroup/WISE verfügbar.
Domain Generalization zielt darauf ab, Modelle zu entwickeln, die sich auf neue und unbekannte Datenverteilungen verallgemeinern lassen. In dieser Arbeit untersuchen wir, wie Modellarchitekturen und Vortrainingsziele die Merkmalsvielfalt beeinflussen, und schlagen eine Methode vor, um diese effektiv für die Domain Generalization zu nutzen. Konkret entdecken wir, ausgehend von einem vortrainierten Merkmalsraum, zunächst latente Domänenstrukturen, sogenannte Pseudo-Domänen, die domänenspezifische Variationen auf unüberwachte Weise erfassen. Anschließend erweitern wir bestehende Klassifikatoren um diese komplementären Pseudo-Domänenrepräsentationen, wodurch sie besser für verschiedene unbekannte Testdomänen geeignet sind. Wir analysieren, wie sich verschiedene vortrainierte Merkmalsräume in den erfassten domänenspezifischen Varianzen unterscheiden. Unsere empirischen Studien zeigen, dass Merkmale aus Diffusionsmodellen besonders gut darin sind, Domänen ohne explizite Domänenlabels zu trennen und subtile domänenspezifische Informationen zu erfassen. Auf 5 Datensätzen demonstrieren wir, dass unser sehr einfaches Framework die Generalisierung auf unbekannte Domänen verbessert, mit einer maximalen Steigerung der Testgenauigkeit von über 4 % im Vergleich zum Standard-Baseline-Verfahren Empirical Risk Minimization (ERM). Entscheidend ist, dass unsere Methode die meisten Algorithmen übertrifft, die während des Trainings auf Domänenlabels zugreifen.
Vortrainierte LLMs, die zusätzlich mit Bilddaten trainiert werden, zeigen gute Leistungen bei Vision-Language-Aufgaben. Während das Hinzufügen von Bildern in einer zweiten Trainingsphase diese Fähigkeit effektiv freisetzt, ist unklar, wie viel Gewinn oder Verlust dieser zweistufige Prozess im Vergleich zu VLMs bringt, die Bilder früher in den Trainingsprozess integrieren. Um dies zu untersuchen, trainieren wir Modelle mit verschiedenen Datensätzen, Skalierungen, Bild-Text-Verhältnissen und unterschiedlichem Umfang an Vortraining, bevor visuelle Tokens eingeführt werden. Anschließend feintunen wir diese Modelle und bewerten ihre Leistung auf einer Reihe von Vision-Language- und reinen Textaufgaben. Wir stellen fest, dass das Vortraining mit einer Mischung aus Bild- und Textdaten es Modellen ermöglicht, bei Vision-Language-Aufgaben besser abzuschneiden, während sie gleichzeitig starke Leistungen bei reinen Textbewertungen beibehalten. Im Durchschnitt über 6 verschiedene Aufgaben zeigen wir, dass bei einem 1B-Modell die Einführung visueller Tokens nach 80 % des Vortrainings zu einer durchschnittlichen Verbesserung von 2 % führt, verglichen mit der Einführung visueller Tokens in ein vollständig vortrainiertes Modell.
Jüngste Fortschritte in Text-zu-Bild-Diffusionsmodellen ermöglichen die Erzeugung fotorealistischer Bilder, bergen jedoch auch das Risiko, schädliche Inhalte wie NSFW-Bilder zu produzieren. Um dieses Risiko zu mindern, werden Konzeptlöschungsmethoden untersucht, um dem Modell das Verlernen spezifischer Konzepte zu erleichtern. Aktuelle Studien haben jedoch Schwierigkeiten, schädliche Konzepte, die implizit in Eingabeaufforderungen (z. B. metaphorische Ausdrücke oder adversariale Prompts) eingebettet sind, vollständig zu löschen, während die normale Generierungsfähigkeit des Modells erhalten bleibt. Um diese Herausforderung zu bewältigen, schlägt unsere Studie TRCE vor, das eine zweistufige Konzeptlöschungsstrategie verwendet, um einen effektiven Kompromiss zwischen zuverlässiger Löschung und Wissenserhalt zu erreichen. Zunächst beginnt TRCE damit, die schädliche Semantik, die implizit in textuellen Eingabeaufforderungen eingebettet ist, zu löschen. Durch die Identifizierung eines kritischen Abbildungsziels (d. h. das [EoT]-Embedding) optimieren wir die Cross-Attention-Schichten, um schädliche Eingabeaufforderungen auf kontextuell ähnliche, aber sichere Konzepte abzubilden. Dieser Schritt verhindert, dass das Modell während des Denoising-Prozesses übermäßig von schädlicher Semantik beeinflusst wird. Anschließend berücksichtigt TRCE die deterministischen Eigenschaften des Sampling-Pfads des Diffusionsmodells und lenkt die frühe Denoising-Vorhersage durch kontrastives Lernen in die sichere Richtung und weg von der unsicheren, wodurch die Erzeugung schädlicher Inhalte weiter vermieden wird. Schließlich führen wir umfassende Bewertungen von TRCE anhand mehrerer Benchmarks zur Löschung schädlicher Konzepte durch, und die Ergebnisse zeigen seine Wirksamkeit bei der Löschung schädlicher Konzepte bei gleichzeitig besserer Erhaltung der ursprünglichen Generierungsfähigkeit des Modells. Der Code ist verfügbar unter: http://github.com/ddgoodgood/TRCE. WARNUNG: Dieses Papier enthält modellgenerierte Inhalte, die anstößiges Material enthalten können.
Vortrainierte Vision-Modelle (PVMs) sind grundlegend für die moderne Robotik, doch ihre optimale Konfiguration bleibt unklar. Durch systematische Evaluierung stellen wir fest, dass DINO und iBOT zwar MAE in visuomotorischen Steuerungs- und Wahrnehmungsaufgaben übertreffen, jedoch Schwierigkeiten haben, wenn sie mit nicht-(einzel-)objektzentrierten (NOC) Daten trainiert werden – eine Einschränkung, die stark mit ihrer verminderten Fähigkeit korreliert, objektzentrierte Repräsentationen zu lernen. Diese Untersuchung zeigt, dass die Fähigkeit, objektzentrierte Repräsentationen aus nicht-objektzentrierten Robotikdatensätzen zu bilden, der Schlüssel zum Erfolg für PVMs ist. Motiviert durch diese Erkenntnis haben wir SlotMIM entwickelt, eine Methode, die objektzentrierte Repräsentationen induziert, indem sie einen semantischen Engpass einführt, um die Anzahl der Prototypen zu reduzieren und so die Entstehung von Objekthaftigkeit sowie eine Cross-View-Konsistenzregularisierung zur Förderung von Multiview-Invarianz zu fördern. Unsere Experimente umfassen Vortraining auf objektzentrierten, szenenzentrierten, webgecrawlten und egozentrischen Daten. In allen Settings lernt unser Ansatz übertragbare Repräsentationen und erzielt signifikante Verbesserungen gegenüber früheren Arbeiten in Bilderkennung, Szenenverständnis und Robotik-Lernbewertungen. Bei der Skalierung mit Millionen-Datensätzen zeigt unsere Methode zudem überlegene Dateneffizienz und Skalierbarkeit. Unser Code und Modelle sind öffentlich verfügbar unter https://github.com/CVMI-Lab/SlotMIM.
Das Lösen von Expertenaufgaben mit multimodalen Anforderungen ist ein entscheidender Meilenstein auf dem Weg zur allgemeinen Intelligenz. Da die Fähigkeiten multimodaler großer Sprachmodelle (MLLMs) kontinuierlich verbessert werden, wird die Bewertung solch fortschrittlicher multimodaler Intelligenz notwendig, aber auch herausfordernd. In dieser Arbeit stellen wir ProBench vor, einen Benchmark für offene Benutzeranfragen, die professionelles Fachwissen und fortgeschrittenes Denkvermögen erfordern. ProBench besteht aus 4.000 hochwertigen Beispielen, die unabhängig von Fachleuten basierend auf ihren täglichen Produktivitätsanforderungen eingereicht wurden. Es umfasst 10 Bereiche und 56 Teilgebiete, darunter Wissenschaft, Kunst, Geisteswissenschaften, Programmierung, Mathematik und kreatives Schreiben. Experimentell bewerten und vergleichen wir 24 der neuesten Modelle unter Verwendung von MLLM-as-a-Judge. Unsere Ergebnisse zeigen, dass zwar die besten Open-Source-Modelle den proprietären Modellen ebenbürtig sind, ProBench jedoch erhebliche Herausforderungen in den Bereichen visuelle Wahrnehmung, Textverständnis, Fachwissen und fortgeschrittenes Denkvermögen bietet und somit wertvolle Richtungen für zukünftige multimodale KI-Forschungsbemühungen aufzeigt.
Audio-Visual Speech Recognition (AVSR) nutzt sowohl auditive als auch visuelle Modalitäten, um die Robustheit der Spracherkennung zu verbessern, insbesondere in lauten Umgebungen. Jüngste Fortschritte bei Large Language Models (LLMs) haben deren Wirksamkeit in der Spracherkennung, einschließlich AVSR, unter Beweis gestellt. Aufgrund der erheblichen Länge von Sprachrepräsentationen führt die direkte Integration mit LLMs jedoch zu hohen Rechenkosten. Bisherige Ansätze adressieren dies, indem Sprachrepräsentationen komprimiert werden, bevor sie in LLMs eingespeist werden. Höhere Kompressionsraten führen jedoch oft zu Leistungseinbußen, was einen Kompromiss zwischen Recheneffizienz und Erkennungsgenauigkeit erfordert. Um diese Herausforderung zu bewältigen, schlagen wir Llama-MTSK vor, das erste Matryoshka-basierte multimodale LLM für AVSR, das eine flexible Anpassung der Audio-Visual-Token-Zuweisung basierend auf spezifischen Rechenbeschränkungen ermöglicht, während gleichzeitig eine hohe Leistung erhalten bleibt. Unser Ansatz, inspiriert von Matryoshka Representation Learning, kodiert Audio-Visual-Repräsentationen in mehreren Granularitäten innerhalb eines einzigen Modells, wodurch die Notwendigkeit entfällt, separate Modelle für unterschiedliche Kompressionsstufen zu trainieren. Darüber hinaus führen wir drei LoRA-basierte Matryoshka-Strategien ein, die globale und skalen-spezifische LoRA-Module verwenden, um das LLM effizient zu feinabzustimmen. Umfangreiche Auswertungen auf den beiden größten AVSR-Datensätzen zeigen, dass Llama-MTSK state-of-the-art Ergebnisse erzielt und Modelle, die unabhängig bei festen Kompressionsstufen trainiert wurden, erreicht oder übertrifft.
Die rasche Ausbreitung des mobilen Internets hat zu einem erheblichen Anstieg von nutzergenerierten Inhalten (User-Generated Content, UGC) in Form von Bildern geführt, wodurch die umfassende Bewertung von UGC-Bildern dringend und essenziell geworden ist. Kürzlich haben multimodale große Sprachmodelle (Multimodal Large Language Models, MLLMs) großes Potenzial in der Bildqualitätsbewertung (Image Quality Assessment, IQA) und der ästhetischen Bildbewertung (Image Aesthetic Assessment, IAA) gezeigt. Trotz dieser Fortschritte gibt es bei der effektiven Bewertung der Qualität und Ästhetik von UGC-Bildern weiterhin zwei Hauptherausforderungen: 1) Eine einzelne Bewertung reicht nicht aus, um die hierarchische menschliche Wahrnehmung zu erfassen. 2) Es bleibt eine offene Frage, wie MLLMs numerische Bewertungen, wie z. B. mittlere Meinungswerte (Mean Opinion Scores, MOS), ausgeben können. Um diese Herausforderungen zu bewältigen, stellen wir einen neuartigen Datensatz namens Realistic Image Quality and Aesthetic (RealQA) vor, der 14.715 UGC-Bilder umfasst, von denen jedes mit 10 feingranularen Attributen annotiert ist. Diese Attribute erstrecken sich über drei Ebenen: niedrige Ebene (z. B. Bildschärfe), mittlere Ebene (z. B. Subjektintegrität) und hohe Ebene (z. B. Komposition). Darüber hinaus führen wir eine Reihe von vertieften und umfassenden Untersuchungen durch, wie numerische Bewertungen effektiv mit MLLMs vorhergesagt werden können. Überraschenderweise kann das Next-Token-Paradigma durch die Vorhersage von nur zwei zusätzlichen signifikanten Ziffern Spitzenleistungen (State-of-the-Art, SOTA) erzielen. Darüber hinaus kann die vorgeschlagene Methode mit Hilfe von Chain of Thought (CoT) in Kombination mit den erlernten feingranularen Attributen SOTA-Methoden auf fünf öffentlichen Datensätzen für IQA und IAA übertreffen, wobei sie eine überlegene Interpretierbarkeit aufweist und eine starke Zero-Shot-Generalisierung für die Videoqualitätsbewertung (Video Quality Assessment, VQA) zeigt. Der Code und der Datensatz werden veröffentlicht.
Bestehende Methoden zur 6D-Posenschätzung neuartiger Objekte basieren typischerweise auf CAD-Modellen oder dichten Referenzansichten, die beide schwer zu beschaffen sind. Die Verwendung nur einer einzigen Referenzansicht ist skalierbarer, stellt jedoch aufgrund großer Pose-Diskrepanzen und begrenzter geometrischer und räumlicher Informationen eine Herausforderung dar. Um diese Probleme zu lösen, schlagen wir eine Single-Reference-basierte 6D-Posenschätzung für neuartige Objekte (SinRef-6D) vor. Unser zentraler Ansatz besteht darin, eine punktweise Ausrichtung im Kamerakoordinatensystem iterativ auf der Grundlage von Zustandsraummodellen (State Space Models, SSMs) zu etablieren. Insbesondere kann die iterative punktweise Ausrichtung im Kameraraum große Pose-Diskrepanzen effektiv bewältigen, während unsere vorgeschlagenen RGB- und Points-SSMs langreichweitige Abhängigkeiten und räumliche Informationen aus einer einzigen Ansicht erfassen können, was lineare Komplexität und überlegene räumliche Modellierungsfähigkeit bietet. Einmal auf synthetischen Daten vortrainiert, kann SinRef-6D die 6D-Pose eines neuartigen Objekts unter Verwendung nur einer einzigen Referenzansicht schätzen, ohne dass ein erneutes Training oder ein CAD-Modell erforderlich ist. Umfangreiche Experimente auf sechs beliebten Datensätzen und realen Roboterszenen zeigen, dass wir eine vergleichbare Leistung mit CAD-basierten und dichten Referenzansicht-basierten Methoden erzielen, obwohl wir in der anspruchsvolleren Single-Reference-Einstellung arbeiten. Der Code wird unter https://github.com/CNJianLiu/SinRef-6D veröffentlicht.
Aktuelle Arbeiten haben gezeigt, dass uni-modale 2D-Vision- und Text-Encoder, wenn sie in großem Maßstab trainiert werden, zu gelernten Merkmalen konvergieren, die bemerkenswerte strukturelle Eigenschaften teilen, obwohl sie aus unterschiedlichen Repräsentationen stammen. Die Rolle von 3D-Encodern im Vergleich zu anderen Modalitäten bleibt jedoch unerforscht. Darüber hinaus werden bestehende 3D-Foundation-Modelle, die große Datensätze nutzen, typischerweise mit expliziten Ausrichtungszielen in Bezug auf eingefrorene Encoder aus anderen Repräsentationen trainiert. In dieser Arbeit untersuchen wir die Möglichkeit einer a-posteriori-Ausrichtung von Repräsentationen, die aus uni-modalen 3D-Encodern im Vergleich zu textbasierten Merkmalsräumen gewonnen werden. Wir zeigen, dass eine naive Nachtrainings-Merkmalausrichtung von uni-modalen Text- und 3D-Encodern zu begrenzter Leistung führt. Anschließend konzentrieren wir uns auf die Extraktion von Unterräumen der entsprechenden Merkmalsräume und entdecken, dass durch die Projektion gelernte Repräsentationen auf gut gewählte niedrigdimensionale Unterräume die Qualität der Ausrichtung signifikant höher wird, was zu verbesserter Genauigkeit bei Matching- und Retrieval-Aufgaben führt. Unsere Analyse beleuchtet weiterhin die Natur dieser gemeinsamen Unterräume, die grob zwischen semantischen und geometrischen Datenrepräsentationen unterscheiden. Insgesamt ist unsere Arbeit die erste, die eine Grundlage für die Nachtrainings-Ausrichtung von 3D-uni-modalen und Text-Merkmalräumen schafft und sowohl die gemeinsamen als auch die einzigartigen Eigenschaften von 3D-Daten im Vergleich zu anderen Repräsentationen hervorhebt.
Um eins-zu-viele-Faktenabfragen zu beantworten (z. B. das Auflisten von Städten eines Landes), muss ein Sprachmodell (LM) gleichzeitig Wissen abrufen und die Wiederholung vorheriger Antworten vermeiden. Wie werden diese beiden Teilaufgaben intern implementiert und integriert? Über mehrere Datensätze und Modelle hinweg identifizieren wir einen Promote-then-Suppress-Mechanismus: Das Modell ruft zunächst alle Antworten ab und unterdrückt dann zuvor generierte. Konkret verwenden LMs sowohl das Subjekt als auch vorherige Antwort-Tokens, um den Wissensabruf durchzuführen, wobei die Aufmerksamkeit Subjektinformationen propagiert und MLPs die Antworten fördern. Anschließend richtet sich die Aufmerksamkeit auf vorherige Antwort-Tokens und unterdrückt diese, während MLPs das Unterdrückungssignal verstärken. Unser Mechanismus wird durch umfangreiche experimentelle Beweise gestützt: Neben der Verwendung von Early Decoding und Causal Tracing analysieren wir, wie Komponenten verschiedene Tokens nutzen, indem wir sowohl Token Lens einführen, das aggregierte Aufmerksamkeitsupdates von spezifizierten Tokens decodiert, als auch eine Knockout-Methode, die Änderungen in den MLP-Ausgaben nach dem Entfernen der Aufmerksamkeit auf spezifizierte Tokens analysiert. Insgesamt liefern wir neue Einblicke, wie die internen Komponenten von LMs mit verschiedenen Eingabe-Tokens interagieren, um komplexen Faktenabruf zu unterstützen. Der Code ist verfügbar unter https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries.
In diesem Artikel präsentieren wir ein neuartiges Framework, das darauf ausgelegt ist, lange Sequenzen von 3D-Bewegungen des menschlichen Körpers in Weltkoordinaten aus Videos in freier Wildbahn mit mehreren Schnittübergängen zu rekonstruieren. Solche langen Bewegungssequenzen in freier Wildbahn sind für Anwendungen wie Bewegungsgenerierung und Bewegungsverständnis äußerst wertvoll, stellen jedoch aufgrund von abrupten Schnittübergängen, teilweisen Verdeckungen und dynamischen Hintergründen in solchen Videos eine große Herausforderung dar. Bestehende Methoden konzentrieren sich hauptsächlich auf Einzelaufnahmen, bei denen die Kontinuität innerhalb einer einzelnen Kameraperspektive gewährleistet ist, oder vereinfachen die Ausrichtung mehrerer Aufnahmen lediglich im Kameraraum. In dieser Arbeit gehen wir die Herausforderungen an, indem wir eine verbesserte Kameraposenschätzung mit der Wiederherstellung menschlicher Bewegungen (Human Motion Recovery, HMR) kombinieren und dabei einen Schnittübergangsdetektor sowie ein robustes Ausrichtungsmodul für eine genaue Kontinuität von Pose und Orientierung über Schnittübergänge hinweg integrieren. Durch die Nutzung eines speziellen Bewegungsintegrators mildern wir effektiv das Problem des Fußgleitens und gewährleisten zeitliche Konsistenz in der menschlichen Pose. Umfangreiche Auswertungen auf unserem erstellten Multi-Shot-Datensatz, der aus öffentlichen 3D-Mensch-Datensätzen stammt, demonstrieren die Robustheit unserer Methode bei der Rekonstruktion realistischer menschlicher Bewegungen in Weltkoordinaten.
Die Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Präferenzen ist entscheidend für den Einsatz in der realen Welt, doch bestehende Methoden wie RLHF stehen vor rechnerischen und Stabilitätsherausforderungen. Während DPO ein Offline-Paradigma mit einem einzigen Hyperparameter Beta etabliert, führen nachfolgende Methoden wie SimPO durch duale Parameter (Beta, Gamma) wieder Komplexität ein. Wir schlagen {ReLU-basierte Präferenzoptimierung (RePO)} vor, einen vereinfachten Algorithmus, der Beta durch zwei Fortschritte eliminiert: (1) Beibehaltung der referenzfreien Ränder von SimPO, aber Entfernung von Beta durch Gradientenanalyse, und (2) Einführung eines ReLU-basierten Max-Margin-Verlusts, der trivial Paare natürlich filtert. Theoretisch wird RePO als Grenzfall von SimPO (Beta gegen unendlich) charakterisiert, bei dem die logistische Gewichtung zu einer binären Schwellenwertbildung kollabiert und eine konvexe Hülle des 0-1-Verlusts bildet. Empirische Ergebnisse auf AlpacaEval 2 und Arena-Hard zeigen, dass RePO DPO und SimPO über mehrere Basismodelle hinweg übertrifft und nur einen Hyperparameter zur Abstimmung erfordert.
Multimodale Large Language Models (MLLMs) zeigen robuste Zero-Shot-Fähigkeiten über diverse Vision-Language-Aufgaben hinweg, nachdem sie auf groß angelegten Datensätzen trainiert wurden. Allerdings stellen dichte Vorhersageaufgaben wie semantische Segmentierung und Keypoint-Erkennung erhebliche Herausforderungen für MLLMs dar, wenn sie ausschließlich als Textausgaben repräsentiert werden. Gleichzeitig zeigen aktuelle MLLMs, die latente Einbettungen für die Dekodierung visueller Aufgaben verwenden, in der Regel eine begrenzte Anpassungsfähigkeit sowohl für Multi-Task-Lernen als auch für Szenarien mit mehreren Granularitäten. In dieser Arbeit präsentieren wir REF-VLM, ein End-to-End-Framework für die einheitliche Ausbildung verschiedener visueller Dekodierungsaufgaben. Um komplexe visuelle Dekodierungsszenarien zu bewältigen, führen wir das Triplet-Based Referring Paradigm (TRP) ein, das drei kritische Dimensionen in visuellen Dekodierungsaufgaben durch eine Triplet-Struktur explizit entkoppelt: Konzepte, Dekodierungstypen und Ziele. TRP verwendet symbolische Trennzeichen, um strukturiertes Repräsentationslernen zu erzwingen, was die Parsbarkeit und Interpretierbarkeit der Modellausgaben verbessert. Zusätzlich erstellen wir das Visual-Task Instruction Following Dataset (VTInstruct), einen groß angelegten Multi-Task-Datensatz, der über 100 Millionen multimodale Dialogbeispiele über 25 Aufgabentypen hinweg enthält. Neben Text-Eingaben und -Ausgaben integriert VT-Instruct verschiedene visuelle Prompts wie Punkt, Box, Scribble und Maske und generiert Ausgaben, die aus Text und visuellen Einheiten wie Box, Keypoint, Tiefe und Maske bestehen. Die Kombination verschiedener visueller Prompts und visueller Einheiten erzeugt eine Vielzahl von Aufgabentypen, was die Anwendbarkeit von REF-VLM erheblich erweitert. Sowohl qualitative als auch quantitative Experimente zeigen, dass unser REF-VLM andere MLLMs über eine Vielzahl von Standard-Benchmarks hinweg übertrifft. Der Code, der Datensatz und die Demo sind verfügbar unter https://github.com/MacavityT/REF-VLM.
Die Kombination bestehender vortrainierter Expert-LLMs ist ein vielversprechender Ansatz, um groß angelegte und vielfältige Aufgaben skalierbar zu bewältigen. Die Auswahl von Experten auf Aufgabenebene ist jedoch oft zu grob, da heterogene Aufgaben unterschiedliche Expertise für jede Instanz erfordern können. Um eine adaptive, instanzbasierte Mischung vortrainierter LLM-Experten zu ermöglichen, schlagen wir Symbolic-MoE vor, ein symbolisches, textbasiertes und gradientenfreies Mixture-of-Experts-Framework. Symbolic-MoE verfolgt einen feinkörnigen Ansatz bei der Auswahl, indem es Fähigkeiten betont, z. B. Algebra in der Mathematik oder Molekularbiologie im biomedizinischen Denken. Wir schlagen eine fähigkeitsbasierte Rekrutierungsstrategie vor, die dynamisch die relevanteste Gruppe von Expert-LLMs für verschiedene Denkaufgaben basierend auf ihren Stärken auswählt. Jeder ausgewählte Experte generiert dann seine eigene Argumentation, was zu k Ausgaben von k Experten führt, die anschließend durch einen Aggregator zu einer endgültigen hochwertigen Antwort synthetisiert werden. Der Aggregator wird basierend auf seiner Fähigkeit ausgewählt, diverse Argumentationsergebnisse zu integrieren. Wir zeigen, dass die instanzbasierte Expertenauswahl von Symbolic-MoE die Leistung erheblich verbessert, aber – wenn sie naiv implementiert wird – einen hohen Rechenaufwand aufgrund des ständigen Ladens und Entladens von Modellen verursachen kann. Um dies zu beheben, implementieren wir eine Batch-Inferenz-Strategie, die Instanzen basierend auf ihren zugewiesenen Experten gruppiert und jedes Modell nur einmal lädt. Dies ermöglicht es uns, 16 Expertenmodelle auf einer GPU zu integrieren, mit einem Zeitaufwand, der vergleichbar oder besser ist als bisherige Multi-Agent-Baselines, die 4 GPUs verwenden. Durch umfangreiche Evaluierungen auf diversen Benchmarks (MMLU-Pro, GPQA, AIME und MedMCQA) demonstrieren wir, dass Symbolic-MoE starke LLMs wie GPT4o-mini sowie Multi-Agent-Ansätze übertrifft, mit einer absoluten durchschnittlichen Verbesserung von 8,15 % gegenüber der besten Multi-Agent-Baseline. Darüber hinaus eliminiert Symbolic-MoE die Notwendigkeit teurer mehrstufiger Diskussionen und übertrifft Diskussionsbaselines mit weniger Rechenaufwand.
Wir stellen PhiloBERTA vor, ein mehrsprachiges Transformer-Modell, das semantische Beziehungen zwischen altgriechischen und lateinischen Lexika misst. Durch die Analyse ausgewählter Begriffspaare aus klassischen Texten verwenden wir kontextuelle Einbettungen und Winkelsimilaritätsmetriken, um präzise semantische Übereinstimmungen zu identifizieren. Unsere Ergebnisse zeigen, dass etymologisch verwandte Paare signifikant höhere Ähnlichkeitswerte aufweisen, insbesondere bei abstrakten philosophischen Konzepten wie epist\=em\=e (scientia) und dikaiosyn\=e (iustitia). Die statistische Analyse offenbart konsistente Muster in diesen Beziehungen (p = 0,012), wobei etymologisch verwandte Paare im Vergleich zu Kontrollpaaren eine bemerkenswert stabile semantische Bewahrung zeigen. Diese Erkenntnisse etablieren einen quantitativen Rahmen, um zu untersuchen, wie philosophische Konzepte zwischen griechischen und lateinischen Traditionen übergingen, und bieten neue Methoden für die klassische philologische Forschung.
Das robotergestützte Greifen in Szenen mit transparenten und spiegelnden Objekten stellt große Herausforderungen für Methoden dar, die auf präzisen Tiefeninformationen basieren. In diesem Artikel stellen wir NeuGrasp vor, eine neuronale Oberflächenrekonstruktionsmethode, die Hintergrund-Priors für materialunabhängige Greiferkennung nutzt. NeuGrasp integriert Transformer und globale Prior-Volumina, um Multi-View-Features mit räumlicher Kodierung zu aggregieren, was eine robuste Oberflächenrekonstruktion unter engen und spärlichen Blickbedingungen ermöglicht. Durch die Konzentration auf Vordergrundobjekte mittels Rest-Feature-Verstärkung und die Verfeinerung der räumlichen Wahrnehmung mit einem Belegungs-Prior-Volumen zeichnet sich NeuGrasp bei der Handhabung von Objekten mit transparenten und spiegelnden Oberflächen aus. Umfangreiche Experimente in simulierten und realen Szenarien zeigen, dass NeuGrasp state-of-the-art Methoden beim Greifen übertrifft, während es eine vergleichbare Rekonstruktionsqualität beibehält. Weitere Details sind unter https://neugrasp.github.io/ verfügbar.
Während score-basierte generative Modelle das Modell der Wahl in verschiedenen Domänen sind, gibt es nur begrenzte Werkzeuge, um das Verhalten zur Inferenzzeit auf prinzipielle Weise zu steuern, z. B. für die Komposition mehrerer vortrainierter Modelle. Bestehende Methoden zur klassifikatorfreien Steuerung verwenden eine einfache Heuristik, um bedingte und unbedingte Scores zu mischen und so näherungsweise aus bedingten Verteilungen zu sampeln. Solche Methoden approximieren jedoch nicht die Zwischenverteilungen, was zusätzliche „Korrektor“-Schritte erforderlich macht. In dieser Arbeit stellen wir eine effiziente und prinzipielle Methode vor, um aus einer Folge von getemperten, geometrisch gemittelten oder Produktverteilungen, die aus vortrainierten score-basierten Modellen abgeleitet wurden, zu sampeln. Wir leiten ein gewichtetes Simulationsschema ab, das wir Feynman-Kac-Korrektoren (FKCs) nennen, basierend auf der berühmten Feynman-Kac-Formel, indem wir sorgfältig die Terme in den entsprechenden partiellen Differentialgleichungen (PDEs) berücksichtigen. Um diese PDEs zu simulieren, schlagen wir Sequential-Monte-Carlo (SMC)-Resampling-Algorithmen vor, die die Skalierung zur Inferenzzeit nutzen, um die Sampling-Qualität zu verbessern. Wir demonstrieren den Nutzen unserer Methoden empirisch, indem wir amortisiertes Sampling durch Temperaturtemperierung zur Inferenzzeit vorschlagen, die Erzeugung von Molekülen mit mehreren Zielen unter Verwendung vortrainierter Modelle verbessern und die klassifikatorfreie Steuerung für die Text-zu-Bild-Generierung optimieren. Unser Code ist verfügbar unter https://github.com/martaskrt/fkc-diffusion.