papers.description
Das Feld der 4D-Weltmodellierung – das darauf abzielt, räumliche Geometrie und zeitliche Dynamik gemeinsam zu erfassen – hat in den letzten Jahren bemerkenswerte Fortschritte erzielt, angetrieben durch Fortschritte bei großskaligen generativen Modellen und multimodalem Lernen. Die Entwicklung wirklich allgemeiner 4D-Weltmodelle bleibt jedoch grundlegend durch die Verfügbarkeit hochwertiger Daten eingeschränkt. Bestehende Datensätze und Benchmarks weisen oft die dynamische Komplexität, multidomänale Vielfalt und raumzeitlichen Annotationen, die zur Unterstützung von Schlüsselaufgaben wie 4D-geometrischer Rekonstruktion, Zukunftsprognose und kameragesteuerter Videogenerierung erforderlich sind, nicht auf. Um diese Lücke zu schließen, stellen wir OmniWorld vor, einen großskaligen, multidomänen, multimodalen Datensatz, der speziell für die 4D-Weltmodellierung entwickelt wurde. OmniWorld besteht aus einem neu erhobenen OmniWorld-Game-Datensatz und mehreren kuratierten öffentlichen Datensätzen, die verschiedene Domänen abdecken. Im Vergleich zu bestehenden synthetischen Datensätzen bietet OmniWorld-Game eine umfangreichere Modaldeckung, größeren Umfang und realistischere dynamische Interaktionen. Basierend auf diesem Datensatz etablieren wir einen anspruchsvollen Benchmark, der die Grenzen aktueller State-of-the-Art (SOTA)-Ansätze bei der Modellierung komplexer 4D-Umgebungen aufzeigt. Darüber hinaus führt das Feinabstimmen bestehender SOTA-Methoden auf OmniWorld zu signifikanten Leistungssteigerungen bei 4D-Rekonstruktions- und Videogenerierungsaufgaben, was OmniWorld als leistungsstarke Ressource für Training und Evaluation stark validiert. Wir sehen OmniWorld als Katalysator, der die Entwicklung allgemeiner 4D-Weltmodelle beschleunigt und letztendlich das ganzheitliche Verständnis von Maschinen für die physische Welt vorantreibt.
Graphical User Interface (GUI)-Agenten haben bemerkenswerte Fortschritte bei der Automatisierung komplexer Benutzeroberflächeninteraktionen durch Reinforcement Learning gezeigt. Allerdings stehen aktuelle Ansätze vor einem grundlegenden Dilemma: Offline RL ermöglicht ein stabiles Training auf vorab gesammelten Trajektorien, scheitert jedoch bei der Ausführung mehrstufiger Aufgaben aufgrund fehlender belohnungsbasierter Signale auf Trajektorienebene; Online RL erfasst diese Signale durch Interaktion mit der Umgebung, leidet jedoch unter spärlichen Belohnungen und prohibitiv hohen Bereitstellungskosten. Um dieses Problem zu lösen, präsentieren wir Semi-Online Reinforcement Learning, ein neuartiges Paradigma, das Online RL auf Offline-Trajektorien simuliert. Während jedes Rollout-Prozesses bewahren wir die ursprüngliche Modellausgabe innerhalb des mehrstufigen Dialogs, wobei ein Patch-Modul die Abweichung zwischen Rollout- und Experten-Trajektorien adaptiv korrigiert. Um langfristige Trainingssignale zu erfassen, führt Semi-Online RL diskontierte zukünftige Erträge in die Belohnungsberechnung ein und optimiert die Strategie mit gewichteten schritt- und episodenbasierten Vorteilen. Wir führen außerdem Semi-Online Performance (SOP) ein, eine Metrik, die besser mit der tatsächlichen Online-Leistung übereinstimmt und als praktischer und effektiver Proxy für die Bewertung in der realen Welt dient. Experimente zeigen, dass unser Semi-Online RL Spitzenleistungen unter 7B-Modellen in vier dynamischen Benchmarks erreicht, mit signifikanten Gewinnen gegenüber dem Basismodell (z. B. +12,0 % auf AndroidWorld, +23,8 % auf AITW), was einen erheblichen Fortschritt bei der Überbrückung der Lücke zwischen Offline-Trainings effizienz und Online-Multi-Turn-Reasoning demonstriert. Der Code ist verfügbar unter https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1.
Der Fortschritt von Embodied AI hängt stark von groß angelegten, simulierbaren 3D-Szenendatensätzen ab, die durch Szenenvielfalt und realistische Layouts gekennzeichnet sind. Allerdings leiden bestehende Datensätze typischerweise unter Einschränkungen in Bezug auf den Datenumfang oder die Vielfalt, sterilen Layouts, die kleine Gegenstände vermissen lassen, und schwerwiegenden Objektkollisionen. Um diese Mängel zu beheben, stellen wir InternScenes vor, einen neuartigen groß angelegten, simulierbaren Indoor-Szenendatensatz, der etwa 40.000 verschiedene Szenen umfasst, indem drei unterschiedliche Szenenquellen integriert werden: reale Scans, prozedural generierte Szenen und von Designern erstellte Szenen, einschließlich 1,96 Millionen 3D-Objekten und 15 gängigen Szenentypen sowie 288 Objektklassen. Wir bewahren insbesondere zahlreiche kleine Gegenstände in den Szenen, was zu realistischen und komplexen Layouts mit durchschnittlich 41,5 Objekten pro Region führt. Unsere umfassende Datenverarbeitungspipeline gewährleistet die Simulierbarkeit, indem sie Real-to-Sim-Replikate für reale Scans erstellt, die Interaktivität durch die Einbindung interaktiver Objekte in diese Szenen verbessert und Objektkollisionen durch physikalische Simulationen auflöst. Wir demonstrieren den Wert von InternScenes mit zwei Benchmark-Anwendungen: Szenenlayout-Generierung und Point-Goal-Navigation. Beide zeigen die neuen Herausforderungen, die durch die komplexen und realistischen Layouts entstehen. Noch wichtiger ist, dass InternScenes den Weg für die Skalierung des Modelltrainings für beide Aufgaben ebnet und die Generierung und Navigation in solch komplexen Szenen ermöglicht. Wir verpflichten uns, die Daten, Modelle und Benchmarks zu open-sourcen, um der gesamten Gemeinschaft zugutekommen.
Vision-Language-Modelle (VLMs) verarbeiten visuelle Eingaben oft durch einen vortrainierten Vision-Encoder, gefolgt von einer Projektion in den Einbettungsraum des Sprachmodells über eine Verbindungskomponente. Obwohl dieser Schritt für die Modalfusion entscheidend ist, bleiben der potenzielle Informationsverlust durch diese Projektion und dessen direkte Auswirkungen auf die Modellfähigkeiten weitgehend unerforscht. Wir stellen zwei komplementäre Ansätze vor, um diesen Verlust zu untersuchen und zu quantifizieren, indem wir den latenten Repräsentationsraum analysieren. Zunächst bewerten wir die Erhaltung semantischer Informationen, indem wir Veränderungen in den k-nächsten-Nachbar-Beziehungen zwischen Bildrepräsentationen vor und nach der Projektion analysieren. Zweitens messen wir den Informationsverlust direkt, indem wir visuelle Einbettungen aus der projizierten Repräsentation rekonstruieren und den Verlust auf Ebene von Bildpatches lokalisieren. Experimente zeigen, dass Verbindungskomponenten die lokale Geometrie visueller Repräsentationen erheblich verzerren, wobei sich die k-nächsten Nachbarn nach der Projektion um 40–60\% unterscheiden, was mit einer Verschlechterung der Retrieval-Leistung korreliert. Die Rekonstruktion der Einbettungen auf Patch-Ebene liefert interpretierbare Einblicke in das Modellverhalten bei visuell fundierten Frage-Antwort-Aufgaben, wobei festgestellt wird, dass Bereiche mit hohem Informationsverlust zuverlässig Fälle vorhersagen, in denen Modelle Schwierigkeiten haben.
Die Abhängigkeit von impliziter Punktzuordnung durch Attention hat sich zu einem zentralen Engpass beim Drag-basierten Bearbeiten entwickelt, was zu einem grundlegenden Kompromiss zwischen geschwächter Inversionsstärke und kostspieliger Testzeitoptimierung (TTO) führt. Dieser Kompromiss schränkt die generativen Fähigkeiten von Diffusionsmodellen erheblich ein und unterdrückt hochwertige Inpainting- und textgesteuerte Erstellungsprozesse. In diesem Artikel stellen wir LazyDrag vor, die erste Drag-basierte Bildbearbeitungsmethode für Multi-Modale Diffusions-Transformer, die die Abhängigkeit von impliziter Punktzuordnung direkt beseitigt. Konkret generiert unsere Methode eine explizite Korrespondenzkarte aus Benutzer-Drag-Eingaben als zuverlässige Referenz zur Verbesserung der Attention-Steuerung. Diese zuverlässige Referenz eröffnet das Potenzial für einen stabilen Inversionsprozess mit voller Stärke, der erstmals in der Drag-basierten Bearbeitungsaufgabe realisiert wird. Sie macht TTO überflüssig und entfesselt die generative Fähigkeit der Modelle. Daher vereint LazyDrag präzise geometrische Kontrolle mit Textführung und ermöglicht komplexe Bearbeitungen, die bisher unerreichbar waren: das Öffnen des Mauls eines Hundes und das Inpainting seines Inneren, das Erzeugen neuer Objekte wie eines „Tennisballs“ oder bei mehrdeutigen Drags kontextbewusste Änderungen wie das Bewegen einer Hand in eine Tasche. Zusätzlich unterstützt LazyDrag mehrstufige Workflows mit gleichzeitigen Verschiebungs- und Skalierungsoperationen. Auf der DragBench evaluiert, übertrifft unsere Methode die Baselines in Bezug auf Drag-Genauigkeit und wahrgenommene Qualität, wie durch VIEScore und menschliche Bewertung bestätigt wird. LazyDrag etabliert nicht nur neue State-of-the-Art-Leistungen, sondern ebnet auch einen neuen Weg für Bearbeitungsparadigmen.
Supervised Fine-Tuning (SFT) ist entscheidend für das Training großer Sprachmodelle (LLMs) und verbessert wesentliche Fähigkeiten wie das Befolgen von Anweisungen und das Lernen im Kontext erheblich. Dennoch bleibt die Erstellung geeigneter Trainingsdatensätze, die auf spezifische Domänen zugeschnitten sind, aufgrund einzigartiger Domänenbeschränkungen und Datenknappheit eine Herausforderung. In diesem Artikel stellen wir SearchInstruct vor, eine innovative Methode, die speziell für die Konstruktion hochwertiger Instruktionsdatensätze für SFT entwickelt wurde. Unser Ansatz beginnt mit einer begrenzten Menge von domänenspezifischen, von Menschen generierten Fragen, die systematisch mithilfe eines großen Sprachmodells erweitert werden. Anschließend werden domänenrelevante Ressourcen dynamisch abgerufen, um präzise und kontextuell angemessene Antworten für jede erweiterte Frage zu generieren. Experimentelle Auswertungen zeigen, dass SearchInstruct sowohl die Vielfalt als auch die Qualität von SFT-Datensätzen verbessert, was zu messbaren Verbesserungen der LLM-Leistung in spezialisierten Domänen führt. Darüber hinaus zeigen wir, dass die vorgeschlagene Methode über die Datensatzgenerierung hinaus auch Aufgaben wie die Modellbearbeitung effektiv unterstützen kann, was effiziente Aktualisierungen bestehender Modelle ermöglicht. Um Reproduzierbarkeit und die Übernahme durch die Community zu erleichtern, stellen wir vollständige Implementierungsdetails, den vollständigen Satz generierter Instruktions-Antwort-Paare und den Quellcode in einem öffentlich zugänglichen Git-Repository bereit: [https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct).
Unter den generativen Modellen sind Diffusionsmodelle besonders faszinierend, da für ihr Trainingsziel ein geschlossener optimaler Minimierer existiert, der oft als optimaler Entrauscher bezeichnet wird. Allerdings reproduziert die Diffusion mit diesem optimalen Entrauscher lediglich Bilder aus dem Trainingsdatensatz und erfasst somit nicht das Verhalten tiefer Diffusionsmodelle. Jüngste Arbeiten haben versucht, diese Lücke zwischen dem optimalen Entrauscher und tiefen Diffusionsmodellen zu charakterisieren, indem sie analytische, trainingsfreie Modelle vorgeschlagen haben, die Bilder erzeugen können, die denen eines trainierten UNet ähneln. Die leistungsstärkste Methode geht davon aus, dass die Verschiebungsäquivarianz und die lokalen induktiven Verzerrungen von Faltungsneuronalen Netzen die Ursache für die Leistungslücke sind, und integriert diese Annahmen in ihr analytisches Modell. In dieser Arbeit präsentieren wir Belege dafür, dass die Lokalität in tiefen Diffusionsmodellen als statistische Eigenschaft des Bilddatensatzes entsteht und nicht auf die induktive Verzerrung von Faltungsneuronalen Netzen zurückzuführen ist. Insbesondere zeigen wir, dass ein optimaler parametrischer linearer Entrauscher ähnliche Lokalitätseigenschaften wie tiefe neuronale Entrauscher aufweist. Wir zeigen weiterhin, sowohl theoretisch als auch experimentell, dass diese Lokalität direkt aus den Pixelkorrelationen in natürlichen Bilddatensätzen hervorgeht. Schließlich nutzen wir diese Erkenntnisse, um einen analytischen Entrauscher zu entwickeln, der die von einem tiefen Diffusionsmodell vorhergesagten Scores besser abbildet als das zuvor von Experten entwickelte Alternativmodell.
Frühere Arbeiten im Bereich des Multi-Objective Reinforcement Learning verwenden typischerweise lineare Belohnungsskalarisierung mit festen Gewichtungen, die nachweislich nicht in der Lage sind, nicht-konvexe Pareto-Fronten zu erfassen und somit suboptimale Ergebnisse liefern. Diese Einschränkung wird besonders kritisch bei der Online-Präferenzabstimmung für große Sprachmodelle. Hier erzeugen stochastische Trajektorien, die durch parametrisierte Policies generiert werden, hochgradig nicht-lineare und nicht-konvexe Abbildungen von Parametern zu Zielen, die kein einzelnes statisches Gewichtungsschema optimal ausgleichen kann. Wir begegnen dieser Einschränkung durch die Einführung dynamischer Belohnungsgewichtung, die die Belohnungsgewichte während des Online-Reinforcement-Learning-Prozesses adaptiv anpasst. Im Gegensatz zu bestehenden Ansätzen, die auf feste Gewichtungsinterpolation setzen, gleicht unsere dynamische Gewichtung kontinuierlich die Ziele aus und priorisiert sie während des Trainings, wodurch eine effektive Exploration der Pareto-Fronten im Zielraum ermöglicht wird. Wir führen zwei Ansätze mit zunehmender Komplexität und Generalisierbarkeit ein: (1) hypervolumen-gesteuerte Gewichtungsanpassung und (2) gradientenbasierte Gewichtungsoptimierung, die ein vielseitiges Werkzeug für die Online-Multi-Objective-Abgleichung bieten. Unsere umfangreichen Experimente demonstrieren ihre Kompatibilität mit häufig verwendeten Online-Reinforcement-Learning-Algorithmen (einschließlich GRPO, REINFORCE und RLOO), ihre Wirksamkeit über mehrere mathematische Reasoning-Datensätze hinweg sowie ihre Anwendbarkeit auf verschiedene Modellfamilien, wobei sie durchweg Pareto-dominante Lösungen mit weniger Trainingsschritten als festgewichtete lineare Skalarisierungsbaselines erreichen.
Halluzinationen in multimodalen großen Sprachmodellen (MLLMs) – bei denen das Modell Inhalte erzeugt, die nicht mit dem Eingabebild übereinstimmen – stellen erhebliche Risiken in realen Anwendungen dar, von Fehlinformationen in der visuellen Fragebeantwortung bis hin zu unsicheren Fehlern in der Entscheidungsfindung. Bestehende Benchmarks testen hauptsächlich die Erkennungsgenauigkeit, d.h. sie bewerten, ob Modelle die richtige Antwort unter Ablenkern auswählen können. Dies übersieht eine ebenso kritische Fähigkeit für vertrauenswürdige KI: zu erkennen, wenn keine der bereitgestellten Optionen korrekt ist, ein Verhalten, das epistemische Bescheidenheit widerspiegelt. Wir präsentieren HumbleBench, einen neuen Halluzinations-Benchmark, der entwickelt wurde, um die Fähigkeit von MLLMs zu bewerten, plausible, aber falsche Antworten über drei Halluzinationstypen hinweg abzulehnen: Objekt, Relation und Attribut. Basierend auf einem panoptischen Szenengraphen-Datensatz nutzen wir fein abgestimmte Szenengraphen-Annotationen, um Ground-Truth-Entitäten und -Relationen zu extrahieren, und fordern GPT-4-Turbo auf, Multiple-Choice-Fragen zu generieren, gefolgt von einem rigorosen manuellen Filterprozess. Jede Frage enthält eine Option „Keine der oben genannten“, die von den Modellen nicht nur die Erkennung korrekter visueller Informationen, sondern auch die Identifizierung, wenn keine der bereitgestellten Antworten gültig ist, verlangt. Wir bewerten eine Vielzahl von state-of-the-art MLLMs – sowohl allgemeine als auch spezialisierte Reasoning-Modelle – auf HumbleBench und teilen wertvolle Erkenntnisse und Einsichten mit der Community. Durch die Einbeziehung der expliziten Ablehnung falscher Optionen schließt HumbleBench eine wichtige Lücke in aktuellen Evaluierungssuiten und bietet ein realistischeres Maß für die Zuverlässigkeit von MLLMs in sicherheitskritischen Umgebungen. Unser Code und Datensatz werden öffentlich freigegeben und können unter https://github.com/maifoundations/HumbleBench abgerufen werden.
Jüngste Fortschritte im Bereich des textbasierten „langsamen Denkens“ („slow thinking“) haben Bemühungen angestoßen, diese Fähigkeit auf Vision-Language-Modelle (VLMs) zu übertragen, um visuelle Reasoning-Modelle (VRMs) zu trainieren. Eine solche Übertragung steht jedoch vor entscheidenden Herausforderungen: Effektives „langsames Denken“ in VRMs erfordert visuelle Reflexion, also die Fähigkeit, den Denkprozess anhand visueller Informationen zu überprüfen. Durch quantitative Analysen stellen wir fest, dass aktuelle VRMs nur begrenzte visuelle Reflexion aufweisen, da ihre Aufmerksamkeit für visuelle Informationen mit längeren generierten Antworten schnell abnimmt. Um diese Herausforderung zu bewältigen, schlagen wir ein neues VRM, Reflection-V, vor, das die visuelle Reflexion durch die Konstruktion von Reasoning-Daten für den Kaltstart und die Belohnungsgestaltung für Reinforcement Learning (RL) verbessert. Zunächst konstruieren wir visuell zentrierte Reasoning-Daten, indem wir einen Agenten nutzen, der zwischen VLMs und Reasoning-LLMs vermittelt, um das Erlernen von visuellen Reflexionsmustern im Kaltstart zu ermöglichen. Zweitens wird während des RL ein auf visueller Aufmerksamkeit basierendes Belohnungsmodell eingesetzt, um das Reasoning auf der Grundlage visueller Informationen zu fördern. Reflection-V zeigt daher signifikante Verbesserungen bei mehreren Benchmarks für visuelles Reasoning. Darüber hinaus weist Reflection-V eine stärkere und konsistentere Abhängigkeit von visuellen Informationen während des visuellen Reasonings auf, was auf eine effektive Steigerung der visuellen Reflexionsfähigkeiten hinweist.
Embodied Navigation erfordert, dass Agenten Wahrnehmung, logisches Denken und Handlung integrieren, um eine robuste Interaktion in komplexen 3D-Umgebungen zu ermöglichen. Bestehende Ansätze leiden oft unter inkohärenten und instabilen Denkprozessen, die die Generalisierung über verschiedene Umgebungen hinweg behindern, sowie unter Schwierigkeiten, langfristige semantische Planung mit niedrig-latenz Steuerung für Echtzeit-Navigation in Einklang zu bringen. Um diese Herausforderungen zu bewältigen, schlagen wir Nav-R1 vor, ein Embodied-Foundation-Modell, das das logische Denken in embodied Umgebungen vereinheitlicht. Zunächst erstellen wir Nav-CoT-110K, einen umfangreichen Datensatz von schrittweisen Chains-of-Thought (CoT) für embodied Aufgaben, der eine Kaltstart-Initialisierung mit strukturiertem Denken ermöglicht. Auf dieser Grundlage aufbauend, entwickeln wir ein GRPO-basiertes Reinforcement-Learning-Framework mit drei komplementären Belohnungen: Format, Verständnis und Navigation, um die strukturelle Einhaltung, semantische Verankerung und Pfadtreue zu verbessern. Darüber hinaus führen wir ein Fast-in-Slow-Denkparadigma ein, das bewusstes semantisches Denken von niedrig-latenz reaktiver Steuerung entkoppelt, um eine effiziente und dennoch kohärente Navigation zu ermöglichen. Umfangreiche Evaluierungen auf embodied KI-Benchmarks zeigen, dass Nav-R1 durchweg starke Baselines übertrifft, mit einer durchschnittlichen Verbesserung von über 8 % in Denk- und Navigationsleistung. Die reale Einsatzfähigkeit auf einem mobilen Roboter bestätigt zudem seine Robustheit unter begrenzten Onboard-Ressourcen. Code: https://github.com/AIGeeksGroup/Nav-R1. Website: https://aigeeksgroup.github.io/Nav-R1.
Die Entstehung dezentraler Social-Media-Plattformen bietet neue Möglichkeiten und Herausforderungen für die Echtzeitanalyse des öffentlichen Diskurses. Diese Studie stellt CognitiveSky vor, ein Open-Source- und skalierbares Framework, das für die Analyse von Stimmung, Emotionen und Narrativen auf Bluesky, einer föderierten Alternative zu Twitter oder X.com, entwickelt wurde. Durch die Datenerfassung über die Application Programming Interface (API) von Bluesky wendet CognitiveSky transformerbasierte Modelle an, um groß angelegte nutzergenerierte Inhalte zu annotieren und strukturierte sowie analysierbare Ausgaben zu erzeugen. Diese Zusammenfassungen treiben ein dynamisches Dashboard an, das sich entwickelnde Muster in Emotionen, Aktivitäten und Gesprächsthemen visualisiert. Vollständig auf kostenloser Infrastruktur aufgebaut, erreicht CognitiveSky sowohl niedrige Betriebskosten als auch hohe Zugänglichkeit. Obwohl hier die Überwachung des Diskurses über psychische Gesundheit demonstriert wird, ermöglicht sein modulares Design Anwendungen in Bereichen wie der Erkennung von Desinformation, der Krisenreaktion und der Analyse des bürgerlichen Sentiments. Indem CognitiveSky große Sprachmodelle mit dezentralen Netzwerken verbindet, bietet es ein transparentes und erweiterbares Werkzeug für die computergestützte Sozialwissenschaft in einer Ära sich wandelnder digitaler Ökosysteme.
Das Verständnis menschlicher Verhaltensmerkmale ist zentral für Anwendungen in der Mensch-Computer-Interaktion, der computergestützten Sozialwissenschaft und personalisierten KI-Systemen. Ein solches Verständnis erfordert oft die Integration mehrerer Modalitäten, um differenzierte Muster und Zusammenhänge zu erfassen. Bestehende Ressourcen bieten jedoch selten Datensätze, die Verhaltensbeschreibungen mit ergänzenden Modalitäten wie Gesichtsattributen und biografischen Informationen kombinieren. Um diese Lücke zu schließen, präsentieren wir PersonaX, eine kuratierte Sammlung multimodaler Datensätze, die eine umfassende Analyse öffentlicher Merkmale über verschiedene Modalitäten hinweg ermöglichen soll. PersonaX besteht aus (1) CelebPersona, das 9444 öffentliche Persönlichkeiten aus verschiedenen Berufen umfasst, und (2) AthlePersona, das 4181 professionelle Sportler aus sieben großen Sportligen abdeckt. Jeder Datensatz enthält Verhaltensmerkmalsbewertungen, die von drei leistungsstarken großen Sprachmodellen abgeleitet wurden, sowie Gesichtsbilder und strukturierte biografische Merkmale. Wir analysieren PersonaX auf zwei komplementären Ebenen. Zunächst abstrahieren wir hochrangige Merkmalswerte aus Textbeschreibungen und wenden fünf statistische Unabhängigkeitstests an, um ihre Beziehungen zu anderen Modalitäten zu untersuchen. Zweitens führen wir ein neuartiges Framework für kausales Repräsentationslernen (Causal Representation Learning, CRL) ein, das auf multimodale und multimessbare Daten zugeschnitten ist und theoretische Identifizierbarkeitsgarantien bietet. Experimente mit synthetischen und realen Daten demonstrieren die Effektivität unseres Ansatzes. Durch die Vereinheitlichung strukturierter und unstrukturierter Analysen legt PersonaX die Grundlage für die Untersuchung von durch Sprachmodelle abgeleiteten Verhaltensmerkmalen in Verbindung mit visuellen und biografischen Attributen und fördert so die multimodale Merkmalsanalyse und das kausale Schließen.
Die Tokenisierung von Sprache ermöglicht eine diskrete Darstellung und erleichtert die Modellierung von Sprache. Allerdings erfassen bestehende neuronale Codecs nur akustische Merkmale auf niedriger Ebene und übersehen dabei die semantischen und kontextuellen Hinweise, die der menschlichen Sprache innewohnen. Während neuere Ansätze semantische Darstellungen aus selbstüberwachten Sprachmodellen einführten oder kontextuelle Darstellungen aus vortrainierten Sprachmodellen integrierten, bestehen weiterhin Herausforderungen bei der Ausrichtung und Vereinheitlichung der semantischen und kontextuellen Darstellungen. Wir stellen FuseCodec vor, das akustische, semantische und kontextuelle Darstellungen durch starke cross-modale Ausrichtung und global informierte Überwachung vereint. Wir schlagen drei komplementäre Techniken vor: (i) Latent Representation Fusion, die semantische und kontextuelle Merkmale direkt in den latenten Raum des Encoders integriert, um robustes und vereinheitlichtes Repräsentationslernen zu ermöglichen; (ii) Global Semantic-Contextual Supervision, die diskrete Token mit global gepoolten und verbreiteten Darstellungen überwacht, um zeitliche Konsistenz und cross-modale Ausrichtung zu verbessern; und (iii) Temporally Aligned Contextual Supervision, die die Ausrichtung durch dynamische Abstimmung von kontextuellen und Sprach-Token innerhalb eines lokalen Fensters für feinkörnige Token-Level-Überwachung stärkt. Wir führen außerdem FuseCodec-TTS ein, das die Anwendbarkeit unserer Methodik auf die Zero-Shot-Sprachsynthese demonstriert. Empirisch erreicht FuseCodec Spitzenleistungen in LibriSpeech und übertrifft EnCodec, SpeechTokenizer und DAC in Bezug auf Transkriptionsgenauigkeit, wahrgenommene Qualität, Verständlichkeit und Sprecherähnlichkeit. Die Ergebnisse unterstreichen die Wirksamkeit von kontextuell und semantisch geleiteter Tokenisierung für die Sprach-Tokenisierung und nachgelagerte Aufgaben. Code und vortrainierte Modelle sind unter https://github.com/mubtasimahasan/FuseCodec verfügbar.
Jüngste Fortschritte bei großen Videomodellen (LVMs) haben das Verständnis von Videos erheblich verbessert. Diese Modelle leiden jedoch weiterhin unter Halluzinationen, bei denen Inhalte erzeugt werden, die im Widerspruch zu den Eingabevideos stehen. Um dieses Problem zu lösen, schlagen wir Dr.V vor, ein hierarchisches Framework, das auf der Wahrnehmungs-, Zeit- und kognitiven Ebene arbeitet, um Video-Halluzinationen durch fein abgestimmte räumlich-zeitliche Verankerung zu diagnostizieren. Dr.V besteht aus zwei Schlüsselkomponenten: einem Benchmark-Datensatz Dr.V-Bench und einem Satelliten-Video-Agenten Dr.V-Agent. Dr.V-Bench umfasst 10.000 Instanzen aus 4.974 Videos, die eine Vielzahl von Aufgaben abdecken, wobei jede Instanz mit detaillierten räumlich-zeitlichen Annotationen angereichert ist. Dr.V-Agent erkennt Halluzinationen in LVMs, indem systematisch eine fein abgestimmte räumlich-zeitliche Verankerung auf der Wahrnehmungs- und Zeitebene angewendet wird, gefolgt von einer kognitiven Ebene der Schlussfolgerung. Diese schrittweise Pipeline spiegelt das menschliche Verständnis von Videos wider und identifiziert Halluzinationen effektiv. Umfangreiche Experimente zeigen, dass Dr.V-Agent effektiv Halluzinationen diagnostiziert und gleichzeitig die Interpretierbarkeit und Zuverlässigkeit verbessert, was einen praktischen Leitfaden für robustes Video-Verständnis in realen Szenarien bietet. Alle unsere Daten und Codes sind unter https://github.com/Eurekaleo/Dr.V verfügbar.
Der Einsatz großer Sprachmodelle (LLMs) in der psychischen Gesundheit und anderen sensiblen Bereichen wirft dringende Fragen zu ethischem Denken, Fairness und verantwortungsbewusster Ausrichtung auf. Bisherige Benchmarks für moralische und klinische Entscheidungsfindung erfassen jedoch nicht angemessen die einzigartigen ethischen Dilemmata, die in der Praxis der psychischen Gesundheit auftreten, wo Vertraulichkeit, Autonomie, Wohltätigkeit und Vorurteile häufig aufeinandertreffen. Um diese Lücke zu schließen, stellen wir Ethical Reasoning in Mental Health (EthicsMH) vor, einen Pilotdatensatz mit 125 Szenarien, der entwickelt wurde, um zu bewerten, wie KI-Systeme ethisch aufgeladene Situationen in therapeutischen und psychiatrischen Kontexten bewältigen. Jedes Szenario ist mit strukturierten Feldern angereichert, darunter mehrere Entscheidungsoptionen, expertenorientierte Begründungen, erwartetes Modellverhalten, reale Auswirkungen und multiperspektivische Standpunkte. Diese Struktur ermöglicht die Bewertung nicht nur der Entscheidungsgenauigkeit, sondern auch der Erklärungsqualität und der Übereinstimmung mit professionellen Normen. Obwohl bescheiden im Umfang und mit modellgestützter Generierung entwickelt, etabliert EthicsMH einen Aufgabenrahmen, der KI-Ethik und Entscheidungsfindung in der psychischen Gesundheit verbindet. Durch die Veröffentlichung dieses Datensatzes möchten wir eine Grundlage schaffen, die durch Beiträge der Gemeinschaft und von Experten erweitert werden kann, um die Entwicklung von KI-Systemen zu fördern, die in der Lage sind, einige der sensibelsten Entscheidungen der Gesellschaft verantwortungsbewusst zu handhaben.
Dieses Papier stellt unser System für Aufgabe 3 des CLEF 2025 CheckThat! Labs vor, das sich auf die Überprüfung numerischer und zeitlicher Behauptungen mithilfe von abgerufenen Belegen konzentriert. Wir untersuchen zwei komplementäre Ansätze: Zero-Shot-Prompting mit instruktionsfein abgestimmten großen Sprachmodellen (LLMs) und überwachtes Fein-Tuning unter Verwendung des parameter-effizienten LoRA-Verfahrens. Um die Qualität der Belege zu verbessern, untersuchen wir mehrere Auswahlstrategien, darunter die Eingabe des gesamten Dokuments und die Filterung der Top-k-Sätze mithilfe von BM25 und MiniLM. Unser bestes Modell, LLaMA, das mit LoRA feinabgestimmt wurde, erzielt eine starke Leistung auf dem englischen Validierungssatz. Ein deutlicher Rückgang im Testset verdeutlicht jedoch eine Herausforderung in Bezug auf die Generalisierungsfähigkeit. Diese Ergebnisse unterstreichen die Bedeutung der Granularität der Belege und der Modellanpassung für eine robuste numerische Faktenüberprüfung.
Domain-spezifische Embedding-Modelle haben sich für Anwendungen als vielversprechend erwiesen, die ein spezialisiertes semantisches Verständnis erfordern, wie z. B. Coding-Agenten und Finanzretrieval-Systeme, und erzielen oft höhere Leistungssteigerungen als allgemeine Modelle. State-of-the-Art Embedding-Modelle basieren jedoch typischerweise auf LLMs (Large Language Models), die Milliarden von Parametern enthalten, was die Bereitstellung in ressourcenbeschränkten Umgebungen erschwert. Modellkompression durch Pruning bietet eine vielversprechende Lösung, aber bestehende Pruning-Methoden behandeln alle Parameter gleichförmig und unterscheiden nicht zwischen allgemeinen semantischen Repräsentationen und domänenspezifischen Mustern, was zu suboptimalen Pruning-Entscheidungen führt. Daher schlagen wir GAPrune vor, ein Pruning-Framework, das diese Herausforderung adressiert, indem es sowohl die Domänenwichtigkeit als auch die Erhaltung der allgemeinen linguistischen Grundlage berücksichtigt. Unsere Methode verwendet die Fisher-Information, um die Wichtigkeit zu messen, und die Gradientenausrichtung im Allgemeinbereich, um das Parameterverhalten zu bewerten, und kombiniert diese Signale dann mithilfe unseres Domain Alignment Importance (DAI)-Scores. Niedrigere DAI-Scores zeigen an, dass der Parameter entweder weniger wichtig für die Domänenaufgabe ist oder Konflikte zwischen Domänen- und Allgemeinzielen erzeugt. Experimente mit zwei Domänen-Benchmarks, FinMTEB und ChemTEB, zeigen, dass GAPrune die Leistung bei einem One-Shot-Pruning mit 50 % Sparsity innerhalb von 2,5 % der dichten Modelle hält und dabei alle Baselines übertrifft. Mit einem Retraining in 100 Schritten erzielt GAPrune eine Verbesserung von +4,51 % auf FinMTEB und +1,73 % auf ChemTEB, was demonstriert, dass unsere Pruning-Strategie nicht nur domänenspezifische Fähigkeiten erhält, sondern sogar verbessert. Unsere Ergebnisse zeigen, dass prinzipienbasierte Pruning-Strategien sowohl Modellkompression als auch eine verbesserte Domänenspezialisierung erreichen können, und bieten der Forschungsgemeinschaft einen neuen Ansatz für die Entwicklung.
Da große Sprachmodelle (LLMs) zunehmend mit externen Tools interagieren, ist die Belohnungsmodellierung für die Tool-Nutzung zu einem kritischen, jedoch noch unzureichend erforschten Bereich geworden. Bestehende Belohnungsmodelle, die hauptsächlich auf natürlichen Sprachausgaben trainiert wurden, haben Schwierigkeiten, tool-basiertes Denken und die Ausführung zu bewerten. Um diese Lücke zu quantifizieren, führen wir FC-RewardBench ein, den ersten Benchmark, der systematisch die Leistung von Belohnungsmodellen in Tool-Aufruf-Szenarien bewertet. Unsere Analyse zeigt, dass aktuelle Belohnungsmodelle oft wichtige Signale für eine effektive Tool-Nutzung übersehen, was die Notwendigkeit einer domänenspezifischen Modellierung unterstreicht. Um dies zu adressieren, schlagen wir ein Trainingsframework für ergebnisbasierte Belohnungsmodelle vor, das Daten verwendet, die aus frei lizenzierten, Open-Weight-LLMs synthetisiert wurden. Wir trainieren Modelle mit einer Größe von 1,7B bis 14B Parametern und bewerten sie anhand von sieben Out-of-Domain-Benchmarks. Diese Modelle übertreffen durchweg allgemeine Baselines und erreichen eine durchschnittliche Verbesserung von bis zu 25 % bei der Leistung in nachgelagerten Aufgaben, wodurch sie eine dateneffiziente Feinabstimmung durch belohnungsgesteuertes Filtern ermöglichen.
Große Sprachmodelle (LLMs) machen bedeutende Fortschritte in Bezug auf Emotionale Intelligenz (EI) und das Verständnis langer Kontexte. Bestehende Benchmarks neigen jedoch dazu, bestimmte Aspekte der EI in langen Kontextszenarien zu übersehen, insbesondere unter realistischen, praktischen Bedingungen, in denen Interaktionen lang, vielfältig und oft verrauscht sind. Um uns solchen realistischen Bedingungen anzunähern, präsentieren wir LongEmotion, einen Benchmark, der speziell für langkontextbezogene EI-Aufgaben entwickelt wurde. Er deckt eine Vielzahl von Aufgaben ab, darunter Emotionale Klassifikation, Emotionale Erkennung, Emotionale Frage-Antwort, Emotionale Konversation, Emotionale Zusammenfassung und Emotionale Expression. Im Durchschnitt erreicht die Eingabelänge für diese Aufgaben 8.777 Tokens, wobei für die Emotionale Expression eine langformige Generierung erforderlich ist. Um die Leistung unter realistischen Einschränkungen zu verbessern, integrieren wir Retrieval-Augmented Generation (RAG) und Collaborative Emotional Modeling (CoEM) und vergleichen sie mit standardmäßigen promptbasierten Methoden. Im Gegensatz zu konventionellen Ansätzen nutzt unsere RAG-Methode sowohl den Konversationskontext als auch das große Sprachmodell selbst als Retrieval-Quellen und vermeidet so die Abhängigkeit von externen Wissensdatenbanken. Die CoEM-Methode verbessert die Leistung weiter, indem sie die Aufgabe in fünf Stufen zerlegt und sowohl Retrieval-Augmentierung als auch begrenzte Wissensinjektion integriert. Experimentelle Ergebnisse zeigen, dass sowohl RAG als auch CoEM die EI-bezogene Leistung bei den meisten langkontextbezogenen Aufgaben kontinuierlich verbessern und LLMs in Richtung praktischerer und realitätsnaher EI-Anwendungen vorantreiben. Darüber hinaus haben wir ein vergleichendes Fallstudienexperiment mit der GPT-Serie durchgeführt, um die Unterschiede zwischen verschiedenen Modellen in Bezug auf EI zu demonstrieren. Der Code ist auf GitHub unter https://github.com/LongEmotion/LongEmotion verfügbar, und die Projektseite findet sich unter https://longemotion.github.io/.