Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Jüngste Fortschritte bei sprachmodellbasierten Ansätzen mit Schwerpunkt auf logischem Denken haben Verstärkungslernen (Reinforcement Learning, RL) als vielversprechende Methode zur Ausrichtung von Modellen auf überprüfbare Belohnungen hervorgehoben. Es bleibt jedoch umstritten, ob RL tatsächlich die Denkfähigkeiten eines Modells erweitert oder lediglich hoch bewertete Ausgaben verstärkt, die bereits latent in der Verteilung des Basismodells vorhanden sind, und ob eine kontinuierliche Steigerung der RL-Rechenleistung zuverlässig zu verbesserten Denkleistungen führt. In dieser Arbeit stellen wir vorherrschende Annahmen in Frage, indem wir zeigen, dass langfristiges RL-Training (ProRL) neuartige Denkstrategien freisetzen kann, die für Basismodelle selbst bei umfangreicher Stichprobenziehung unzugänglich sind. Wir stellen ProRL vor, eine neuartige Trainingsmethodik, die KL-Divergenz-Kontrolle, das Zurücksetzen von Referenzrichtlinien und eine vielfältige Aufgabensammlung integriert. Unsere empirische Analyse zeigt, dass RL-trainierte Modelle in einer Vielzahl von pass@k-Bewertungen konsistent besser abschneiden als Basismodelle, einschließlich Szenarien, in denen Basismodelle unabhängig von der Anzahl der Versuche vollständig versagen. Wir zeigen weiterhin, dass Verbesserungen der Denkgrenzen stark mit der Aufgabenkompetenz des Basismodells und der Trainingsdauer korrelieren, was darauf hindeutet, dass RL im Laufe der Zeit neue Regionen des Lösungsraums erkunden und besetzen kann. Diese Erkenntnisse bieten neue Einblicke in die Bedingungen, unter denen RL die Denkgrenzen von Sprachmodellen sinnvoll erweitert, und legen die Grundlage für zukünftige Arbeiten zu langfristigem RL für logisches Denken. Wir veröffentlichen Modellgewichte, um weitere Forschungen zu unterstützen: https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
Dieses Paper stellt AlphaOne (alpha1) vor, einen universellen Rahmen zur Modulation des Fortschritts des Denkprozesses in großen Denkmodellen (Large Reasoning Models, LRMs) zur Testzeit. alpha1 führt zunächst den alpha-Moment ein, der die skalierte Denkphase mit einem universellen Parameter alpha repräsentiert. Innerhalb dieser skalierten Prä-alpha-Moment-Phase plant es dynamisch Übergänge zum langsamen Denken, indem es das Einfügen von Denkübergangs-Tokens als Bernoulli-stochastischen Prozess modelliert. Nach dem alpha-Moment beendet alpha1 das langsame Denken deterministisch mit dem End-of-Thinking-Token, wodurch schnelles Denken und effiziente Antwortgenerierung gefördert werden. Dieser Ansatz vereinheitlicht und verallgemeinert bestehende monotone Skalierungsmethoden, indem er eine flexible und dichte Modulation vom langsamen zum schnellen Denken ermöglicht. Umfangreiche empirische Studien auf verschiedenen anspruchsvollen Benchmarks in den Bereichen Mathematik, Programmierung und Wissenschaft demonstrieren die überlegene Denkfähigkeit und Effizienz von alpha1. Projektseite: https://alphaone-project.github.io/
Jüngste Fortschritte in Vision-Sprache-Modellen (VLMs) haben beeindruckende Fortschritte beim Verständnis räumlich-zeitlicher Beziehungen in Videos erzielt. Wenn jedoch räumliche Informationen verdeckt sind, haben diese Modelle Schwierigkeiten, rein zeitliche Muster zu erfassen. Wir stellen SpookyBench vor, einen Benchmark, bei dem Informationen ausschließlich in zeitlichen Sequenzen von rauschartigen Bildern kodiert sind, die natürliche Phänomene von biologischer Signalübertragung bis hin zu verdeckter Kommunikation widerspiegeln. Interessanterweise können Menschen Formen, Texte und Muster in diesen Sequenzen mit einer Genauigkeit von über 98 % erkennen, während state-of-the-art VLMs eine Genauigkeit von 0 % erreichen. Diese Leistungslücke verdeutlicht eine kritische Einschränkung: eine übermäßige Abhängigkeit von räumlichen Merkmalen auf Bildebene und die Unfähigkeit, Bedeutung aus zeitlichen Hinweisen zu extrahieren. Darüber hinaus verschlechtert sich das zeitliche Verständnis von Modellen, die auf Datensätzen mit niedrigem räumlichen Signal-Rausch-Verhältnis (SNR) trainiert wurden, schneller als die menschliche Wahrnehmung, insbesondere bei Aufgaben, die fein abgestuftes zeitliches Denken erfordern. Die Überwindung dieser Einschränkung wird neue Architekturen oder Trainingsparadigmen erfordern, die räumliche Abhängigkeiten von der zeitlichen Verarbeitung entkoppeln. Unsere systematische Analyse zeigt, dass dieses Problem über verschiedene Modellgrößen und Architekturen hinweg bestehen bleibt. Wir veröffentlichen SpookyBench, um die Forschung im Bereich der zeitlichen Mustererkennung voranzutreiben und die Lücke zwischen menschlichem und maschinellem Videoverständnis zu schließen. Datensatz und Code sind auf unserer Projektwebsite verfügbar: https://timeblindness.github.io/.
Die Erzeugung synthetischer Daten, die die statistische Struktur realer Verteilungen treu abbilden, stellt eine grundlegende Herausforderung in der Datenmodellierung dar. Klassische Ansätze basieren oft auf starken parametrischen Annahmen oder manuell entworfenen Strukturen und stoßen in hochdimensionalen oder heterogenen Domänen an ihre Grenzen. Jüngste Fortschritte bei Large Language Models (LLMs) zeigen deren Potenz als flexible, hochdimensionale Priors für reale Verteilungen. Bei der Anwendung auf die Datensynthese erweist sich das standardmäßige LLM-basierte Sampling jedoch als ineffizient, durch feste Kontextgrenzen eingeschränkt und unfähig, statistische Übereinstimmung sicherzustellen. Vor diesem Hintergrund stellen wir LLMSynthor vor, ein allgemeines Framework für die Datensynthese, das LLMs in strukturbewusste Simulatoren transformiert, die durch verteilungsbezogenes Feedback gesteuert werden. LLMSynthor behandelt das LLM als nichtparametrischen Copula-Simulator zur Modellierung hochgradiger Abhängigkeiten und führt LLM Proposal Sampling ein, um fundierte Vorschlagsverteilungen zu erzeugen, die die Sampling-Effizienz verbessern, ohne Ablehnungsschritte zu erfordern. Durch die Minimierung von Diskrepanzen im Raum der Zusammenfassungsstatistiken gleicht der iterative Syntheseprozess reale und synthetische Daten an und deckt dabei schrittweise die latente generative Struktur auf und verfeinert sie. Wir evaluieren LLMSynthor sowohl in kontrollierten als auch in realen Umgebungen mit heterogenen Datensätzen aus datenschutzsensiblen Bereichen (z. B. E-Commerce, Bevölkerung und Mobilität), die sowohl strukturierte als auch unstrukturierte Formate umfassen. Die von LLMSynthor erzeugten synthetischen Daten weisen eine hohe statistische Treue, praktische Nützlichkeit und übergreifende Datenanpassungsfähigkeit auf, was sie zu einem wertvollen Werkzeug in den Bereichen Wirtschaftswissenschaften, Sozialwissenschaften, Stadtforschung und darüber hinaus macht.
Verifizierer spielen eine entscheidende Rolle beim Reasoning großer Sprachmodelle (LLMs), das durch Post-Training-Techniken wie Reinforcement Learning benötigt wird. Zuverlässige Verifizierer sind jedoch bei schwierigen Programmierproblemen schwer zu erhalten, da eine gut getarnte falsche Lösung oft nur durch sorgfältig von Menschen geschriebene Edge Cases erkannt werden kann, die schwer zu synthetisieren sind. Um dieses Problem zu lösen, schlagen wir HARDTESTGEN vor, eine Pipeline zur Synthese hochwertiger Tests unter Verwendung von LLMs. Mit dieser Pipeline erstellen wir einen umfassenden Wettbewerbsprogrammierungsdatensatz HARDTESTS mit 47.000 Problemen und synthetischen, hochwertigen Tests. Im Vergleich zu bestehenden Tests zeigen HARDTESTGEN-Tests eine Präzision, die 11,3 Prozentpunkte höher ist, und eine Recall-Rate, die 17,5 Prozentpunkte höher ist, wenn LLM-generierter Code evaluiert wird. Bei schwierigeren Problemen kann die Verbesserung der Präzision bis zu 40 Punkte betragen. HARDTESTS erweist sich auch als effektiver für das Modelltraining, gemessen an der nachgelagerten Codegenerierungsleistung. Wir werden unseren Datensatz und die Synthese-Pipeline unter https://leililab.github.io/HardTests/ open-source zur Verfügung stellen.
Wir stellen v1 vor, eine leichtgewichtige Erweiterung für Multimodale Große Sprachmodelle (MLLMs), die eine selektive visuelle Wiederbetrachtung während der Inferenz ermöglicht. Während aktuelle MLLMs visuelle Eingaben typischerweise nur einmal verarbeiten und ausschließlich über internen Speicher schlussfolgern, führt v1 einen einfachen Punkt-und-Kopier-Mechanismus ein, der es dem Modell erlaubt, relevante Bildregionen dynamisch während des Schlussfolgerungsprozesses abzurufen. Dieser Mechanismus erweitert bestehende Architekturen mit minimalen Modifikationen und ermöglicht den kontextuellen Zugriff auf visuelle Tokens basierend auf den sich entwickelnden Hypothesen des Modells. Um diese Fähigkeit zu trainieren, erstellen wir v1g, einen Datensatz mit 300K multimodalen Schlussfolgerungsspuren, die mit verschachtelten visuellen Verankerungsannotationen versehen sind. Experimente auf drei multimodalen mathematischen Schlussfolgerungs-Benchmarks – MathVista, MathVision und MathVerse – zeigen, dass v1 die Leistung im Vergleich zu ähnlichen Baselines durchgängig verbessert, insbesondere bei Aufgaben, die feinkörnige visuelle Referenz und mehrstufiges Schlussfolgern erfordern. Unsere Ergebnisse deuten darauf hin, dass dynamischer visueller Zugriff eine vielversprechende Richtung zur Verbesserung von fundierter multimodaler Schlussfolgerung ist. Code, Modelle und Daten werden veröffentlicht, um zukünftige Forschung zu unterstützen.
Story Visualization, das darauf abzielt, eine Sequenz visuell kohärenter Bilder zu generieren, die mit einer gegebenen Erzählung und Referenzbildern übereinstimmen, hat durch die jüngsten Fortschritte in generativen Modellen erhebliche Fortschritte erzielt. Um die Leistung von Story-Visualisierungs-Frameworks in realen Szenarien weiter zu verbessern, führen wir einen umfassenden Evaluierungsbenchmark, ViStoryBench, ein. Wir sammeln einen vielfältigen Datensatz, der verschiedene Geschichtentypen und künstlerische Stile umfasst, um sicherzustellen, dass Modelle in mehreren Dimensionen bewertet werden, wie beispielsweise unterschiedliche Handlungsstränge (z.B. Komödie, Horror) und visuelle Ästhetik (z.B. Anime, 3D-Renderings). ViStoryBench ist sorgfältig kuratiert, um narrative Strukturen und visuelle Elemente auszubalancieren, und enthält Geschichten mit einzelnen und mehreren Protagonisten, um die Fähigkeit der Modelle zur Aufrechterhaltung der Charakterkonsistenz zu testen. Darüber hinaus umfasst es komplexe Handlungsstränge und detaillierte Weltgestaltung, um die Modelle bei der Generierung präziser visueller Darstellungen herauszufordern. Um umfassende Vergleiche zu ermöglichen, integriert unser Benchmark eine breite Palette von Evaluierungsmetriken, die kritische Aspekte bewerten. Dieses strukturierte und vielschichtige Framework ermöglicht es Forschern, sowohl die Stärken als auch die Schwächen verschiedener Modelle gründlich zu identifizieren und gezielte Verbesserungen zu fördern.
Das jüngste explosionsartige Interesse an den Denkfähigkeiten großer Sprachmodelle, wie DeepSeek-R1, hat bemerkenswerte Erfolge durch feinabgestimmte Frameworks auf Basis von Verstärkungslernen gezeigt, wie beispielsweise die Methode Group Relative Policy Optimization (GRPO). Solche Denkfähigkeiten bleiben jedoch in visuellen Basismodellen, einschließlich Repräsentationsmodellen wie der DINO-Serie, weitgehend unerforscht und auffällig abwesend. In dieser Arbeit schlagen wir DINO-R1 vor, den ersten Versuch dieser Art, die visuellen In-Context-Denkfähigkeiten von visuellen Basismodellen durch Verstärkungslernen zu fördern. Konkret führt DINO-R1 Group Relative Query Optimization (GRQO) ein, eine neuartige Trainingsstrategie im Stil des Verstärkungslernens, die speziell für abfragebasierte Repräsentationsmodelle entwickelt wurde und abfragebezogene Belohnungen auf der Grundlage der gruppennormalisierten Ausrichtungsqualität berechnet. Wir wenden außerdem KL-Regularisierung an, um die Objektverteilung zu stabilisieren und die Trainingsinstabilität zu verringern. Diese gemeinsame Optimierung ermöglicht eine dichte und ausdrucksstarke Überwachung über Abfragen hinweg, während Überanpassung und Verteilungsdrift gemildert werden. Aufbauend auf Grounding-DINO trainieren wir eine Reihe von DINO-R1-Familienmodellen, die einen visuellen Prompt-Encoder und einen visuell gesteuerten Abfrageauswahlmechanismus integrieren. Umfangreiche Experimente auf COCO, LVIS und ODinW zeigen, dass DINO-R1 die überwachten Feinabstimmungs-Baselines deutlich übertrifft und eine starke Generalisierung sowohl in offenen Vokabular- als auch in geschlossenen visuellen Prompt-Szenarien erreicht.
Die Automatisierung der KI-Forschung birgt enormes Potenzial, um den wissenschaftlichen Fortschritt zu beschleunigen, doch aktuelle KI-Agenten haben Schwierigkeiten mit den Komplexitäten rigoroser, end-to-end-Experimente. Wir stellen EXP-Bench vor, einen neuartigen Benchmark, der entwickelt wurde, um KI-Agenten systematisch anhand vollständiger Forschungsexperimente zu bewerten, die aus einflussreichen KI-Publikationen stammen. Bei einer gegebenen Forschungsfrage und unvollständigem Startcode fordert EXP-Bench KI-Agenten heraus, Hypothesen zu formulieren, experimentelle Verfahren zu entwerfen und zu implementieren, diese auszuführen und die Ergebnisse zu analysieren. Um die Erstellung solch komplexer und authentischer Aufgaben mit hoher Genauigkeit zu ermöglichen, haben wir eine halbautonome Pipeline entwickelt, um entscheidende experimentelle Details aus diesen Forschungsarbeiten und dem zugehörigen Open-Source-Code zu extrahieren und zu strukturieren. Mit dieser Pipeline hat EXP-Bench 461 KI-Forschungsaufgaben aus 51 hochrangigen KI-Forschungsarbeiten kuratiert. Bewertungen führender LLM-basierter Agenten wie OpenHands und IterativeAgent auf EXP-Bench zeigen teilweise Fähigkeiten: Während die Bewertungen für einzelne experimentelle Aspekte wie die Korrektheit des Designs oder der Implementierung gelegentlich 20-35 % erreichen, lag die Erfolgsrate für vollständige, ausführbare Experimente bei lediglich 0,5 %. Indem EXP-Bench diese Engpässe identifiziert und realistische Schritt-für-Schritt-Experimentverfahren bereitstellt, dient es als wichtiges Werkzeug für zukünftige KI-Agenten, um ihre Fähigkeit zur Durchführung von KI-Forschungsexperimenten zu verbessern. EXP-Bench ist unter https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench open-source verfügbar.
CAPTCHAs stellen ein entscheidendes Hindernis für den Einsatz von Web-Agenten in realen Anwendungen dar und blockieren sie häufig bei der Durchführung von End-to-End-Automatisierungsaufgaben. Während moderne multimodale LLM-Agenten beeindruckende Leistungen bei statischen Wahrnehmungsaufgaben gezeigt haben, ist ihre Fähigkeit, interaktive, mehrstufige Denkherausforderungen wie CAPTCHAs zu bewältigen, weitgehend unerprobt. Um diese Lücke zu schließen, stellen wir Open CaptchaWorld vor, den ersten webbasierten Benchmark und eine Plattform, die speziell entwickelt wurde, um die visuellen Denk- und Interaktionsfähigkeiten von MLLM-gestützten Agenten durch vielfältige und dynamische CAPTCHA-Rätsel zu bewerten. Unser Benchmark umfasst 20 moderne CAPTCHA-Typen mit insgesamt 225 CAPTCHAs, die mit einer neuen Metrik versehen sind, die wir vorschlagen: CAPTCHA Reasoning Depth, die die Anzahl der kognitiven und motorischen Schritte quantifiziert, die zur Lösung jedes Rätsels erforderlich sind. Experimentelle Ergebnisse zeigen, dass Menschen durchweg nahezu perfekte Werte erreichen, während state-of-the-art MLLM-Agenten erheblich Schwierigkeiten haben, mit Erfolgsquoten von höchstens 40,0 % bei Browser-Use Openai-o3, weit unter dem menschlichen Leistungsniveau von 93,3 %. Dies unterstreicht Open CaptchaWorld als einen entscheidenden Benchmark zur Diagnose der Grenzen aktueller multimodaler Agenten und zur Entwicklung robusterer multimodaler Denksysteme. Code und Daten sind unter dieser HTTPS-URL verfügbar.
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich kürzlich als ein leistungsstarkes Paradigma für das Post-Training großer Sprachmodelle (LLMs) etabliert und dabei state-of-the-art Leistungen bei Aufgaben mit strukturierten, verifizierbaren Antworten erzielt. Die Anwendung von RLVR auf multimodale LLMs (MLLMs) bietet erhebliche Chancen, ist jedoch durch die breitere, heterogene Natur von Vision-Sprache-Aufgaben erschwert, die differenzierte visuelle, logische und räumliche Fähigkeiten erfordern. Daher könnte das Training von MLLMs mit RLVR auf mehreren Datensätzen vorteilhaft sein, birgt jedoch Herausforderungen durch widersprüchliche Ziele aufgrund der Interaktion zwischen verschiedenen Datensätzen, was die Notwendigkeit optimaler Datensatzmischungsstrategien zur Verbesserung der Generalisierung und des logischen Denkens unterstreicht. Wir stellen ein systematisches Post-Training-Framework für multimodale LLM RLVR vor, das eine rigorose Formulierung des Datenmischungsproblems und eine Benchmark-Implementierung umfasst. Konkret: (1) Wir entwickelten ein multimodales RLVR-Framework für das Multi-Datensatz-Post-Training, indem wir einen Datensatz kuratierten, der verschiedene verifizierbare Vision-Sprache-Probleme enthält, und ein Multi-Domain-Online-RL-Lernen mit unterschiedlichen verifizierbaren Belohnungen ermöglichten; (2) Wir schlugen eine Datenmischungsstrategie vor, die lernt, das RL-Fine-Tuning-Ergebnis aus der Datenmischungsverteilung vorherzusagen und folglich die beste Mischung optimiert. Umfassende Experimente zeigen, dass ein Multi-Domain-RLVR-Training in Kombination mit Mischungsvorhersagestrategien die allgemeinen Denkfähigkeiten von MLLMs erheblich steigern kann. Unsere beste Mischung verbessert die Genauigkeit des post-trainierten Modells auf Out-of-Distribution-Benchmarks im Durchschnitt um 5,24 % im Vergleich zum gleichen Modell, das mit einer einheitlichen Datenmischung post-trainiert wurde, und insgesamt um 20,74 % im Vergleich zum Baseline-Modell vor dem Fine-Tuning.
Die Synthese von Ganzkörpermanipulationen an artikulierten Objekten, einschließlich Körperbewegung, Handbewegung und Objektbewegung, ist eine entscheidende, aber herausfordernde Aufgabe mit breiten Anwendungen in virtuellen Menschen und der Robotik. Die Kernherausforderungen sind zweifach. Erstens erfordert die Erzielung realistischer Ganzkörperbewegungen eine enge Koordination zwischen den Händen und dem restlichen Körper, da ihre Bewegungen während der Manipulation voneinander abhängig sind. Zweitens beinhaltet die Manipulation artikulierter Objekte typischerweise hohe Freiheitsgrade und erfordert eine höhere Präzision, oft müssen die Finger an bestimmten Bereichen platziert werden, um bewegliche Teile zu betätigen. Um diese Herausforderungen zu bewältigen, schlagen wir ein neuartiges koordiniertes Diffusionsrausch-Optimierungsframework vor. Konkret führen wir eine Rauschraumoptimierung über drei spezialisierte Diffusionsmodelle für den Körper, die linke Hand und die rechte Hand durch, die jeweils auf ihrem eigenen Bewegungsdatensatz trainiert wurden, um die Generalisierung zu verbessern. Die Koordination entsteht natürlich durch den Gradientenfluss entlang der menschlichen kinematischen Kette, wodurch sich die globale Körperhaltung mit hoher Genauigkeit an die Handbewegungsziele anpasst. Um die Präzision bei der Hand-Objekt-Interaktion weiter zu verbessern, verwenden wir eine einheitliche Darstellung basierend auf Basispunktmengen (BPS), bei der die Positionen der Endeffektoren als Abstände zur gleichen BPS kodiert werden, die auch für die Objektgeometrie verwendet wird. Diese einheitliche Darstellung erfasst fein abgestufte räumliche Beziehungen zwischen der Hand und den artikulierten Objektteilen, und die resultierenden Trajektorien dienen als Ziele, um die Optimierung des Diffusionsrauschens zu steuern, wodurch hochgenaue Interaktionsbewegungen erzeugt werden. Wir führen umfangreiche Experimente durch, die zeigen, dass unsere Methode bestehende Ansätze in Bezug auf Bewegungsqualität und physikalische Plausibilität übertrifft und verschiedene Fähigkeiten ermöglicht, wie Objektposenkontrolle, gleichzeitiges Gehen und Manipulieren sowie Ganzkörpergeneration aus reinen Handdaten.
Große Sprachmodelle (LLMs) speichern eine enorme Menge an Vorwissen aus dem Internet, das ihnen bei nachgelagerten Aufgaben hilft, aber auch ihre Ausgaben berüchtigt in Richtung falscher oder voreingenommener Antworten lenken kann. In dieser Arbeit untersuchen wir, wie das Wissen über populäre Themen die Genauigkeit von visuellen Sprachmodellen (VLMs) bei standardisierten, objektiven visuellen Aufgaben wie Zählen und Identifikation beeinträchtigt. Wir stellen fest, dass state-of-the-art VLMs stark voreingenommen sind (z. B. nicht in der Lage, einen vierten Streifen in einem 3-streifigen Adidas-Logo zu erkennen) und im Durchschnitt eine Genauigkeit von 17,05 % beim Zählen (z. B. Zählen von Streifen in einem Adidas-ähnlichen Logo) über 7 verschiedene Domänen von Tieren, Logos, Schach, Brettspielen, optischen Täuschungen bis hin zu gemusterten Gittern erreichen. Das Einfügen von Text (z. B. „Adidas“), der den Namen des Subjekts beschreibt, in das kontrafaktische Bild verringert die Genauigkeit der VLMs weiter. Die Voreingenommenheit in VLMs ist so stark, dass die Anweisung, ihre Ergebnisse noch einmal zu überprüfen oder sich ausschließlich auf Bilddetails zu verlassen, um zu antworten, die Zählgenauigkeit im Durchschnitt nur um +2 Punkte verbessert. Unsere Arbeit präsentiert einen interessanten Fehlermodus in VLMs und ein automatisiertes Framework zur Überprüfung von VLM-Voreingenommenheiten. Code und Daten sind verfügbar unter: vlmsarebiased.github.io.
Ein entscheidender Bestandteil für die Vertrauenswürdigkeit von LLMs (Large Language Models) ist die zuverlässige Kommunikation von Unsicherheit. Dennoch verwenden LLMs oft selbstbewusste Sprache, wenn sie falsche Behauptungen übermitteln, was zu übermäßigem Vertrauen und einem Abbau des Vertrauens führt. Wir präsentieren die erste systematische Studie zur treuen Konfidenzkalibrierung von LLMs, bei der die Fähigkeit der Modelle bewertet wird, sprachliche Ausdrücke von Unsicherheit zu verwenden, die ihre intrinsische Unsicherheit treu widerspiegeln. Dies erfolgt über eine umfassende Auswahl von Modellen, Datensätzen und Prompting-Strategien. Unsere Ergebnisse zeigen, dass LLMs bei dieser Aufgabe weitgehend versagen und dass bestehende Interventionen unzureichend sind: Standard-Prompt-Ansätze bieten nur marginale Verbesserungen, und bestehende, faktenbasierte Kalibrierungstechniken können die treue Kalibrierung sogar beeinträchtigen. Um diese kritische Lücke zu schließen, führen wir MetaFaith ein, einen neuartigen Prompt-basierten Kalibrierungsansatz, der von der menschlichen Metakognition inspiriert ist. Wir zeigen, dass MetaFaith die treue Kalibrierung robust über verschiedene Modelle und Aufgabenbereiche hinweg verbessert, mit einer Verbesserung der Treue um bis zu 61 % und einer Gewinnrate von 83 % gegenüber den ursprünglichen Generationen, wie von Menschen beurteilt.
Text-to-Speech (TTS)-Benchmarks erfassen oft nicht, wie gut Modelle mit nuanziertem und semantisch komplexem Text umgehen. Aufbauend auf EmergentTTS führen wir EmergentTTS-Eval ein, einen umfassenden Benchmark, der sechs anspruchsvolle TTS-Szenarien abdeckt: Emotionen, Paralinguistik, Fremdwörter, syntaktische Komplexität, komplexe Aussprache (z. B. URLs, Formeln) und Fragen. Entscheidend ist, dass unser Framework sowohl die Generierung von Testfällen als auch die Bewertung automatisiert, wodurch der Benchmark leicht erweiterbar ist. Ausgehend von einer kleinen Menge menschlich verfasster Seed-Prompts erweitern wir diese iterativ mithilfe von LLMs, um spezifische strukturelle, phonetische und prosodische Herausforderungen zu adressieren, was zu 1.645 diversen Testfällen führt. Darüber hinaus verwenden wir einen Model-as-a-Judge-Ansatz, bei dem ein Large Audio Language Model (LALM) eingesetzt wird, um die Sprache in mehreren Dimensionen zu bewerten, wie z. B. ausgedrückte Emotion, Prosodie, Intonation und Aussprachegenauigkeit. Wir evaluieren state-of-the-art Open-Source- und proprietäre TTS-Systeme wie 11Labs, Deepgram und OpenAIs 4o-mini-TTS auf EmergentTTS-Eval und zeigen, dass der Benchmark feinkörnige Leistungsunterschiede aufdecken kann. Die Ergebnisse zeigen, dass der Model-as-a-Judge-Ansatz eine robuste TTS-Bewertung bietet und eine hohe Korrelation mit menschlichen Präferenzen aufweist. Wir stellen den Evaluierungscode https://github.com/boson-ai/EmergentTTS-Eval-public und das Dataset https://huggingface.co/datasets/bosonai/EmergentTTS-Eval als Open Source zur Verfügung.
In letzter Zeit haben Methoden, die Diffusion-Modelle-Priors nutzen, um monokulare geometrische Schätzungen (z. B. Tiefe und Normale) zu unterstützen, aufgrund ihrer starken Generalisierungsfähigkeit erhebliche Aufmerksamkeit erregt. Die meisten bestehenden Arbeiten konzentrieren sich jedoch auf die Schätzung geometrischer Eigenschaften innerhalb des Kamera-Koordinatensystems einzelner Videobilder und vernachlässigen die inhärente Fähigkeit von Diffusion-Modellen, Inter-Frame-Korrespondenzen zu bestimmen. In dieser Arbeit zeigen wir, dass durch geeignetes Design und Feinabstimmung die intrinsische Konsistenz von Video-Generierungsmodellen effektiv für konsistente geometrische Schätzungen genutzt werden kann. Konkret 1) wählen wir geometrische Attribute im globalen Koordinatensystem aus, die dieselbe Korrespondenz mit Videobildern teilen wie die Vorhersageziele, 2) führen eine neuartige und effiziente Konditionierungsmethode durch Wiederverwendung von Positionskodierungen ein und 3) verbessern die Leistung durch gemeinsames Training an mehreren geometrischen Attributen, die dieselbe Korrespondenz teilen. Unsere Ergebnisse erzielen eine überlegene Leistung bei der Vorhersage globaler geometrischer Attribute in Videos und können direkt auf Rekonstruktionsaufgaben angewendet werden. Selbst wenn ausschließlich mit statischen Videodaten trainiert, zeigt unser Ansatz das Potenzial, sich auf dynamische Videoszenen zu verallgemeinern.
Die Rechenleistung zur Testzeit hat multimodale große Sprachmodelle befähigt, umfangreiche Argumentationsketten zu generieren, was zu einer starken Leistung bei Aufgaben wie multimodaler mathematischer Argumentation führt. Diese verbesserte Argumentationsfähigkeit geht jedoch oft mit einer erhöhten Halluzination einher: Je länger die Generierungen werden, desto mehr entfernen sich die Modelle vom bildgestützten Inhalt und verlassen sich stärker auf sprachliche Vorannahmen. Eine Aufmerksamkeitsanalyse zeigt, dass längere Argumentationsketten zu einer verringerten Fokussierung auf visuelle Eingaben führen, was zur Halluzination beiträgt. Um dieses Phänomen systematisch zu untersuchen, führen wir RH-AUC ein, eine Metrik, die quantifiziert, wie sich die Wahrnehmungsgenauigkeit eines Modells mit der Argumentationslänge verändert, und es uns ermöglicht, zu bewerten, ob das Modell die visuelle Verankerung während der Argumentation bewahrt. Wir veröffentlichen außerdem RH-Bench, einen diagnostischen Benchmark, der eine Vielzahl multimodaler Aufgaben umfasst und dazu dient, den Kompromiss zwischen Argumentationsfähigkeit und Halluzination zu bewerten. Unsere Analyse zeigt, dass (i) größere Modelle typischerweise eine bessere Balance zwischen Argumentation und Wahrnehmung erreichen und (ii) diese Balance stärker durch die Arten und Domänen der Trainingsdaten als durch deren Gesamtmenge beeinflusst wird. Diese Erkenntnisse unterstreichen die Bedeutung von Bewertungsrahmen, die sowohl die Qualität der Argumentation als auch die Wahrnehmungstreue gemeinsam berücksichtigen.
Die Erzeugung präziser mehrsprachiger Texte mit Diffusionsmodellen ist seit langem ein gewünschtes Ziel, bleibt jedoch eine Herausforderung. Aktuelle Methoden haben Fortschritte bei der Darstellung von Texten in einer einzelnen Sprache erzielt, aber die Darstellung beliebiger Sprachen ist nach wie vor ein unerforschtes Gebiet. Dieses Papier stellt EasyText vor, ein Textdarstellungsframework basierend auf DiT (Diffusion Transformer), das Rauschreduktionslatenten mit mehrsprachigen Zeichentoken verbindet, die als Zeichentoken kodiert sind. Wir schlagen Zeichenpositionierungskodierung und Positionskodierungsinterpolationstechniken vor, um kontrollierbare und präzise Textdarstellung zu erreichen. Zusätzlich erstellen wir einen umfangreichen synthetischen Textbilddatensatz mit 1 Million mehrsprachiger Bild-Text-Annotationen sowie einen hochwertigen Datensatz von 20.000 annotierten Bildern, die für Vorabtraining und Feinabstimmung verwendet werden. Umfangreiche Experimente und Bewertungen demonstrieren die Wirksamkeit und den Fortschritt unseres Ansatzes in der mehrsprachigen Textdarstellung, der visuellen Qualität und der layoutbewussten Textintegration.
Wir zeigen, dass die Inferenzoperationen mehrerer Open-Weight großer Sprachmodelle (LLMs) auf ein exakt äquivalentes lineares System für eine Eingabesequenz abgebildet werden können, ohne die Modellgewichte zu verändern oder die Ausgangsvorhersagen zu beeinflussen. Indem wir Techniken aus Bilddiffusionsmodellen, die lokale oder stückweise Linearität aufweisen, erweitern, verändern wir strategisch die Gradientenberechnung in Bezug auf eine gegebene Eingabesequenz für eine Next-Token-Vorhersage, sodass die Jacobi-Matrix des Modells die Vorwärtsvorhersage nahezu exakt mit einem linearen System reproduziert. Wir demonstrieren diesen Ansatz über verschiedene Modelle (Llama 3, Gemma 3, Qwen 3, Phi 4, Mistral Ministral und OLMo 2, bis zu Llama 3.3 70B Q4) und zeigen durch die Singulärwertzerlegung der abgetrennten Jacobi-Matrix, dass diese LLMs in extrem niedrigdimensionalen Unterräumen operieren, in denen viele der größten Singulärvektoren Konzepte dekodieren, die mit dem wahrscheinlichsten Ausgabetoken zusammenhängen. Dieser Ansatz ermöglicht es uns auch, die Operation jeder aufeinanderfolgenden Schicht (sowie ihrer Aufmerksamkeits- und MLP-Komponenten) als nahezu exakte lineare Systeme zu untersuchen und die Entstehung semantischer Konzepte zu beobachten. Trotz ihrer Ausdruckskraft und globalen Nichtlinearität können moderne LLMs durch nahezu exakte lokal lineare Zerlegungen interpretiert werden, die Einblicke in ihre internen Repräsentationen bieten und interpretierbare semantische Strukturen im Next-Token-Vorhersageprozess aufdecken.
Spekulatives Decodieren (SD) ist eine vielversprechende Methode zur Beschleunigung des Decodierungsprozesses von Large Language Models (LLMs). Die Effizienz von SD hängt hauptsächlich von der Konsistenz zwischen dem Entwurfsmodell und dem Verifizierungsmodell ab. Bisherige Ansätze für das Entwerfen erfordern jedoch typischerweise zusätzliche Module, die trainiert werden müssen, was die Implementierung erschwert und die Kompatibilität über verschiedene LLMs hinweg sicherzustellen schwierig macht. In diesem Artikel schlagen wir CLaSp vor, eine In-Context-Layer-Skipping-Strategie für selbstspekulatives Decodieren. Im Gegensatz zu früheren Methoden benötigt CLaSp keine zusätzlichen Entwurfsmodule oder zusätzliches Training. Stattdessen verwendet es einen Plug-and-Play-Mechanismus, indem es Zwischenschichten des Verifizierungsmodells überspringt, um ein komprimiertes Entwurfsmodell zu konstruieren. Insbesondere entwickeln wir einen dynamischen Programmieralgorithmus, der den Layer-Skipping-Prozess optimiert, indem er die vollständigen verborgenen Zustände aus der letzten Verifizierungsphase als Ziel nutzt. Dies ermöglicht es CLaSp, seine Layer-Skipping-Strategie nach jeder Verifizierungsphase dynamisch anzupassen, ohne auf vordefinierte Sätze von übersprungenen Layern angewiesen zu sein. Experimentelle Ergebnisse über verschiedene Downstream-Aufgaben hinweg zeigen, dass CLaSp eine Beschleunigung von 1,3x bis 1,7x auf LLaMA3-Serienmodellen erreicht, ohne die ursprüngliche Verteilung des generierten Textes zu verändern.
Obwohl Chain-of-Thought-Reasoning und Reinforcement Learning (RL) Durchbrüche im Bereich der NLP vorangetrieben haben, bleibt ihre Integration in generative Bildmodelle weitgehend unerforscht. Wir stellen ReasonGen-R1 vor, ein zweistufiges Framework, das zunächst einen autoregressiven Bildgenerator durch überwachtes Feinabstimmen auf einem neu generierten Reasoning-Datensatz mit schriftlichen Begründungen explizite textbasierte „Denkfähigkeiten“ verleiht und anschließend seine Ausgaben mithilfe von Group Relative Policy Optimization verfeinert. Um dem Modell zu ermöglichen, vor der Bildgenerierung durch Text zu argumentieren, generieren und veröffentlichen wir automatisch einen Korpus von modellgestalteten Begründungen, die mit visuellen Prompts gepaart sind. Dies ermöglicht eine kontrollierte Planung von Objektlayouts, Stilen und Szenenkompositionen. Unser GRPO-Algorithmus nutzt Belohnungssignale eines vortrainierten Vision-Language-Modells, um die Gesamtqualität der Bilder zu bewerten und optimiert die Policy bei jedem Update. Bewertungen auf GenEval, DPG und dem T2I-Benchmark zeigen, dass ReasonGen-R1 durchweg starke Baselines und bisherige State-of-the-Art-Modelle übertrifft. Mehr unter: aka.ms/reasongen.
Das Ziel dieser Arbeit ist es, ein ausgewogenes multimodales Verständnis in audiovisuellen großen Sprachmodellen (AV-LLMs) zu verbessern, indem Modalbias adressiert wird, ohne zusätzliches Training zu erfordern. In aktuellen AV-LLMs werden Audio- und Videomerkmale typischerweise gemeinsam im Decoder verarbeitet. Während diese Strategie ein einheitliches multimodales Verständnis erleichtert, kann sie Modalbias einführen, bei dem das Modell aufgrund unausgewogener Trainingssignale dazu neigt, sich übermäßig auf eine Modalität zu verlassen. Um dies zu mildern, schlagen wir Fork-Merge Decoding (FMD) vor, eine einfache, aber effektive Inferenzzeit-Strategie, die kein zusätzliches Training oder architektonische Änderungen erfordert. FMD führt zunächst modalitätsspezifisches Reasoning durch, indem ausschließlich Audio- und ausschließlich Video-Eingaben durch die frühen Decoder-Schichten verarbeitet werden (eine Fork-Phase), und fusioniert dann die resultierenden verborgenen Zustände für gemeinsames Reasoning in den verbleibenden Schichten (eine Merge-Phase). Dieser Ansatz fördert ausgewogene Modalitätsbeiträge und nutzt komplementäre Informationen über die Modalitäten hinweg. Wir evaluieren unsere Methode an zwei repräsentativen AV-LLMs, VideoLLaMA2 und video-SALMONN, unter Verwendung von drei Benchmark-Datensätzen. Die experimentellen Ergebnisse zeigen konsistente Leistungsverbesserungen bei Aufgaben, die sich auf Audio-, Video- und kombinierte audiovisuelle Reasoning konzentrieren, und demonstrieren die Wirksamkeit von Inferenzzeit-Interventionen für robustes multimodales Verständnis.
Jüngste Fortschritte in der Modell-Distillation zeigen, dass Daten von fortschrittlichen Reasoning-Modellen (z. B. DeepSeek-R1, OpenAI's o1) komplexe Reasoning-Fähigkeiten effektiv auf kleinere, effiziente Schülermodelle übertragen können. Standardpraktiken verwenden jedoch Rejection Sampling, bei dem falsche Reasoning-Beispiele verworfen werden – wertvolle, aber oft ungenutzte Daten. Diese Arbeit behandelt die kritische Frage: Wie können sowohl positive als auch negative destillierte Reasoning-Spuren effektiv genutzt werden, um die Reasoning-Leistung von LLMs in einem Offline-Setting zu maximieren? Zu diesem Zweck schlagen wir Reinforcement Distillation (REDI) vor, ein zweistufiges Framework. Stufe 1 lernt aus positiven Spuren durch Supervised Fine-Tuning (SFT). Stufe 2 verfeinert das Modell weiter unter Verwendung sowohl positiver als auch negativer Spuren durch unser vorgeschlagenes REDI-Ziel. Dieses neuartige Ziel ist eine einfache, referenzfreie Verlustfunktion, die etablierte Methoden wie DPO und SimPO in diesem Distillationskontext übertrifft. Unsere empirischen Auswertungen demonstrieren die Überlegenheit von REDI gegenüber Baseline-Rejection-Sampling-SFT oder SFT in Kombination mit DPO/SimPO bei mathematischen Reasoning-Aufgaben. Bemerkenswert ist, dass das Qwen-REDI-1.5B-Modell, das nach dem Training mit nur 131k positiven und negativen Beispielen aus dem offenen Open-R1-Datensatz trainiert wurde, eine Punktzahl von 83,1 % auf MATH-500 (pass@1) erreicht. Seine Leistung entspricht oder übertrifft die von DeepSeek-R1-Distill-Qwen-1.5B (ein Modell, das mit 800k proprietären Daten nachtrainiert wurde) über verschiedene mathematische Reasoning-Benchmarks hinweg und setzt damit einen neuen Maßstab für 1,5B-Modelle, die offline mit öffentlich verfügbaren Daten nachtrainiert wurden.
Wir präsentieren DexUMI – ein Framework zur Datenerfassung und Politik-Lernstrategie, das die menschliche Hand als natürliche Schnittstelle nutzt, um geschickte Manipulationsfähigkeiten auf verschiedene Roboterhände zu übertragen. DexUMI umfasst Hardware- und Software-Anpassungen, um den Verkörperungsunterschied zwischen der menschlichen Hand und verschiedenen Roboterhänden zu minimieren. Die Hardware-Anpassung überbrückt den kinematischen Unterschied durch den Einsatz eines tragbaren Hand-Exoskeletts. Dies ermöglicht direktes haptisches Feedback bei der Datenerfassung von Manipulationen und passt menschliche Bewegungen an realisierbare Roboterhandbewegungen an. Die Software-Anpassung überbrückt den visuellen Unterschied, indem die menschliche Hand in Videodaten durch hochwertige Robotereingaben ersetzt wird. Wir demonstrieren die Fähigkeiten von DexUMI durch umfangreiche reale Experimente auf zwei verschiedenen Plattformen für geschickte Roboterhände und erreichen dabei eine durchschnittliche Aufgaben-Erfolgsrate von 86 %.
Multimodale große Sprachmodelle (MLLMs) haben bemerkenswerte Leistungen bei komplexen Aufgaben mit multimodalem Kontext erzielt. Es ist jedoch noch unzureichend erforscht, ob sie eine Modalitätspräferenz aufweisen, wenn sie multimodale Kontexte verarbeiten. Um diese Frage zu untersuchen, haben wir zunächst einen MC\textsuperscript{2}-Benchmark unter kontrollierten Evidenzkonfliktszenarien entwickelt, um systematisch die Modalitätspräferenz zu bewerten, d.h. die Tendenz, eine Modalität gegenüber einer anderen zu bevorzugen, wenn Entscheidungen auf der Grundlage von multimodalem widersprüchlichem Kontext getroffen werden. Unsere umfangreiche Auswertung zeigt, dass alle 18 getesteten MLLMs im Allgemeinen eine deutliche Modalitätsverzerrung aufweisen und dass die Modalitätspräferenz durch externe Eingriffe beeinflusst werden kann. Eine vertiefte Analyse zeigt, dass die Präferenzrichtung innerhalb der latenten Repräsentationen der MLLMs erfasst werden kann. Aufbauend darauf schlagen wir eine Methode zur Untersuchung und Steuerung basierend auf Repräsentationsengineering vor, um die Modalitätspräferenz explizit zu kontrollieren, ohne zusätzliches Fine-Tuning oder sorgfältig gestaltete Prompts. Unsere Methode verstärkt effektiv die Modalitätspräferenz in eine gewünschte Richtung und eignet sich für nachgelagerte Aufgaben wie die Minderung von Halluzinationen und multimodale maschinelle Übersetzung, wodurch vielversprechende Verbesserungen erzielt werden.
Role-Playing Language Agents (RPLAs) zielen darauf ab, Charaktere für realistische und ansprechende Mensch-Computer-Interaktionen zu simulieren. Traditionelle Belohnungsmodelle haben jedoch oft Schwierigkeiten mit Skalierbarkeit und der Anpassung an subjektive Konversationspräferenzen. Wir schlagen ChARM vor, ein Character-based Act-adaptive Reward Model, das diese Herausforderungen durch zwei Innovationen adressiert: (1) einen aktadaptiven Rand, der die Lerneffizienz und Generalisierbarkeit erheblich verbessert, und (2) einen Selbstentwicklungsmechanismus, der groß angelegte unmarkierte Daten nutzt, um die Trainingsabdeckung zu verbessern. Zusätzlich führen wir RoleplayPref ein, den ersten groß angelegten Präferenzdatensatz speziell für RPLAs, der 1.108 Charaktere, 13 Unterkategorien und 16.888 zweisprachige Dialoge umfasst, sowie RoleplayEval, ein spezielles Evaluierungsbenchmark. Experimentelle Ergebnisse zeigen eine Verbesserung von 13 % gegenüber dem konventionellen Bradley-Terry-Modell in der Präferenzrangfolge. Darüber hinaus erzielt die Anwendung von ChARM-generierten Belohnungen auf Präferenzlernverfahren (z. B. Direct Preference Optimization) state-of-the-art Ergebnisse auf CharacterEval und RoleplayEval. Code und Datensatz sind verfügbar unter https://github.com/calubkk/ChARM.
Große Sprachmodelle (LLMs) zeigen eine bemerkenswerte Fähigkeit, Personas anzunehmen und in Rollenspiele einzutreten. Die Bewertung dieser Fähigkeit stellt jedoch erhebliche Herausforderungen dar, da menschliche Bewertungen ressourcenintensiv sind und automatisierte Bewertungen voreingenommen sein können. Um dies zu adressieren, führen wir Role-Playing Eval (RPEval) ein, einen neuartigen Benchmark, der darauf abzielt, die Rollenspielfähigkeiten von LLMs in vier Schlüsseldimensionen zu bewerten: emotionales Verständnis, Entscheidungsfindung, moralische Ausrichtung und Charaktertreue. Dieser Artikel beschreibt die Konstruktion von RPEval und präsentiert Baseline-Bewertungen. Unser Code und Datensatz sind unter https://github.com/yelboudouri/RPEval verfügbar.
Während Skalierungsgesetze die natürliche Sprachverarbeitung und die Computer Vision revolutioniert haben, steht das Verständnis von 3D-Punktwolken noch nicht auf dieser Stufe. Dies lässt sich sowohl auf den vergleichsweise geringeren Umfang von 3D-Datensätzen als auch auf die unterschiedlichen Quellen der Daten selbst zurückführen. Punktwolken werden von verschiedenen Sensoren (z. B. Tiefenkameras, LiDAR) in unterschiedlichen Domänen (z. B. Innenräume, Außenbereiche) erfasst, wobei jede Domäne einzigartige Scanmuster, Abtastdichten und semantische Verzerrungen einführt. Solche Domänenheterogenität stellt ein großes Hindernis für das Training einheitlicher Modelle im großen Maßstab dar, insbesondere unter der realistischen Einschränkung, dass Domänenlabels zum Zeitpunkt der Inferenz typischerweise nicht zugänglich sind. In dieser Arbeit schlagen wir Point-MoE vor, eine Mixture-of-Experts-Architektur, die darauf abzielt, eine groß angelegte, domänenübergreifende Generalisierung in der 3D-Wahrnehmung zu ermöglichen. Wir zeigen, dass Standard-Backbones für Punktwolken bei der Verwendung von gemischten Domänendaten erheblich an Leistung einbüßen, während Point-MoE mit einer einfachen Top-k-Routing-Strategie Experten automatisch spezialisieren kann, selbst ohne Zugriff auf Domänenlabels. Unsere Experimente demonstrieren, dass Point-MoE nicht nur starke Multi-Domänen-Baselines übertrifft, sondern auch besser auf unbekannte Domänen generalisiert. Diese Arbeit zeigt einen skalierbaren Weg für das 3D-Verständnis auf: Das Modell lässt Strukturen in diversen 3D-Daten entdecken, anstatt sie durch manuelle Kuratierung oder Domänenaufsicht vorzugeben.
Jüngste Fortschritte in der Testzeitoptimierung haben zu bemerkenswerten Fähigkeiten in der Argumentation von Large Language Models (LLMs) geführt, die es ihnen ermöglichen, hochkomplexe Probleme in Mathematik und Programmierung zu lösen. Die Argumentationsfähigkeiten von multimodalen LLMs (MLLMs) liegen jedoch noch deutlich zurück, insbesondere bei komplexen Video-Sprache-Aufgaben. Um dieses Problem zu lösen, stellen wir SiLVR vor, ein einfaches sprachbasiertes Video-Argumentationsframework, das das komplexe Video-Verständnis in zwei Stufen zerlegt. In der ersten Stufe transformiert SiLVR Rohvideos in sprachbasierte Darstellungen unter Verwendung multisensorischer Eingaben wie kurzer Clip-Beschreibungen und Audio/Sprach-Untertitel. In der zweiten Stufe werden die Sprachbeschreibungen in ein leistungsstarkes Argumentations-LLM eingespeist, um komplexe Video-Sprache-Verständnisaufgaben zu lösen. Um lange Kontexte multisensorischer Eingaben zu verarbeiten, verwenden wir ein adaptives Token-Reduktionsschema, das die zeitliche Granularität für die Token-Abtastung dynamisch bestimmt. Unser einfaches, modulares und trainingsfreies Video-Argumentationsframework erzielt die besten berichteten Ergebnisse auf Video-MME (lang), Video-MMMU (Verständnis), Video-MMLU, CGBench und EgoLife. Darüber hinaus zeigt unsere empirische Studie zu Video-Argumentationsfähigkeiten, dass starke Argumentations-LLMs, obwohl sie nicht explizit auf Video trainiert wurden, effektiv multisensorische Eingabeinformationen aus Video, Sprache und Audio für komplexe zeitliche, kausale, langfristige und Wissenserwerbs-Argumentationsaufgaben in Videos aggregieren können. Der Code ist verfügbar unter https://github.com/CeeZh/SILVR.
In einer Ära exponentiellen wissenschaftlichen Fortschritts ist die Identifizierung neuartiger Forschungsideen in der akademischen Welt entscheidend und zugleich herausfordernd. Trotz des Potenzials behindert das Fehlen eines geeigneten Benchmark-Datensatzes die Forschung zur Erkennung von Neuartigkeit. Noch wichtiger ist, dass die einfache Übernahme bestehender NLP-Technologien, wie z. B. das Abrufen und anschließende Kreuzprüfen, aufgrund der Lücke zwischen textueller Ähnlichkeit und Ideenkonzeption keine universelle Lösung darstellt. In diesem Artikel schlagen wir vor, große Sprachmodelle (LLMs) für die wissenschaftliche Erkennung von Neuartigkeit (Novelty Detection, ND) zu nutzen, verbunden mit zwei neuen Datensätzen aus den Bereichen Marketing und NLP. Um angemessene Datensätze für ND zu erstellen, schlagen wir vor, Abschlussmengen von Arbeiten basierend auf ihren Beziehungen zu extrahieren und dann ihre Hauptideen mithilfe von LLMs zusammenzufassen. Um die Ideenkonzeption zu erfassen, schlagen wir vor, einen leichtgewichtigen Retriever zu trainieren, indem das Ideenwissen von LLMs destilliert wird, um Ideen mit ähnlicher Konzeption auszurichten, was eine effiziente und genaue Ideenabfrage für die ND durch LLMs ermöglicht. Experimente zeigen, dass unsere Methode auf den vorgeschlagenen Benchmark-Datensätzen für die Ideenabfrage und ND-Aufgaben durchweg besser abschneidet als andere. Codes und Daten sind verfügbar unter https://anonymous.4open.science/r/NoveltyDetection-10FB/.
Contrastive Language-Image Pre-training (CLIP) hat sich als ein Grundlagenmodell etabliert und wird in verschiedenen visuellen und multimodalen Aufgaben eingesetzt. Jüngste Arbeiten zeigen jedoch, dass CLIP Schwierigkeiten hat, detaillierte Unterschiede in Bildern zu erkennen, und bei dicht vorhergesagten sowie visuell zentrierten multimodalen Aufgaben suboptimale Leistungen erbringt. Daher konzentriert sich diese Arbeit darauf, bestehende CLIP-Modelle zu verbessern, mit dem Ziel, möglichst viele visuelle Details in Bildern zu erfassen. Wir stellen fest, dass eine spezielle Art von generativen Modellen, unCLIP, einen geeigneten Rahmen bietet, um dieses Ziel zu erreichen. Konkret trainiert unCLIP einen Bildgenerator, der auf der CLIP-Bildeinbettung basiert. Mit anderen Worten, es invertiert den CLIP-Bildencoder. Im Vergleich zu diskriminativen Modellen wie CLIP sind generative Modelle besser darin, Bilddetails zu erfassen, da sie darauf trainiert sind, die Datenverteilung von Bildern zu lernen. Darüber hinaus stimmt der bedingte Eingaberaum von unCLIP mit dem ursprünglichen Bild-Text-Einbettungsraum von CLIP überein. Daher schlagen wir vor, unCLIP zu invertieren (bezeichnet als un^2CLIP), um das CLIP-Modell zu verbessern. Auf diese Weise kann der verbesserte Bildencoder die Fähigkeit von unCLIP zur Erfassung visueller Details erlangen, während gleichzeitig die Ausrichtung mit dem ursprünglichen Textencoder erhalten bleibt. Wir evaluieren unser verbessertes CLIP in verschiedenen Aufgaben, für die CLIP eingesetzt wurde, darunter die anspruchsvolle MMVP-VLM-Benchmark, die dicht vorhergesagte Open-Vocabulary-Segmentierungsaufgabe und multimodale Aufgaben mit großen Sprachmodellen. Experimente zeigen, dass un^2CLIP das ursprüngliche CLIP und frühere CLIP-Verbesserungsmethoden deutlich übertrifft. Code und Modelle werden unter https://github.com/LiYinqi/un2CLIP verfügbar sein.
Große Sprachmodelle (LLMs) wie GPT-4o können eine Vielzahl komplexer Aufgaben bewältigen, wenn sie mit dem richtigen Prompt versehen werden. Da die Kosten pro Token sinken, könnten die Vorteile des Feinabstimmens kleiner Sprachmodelle (SLMs) für reale Anwendungen – schnellere Inferenz, geringere Kosten – nicht mehr eindeutig sein. In dieser Arbeit präsentieren wir Belege dafür, dass SLMs bei domänenspezifischen Aufgaben, die strukturierte Ausgaben erfordern, immer noch einen Qualitätsvorteil haben. Wir vergleichen das Feinabstimmen eines SLM mit dem Prompting von LLMs bei der Aufgabe, Low-Code-Workflows in JSON-Form zu generieren. Wir beobachten, dass ein guter Prompt zwar vernünftige Ergebnisse liefern kann, das Feinabstimmen die Qualität jedoch durchschnittlich um 10 % verbessert. Außerdem führen wir eine systematische Fehleranalyse durch, um die Grenzen der Modelle aufzuzeigen.
Große Sprachmodelle (LLMs) haben bemerkenswertes Potenzial gezeigt, bleiben jedoch eine Herausforderung, wenn es darum geht, sie durch traditionelles Feinabstimmen kontinuierlich zu verbessern, insbesondere bei der Integration von Fähigkeiten aus anderen spezialisierten LLMs. Beliebte Methoden wie Ensemble-Ansätze und Gewichtsvereinigung erfordern erheblichen Speicher und haben Schwierigkeiten, sich an sich verändernde Datenumgebungen anzupassen. Jüngste Bemühungen haben Wissen aus mehreren LLMs in ein einzelnes Zielmodell übertragen; jedoch leiden sie unter Interferenzen und einer Verschlechterung der Leistung bei verschiedenen Aufgaben, was größtenteils auf die begrenzte Flexibilität bei der Auswahl von Kandidaten und den Trainingspipeline zurückzuführen ist. Um diese Probleme zu lösen, schlagen wir ein Framework vor, das adaptiv Wissen aus verschiedenen LLMs auswählt und aggregiert, um ein einzelnes, stärkeres Modell zu erstellen, das den hohen Speicheraufwand von Ensemble-Methoden und die unflexible Gewichtsvereinigung vermeidet. Konkret entwerfen wir ein adaptives Auswahlnetzwerk, das die relevantesten Quell-LLMs basierend auf ihren Bewertungen identifiziert und dadurch Wissensinterferenzen reduziert. Weiterhin schlagen wir eine dynamische gewichtete Fusionsstrategie vor, die die inhärenten Stärken der Kandidaten-LLMs berücksichtigt, sowie eine feedbackgesteuerte Verlustfunktion, die verhindert, dass der Selektor auf eine einzelne Teilmenge von Quellen konvergiert. Experimentelle Ergebnisse zeigen, dass unsere Methode einen stabileren und skalierbareren Wissensaggregationsprozess ermöglicht und gleichzeitig Wissensinterferenzen um bis zu 50 % im Vergleich zu bestehenden Ansätzen reduziert. Der Code ist verfügbar unter https://github.com/ZLKong/LLM_Integration.
Die Rolle versteckter Einheiten in rekurrenten neuronalen Netzen wird typischerweise als Modellierung von Gedächtnis betrachtet, wobei sich die Forschung auf die Verbesserung der Informationsspeicherung durch Gating-Mechanismen konzentriert. Eine weniger erforschte Perspektive betrachtet versteckte Einheiten als aktive Teilnehmer an der vom Netzwerk durchgeführten Berechnung, anstatt als passive Speicher. In dieser Arbeit untersuchen wir bilineare Operationen neu, bei denen multiplikative Interaktionen zwischen versteckten Einheiten und Eingabe-Embeddings stattfinden. Wir zeigen theoretisch und empirisch, dass sie eine natürliche induktive Verzerrung für die Darstellung der Entwicklung von versteckten Zuständen in Zustandsverfolgungsaufgaben darstellen. Dies sind die einfachsten Aufgaben, die verlangen, dass versteckte Einheiten aktiv zum Verhalten des Netzwerks beitragen. Wir zeigen auch, dass bilineare Zustandsaktualisierungen eine natürliche Hierarchie bilden, die Zustandsverfolgungsaufgaben mit zunehmender Komplexität entspricht, wobei beliebte lineare rekurrente Netzwerke wie Mamba im Zentrum dieser Hierarchie mit der geringsten Komplexität angesiedelt sind.
Große Sprachmodelle (LLMs) zeichnen sich in verschiedenen Aufgaben der natürlichen Sprachverarbeitung aus, bleiben jedoch anfällig für die Erzeugung schädlicher Inhalte oder die Ausnutzung zu bösartigen Zwecken. Obwohl Sicherheitsausrichtungsdatensätze eingeführt wurden, um solche Risiken durch überwachtes Fein-Tuning (SFT) zu mindern, bieten diese Datensätze oft keine umfassende Risikoabdeckung. Die meisten bestehenden Datensätze konzentrieren sich hauptsächlich auf lexikalische Vielfalt, während andere kritische Dimensionen vernachlässigt werden. Um diese Einschränkung zu überwinden, schlagen wir ein neuartiges Analyseframework vor, das die Risikoabdeckung von Ausrichtungsdatensätzen systematisch über drei wesentliche Dimensionen misst: Lexikalische Vielfalt, Bösartige Absicht und Jailbreak-Taktiken. Darüber hinaus stellen wir TRIDENT vor, eine automatisierte Pipeline, die persona-basierte, Zero-Shot-LLM-Generierung nutzt, um vielfältige und umfassende Anweisungen zu erzeugen, die diese Dimensionen abdecken. Jede schädliche Anweisung wird mit einer ethisch ausgerichteten Antwort gepaart, was zu zwei Datensätzen führt: TRIDENT-Core, bestehend aus 26.311 Beispielen, und TRIDENT-Edge, mit 18.773 Beispielen. Das Fein-Tuning von Llama 3.1-8B auf TRIDENT-Edge zeigt erhebliche Verbesserungen, mit einer durchschnittlichen Reduzierung des Harm Score um 14,29 % und einer 20 %igen Verringerung der Angriffserfolgsrate im Vergleich zum besten Baseline-Modell, das auf dem WildBreak-Datensatz feinabgestimmt wurde.
Semantische Textähnlichkeit (Semantic Textual Similarity, STS) ist eine entscheidende Aufgabe in der natürlichen Sprachverarbeitung (Natural Language Processing, NLP), die Anwendungen in den Bereichen Retrieval, Clustering und dem Verständnis semantischer Beziehungen zwischen Texten ermöglicht. Die Forschung in diesem Bereich für die arabische Sprache bleibt jedoch aufgrund des Mangels an hochwertigen Datensätzen und vortrainierten Modellen begrenzt. Diese Ressourcenknappheit hat die genaue Bewertung und Weiterentwicklung der semantischen Ähnlichkeit in arabischen Texten eingeschränkt. Dieses Papier stellt General Arabic Text Embedding (GATE)-Modelle vor, die Spitzenleistungen bei der Aufgabe der semantischen Textähnlichkeit innerhalb des MTEB-Benchmarks erzielen. GATE nutzt Matryoshka Representation Learning und einen hybriden Verlusttrainingsansatz mit arabischen Triplett-Datensätzen für Natural Language Inference, die entscheidend sind, um die Modellleistung bei Aufgaben zu verbessern, die ein feinkörniges semantisches Verständnis erfordern. GATE übertrifft größere Modelle, einschließlich OpenAI, mit einer Leistungssteigerung von 20-25 % auf STS-Benchmarks und erfasst effektiv die einzigartigen semantischen Nuancen des Arabischen.
Große Sprachmodelle (LLMs) zeigen bemerkenswertes Potenzial, automatisierte Schlussfolgerungen durch die Generierung formaler Spezifikationen zu demokratisieren. Allerdings besteht ein grundlegender Widerspruch: LLMs sind probabilistisch, während formale Verifizierung deterministische Garantien erfordert. Diese Arbeit adressiert diese erkenntnistheoretische Lücke, indem sie systematisch Fehlermodi und Unsicherheitsquantifizierung (UQ) in LLM-generierten formalen Artefakten untersucht. Unsere systematische Auswertung von fünf führenden LLMs zeigt den domänenspezifischen Einfluss der Satisfiability Modulo Theories (SMT)-basierten Autoformalisation auf die Genauigkeit (von +34,8 % bei logischen Aufgaben bis -44,5 % bei faktischen), wobei bekannte UQ-Techniken wie die Entropie der Token-Wahrscheinlichkeiten diese Fehler nicht identifizieren können. Wir führen ein probabilistisches kontextfreies Grammatik (PCFG)-Framework ein, um LLM-Ausgaben zu modellieren, was zu einer verfeinerten Unsicherheitstaxonomie führt. Wir stellen fest, dass Unsicherheitssignale aufgabenabhängig sind (z. B. Grammatikentropie für Logik, AUROC>0,93). Schließlich ermöglicht eine leichte Fusion dieser Signale eine selektive Verifizierung, die Fehler drastisch reduziert (14-100 %) bei minimaler Zurückhaltung und verwandelt die LLM-gestützte Formalisierung in eine zuverlässige Ingenieursdisziplin.
KI-Agenten werden zunehmend in kundenorientierten Anwendungen eingesetzt, um bei Aufgaben wie Produktsuche, Verhandlung und Transaktionsabwicklung zu unterstützen. In diesem Artikel untersuchen wir ein Zukunftsszenario, in dem sowohl Verbraucher als auch Händler KI-Agenten autorisieren, Verhandlungen und Transaktionen vollständig zu automatisieren. Wir möchten zwei zentrale Fragen beantworten: (1) Unterscheiden sich verschiedene LLM-Agenten in ihrer Fähigkeit, vorteilhafte Geschäfte für Nutzer zu erzielen? (2) Welche Risiken entstehen durch die vollständige Automatisierung von Geschäftsabschlüssen mit KI-Agenten in Verbrauchermärkten? Um diese Fragen zu beantworten, entwickeln wir ein experimentelles Framework, das die Leistung verschiedener LLM-Agenten in realen Verhandlungs- und Transaktionsszenarien bewertet. Unsere Ergebnisse zeigen, dass KI-vermittelte Geschäftsabschlüsse ein inhärent unausgewogenes Spiel sind – verschiedene Agenten erzielen deutlich unterschiedliche Ergebnisse für ihre Nutzer. Darüber hinaus können Verhaltensanomalien in LLMs zu finanziellen Verlusten sowohl für Verbraucher als auch für Händler führen, wie beispielsweise übermäßige Ausgaben oder die Annahme unangemessener Angebote. Diese Ergebnisse unterstreichen, dass Automatisierung zwar die Effizienz steigern kann, aber auch erhebliche Risiken mit sich bringt. Nutzer sollten Vorsicht walten lassen, wenn sie Geschäftsentscheidungen an KI-Agenten delegieren.
Die aufkommenden Fähigkeiten großer Sprachmodelle (LLMs) haben Bedenken hinsichtlich ihres unmittelbaren Potenzials für schädlichen Missbrauch geweckt. Der Kernansatz zur Minderung dieser Bedenken ist die Erkennung schädlicher Anfragen an das Modell. Aktuelle Erkennungsansätze sind fehleranfällig und besonders anfällig für Angriffe, die eine ungleiche Generalisierung der Modellfähigkeiten ausnutzen (z. B. Prompts in ressourcenarmen Sprachen oder Prompts, die in nicht-textuellen Modalitäten wie Bild und Audio bereitgestellt werden). Um diese Herausforderung zu bewältigen, schlagen wir OMNIGUARD vor, einen Ansatz zur Erkennung schädlicher Prompts über Sprachen und Modalitäten hinweg. Unser Ansatz (i) identifiziert interne Repräsentationen eines LLM/MLLM, die über Sprachen oder Modalitäten hinweg ausgerichtet sind, und (ii) verwendet diese, um einen sprach- oder modalitätsunabhängigen Klassifikator zur Erkennung schädlicher Prompts zu erstellen. OMNIGUARD verbessert die Genauigkeit der Klassifikation schädlicher Prompts um 11,57\% gegenüber der stärksten Baseline in einer mehrsprachigen Umgebung, um 20,44\% für bildbasierte Prompts und setzt einen neuen State-of-the-Art (SOTA) für audiobasierte Prompts. Durch die Wiederverwendung von Embeddings, die während der Generierung berechnet werden, ist OMNIGUARD auch sehr effizient (etwa 120 Mal schneller als die nächstschnellste Baseline). Code und Daten sind verfügbar unter: https://github.com/vsahil/OmniGuard.
Legal Case Retrieval (LCR), bei dem relevante Fälle anhand eines Abfragefalls ermittelt werden, ist eine grundlegende Aufgabe für juristische Fachkräfte in Forschung und Entscheidungsfindung. Bestehende Studien zu LCR weisen jedoch zwei wesentliche Einschränkungen auf. Erstens werden sie auf relativ kleinen Retrieval-Korpora (z. B. 100–55.000 Fälle) evaluiert und verwenden eine begrenzte Bandbreite von strafrechtlichen Abfragetypen, was die Komplexität realer juristischer Retrieval-Szenarien nicht ausreichend widerspiegelt. Zweitens führt ihre Abhängigkeit von Embedding-basierten oder lexikalischen Matching-Methoden oft zu begrenzten Repräsentationen und juristisch irrelevanten Übereinstimmungen. Um diese Probleme zu lösen, präsentieren wir: (1) LEGAR BENCH, den ersten groß angelegten koreanischen LCR-Benchmark, der 411 verschiedene Straftattypen in Abfragen über 1,2 Millionen juristische Fälle abdeckt; und (2) LegalSearchLM, ein Retrieval-Modell, das eine juristische Elementanalyse des Abfragefalls durchführt und durch eingeschränkte Dekodierung inhaltsbasierte, zielgerichtete Inhalte direkt generiert. Experimentelle Ergebnisse zeigen, dass LegalSearchLM die Baselines auf LEGAR BENCH um 6–20 % übertrifft und damit Spitzenleistungen erzielt. Es zeigt auch eine starke Generalisierungsfähigkeit bei Fällen außerhalb des Trainingsbereichs und übertrifft naive generative Modelle, die auf domänenspezifischen Daten trainiert wurden, um 15 %.
Eine Einschränkung moderner Methoden zur Einbettung von Dokumenten zur Informationsbeschaffung besteht darin, dass sie Passagen (Abschnitte) aus denselben Dokumenten typischerweise unabhängig voneinander kodieren, wodurch häufig entscheidende kontextuelle Informationen aus dem restlichen Dokument übersehen werden, die die Darstellung einzelner Abschnitte erheblich verbessern könnten. In dieser Arbeit stellen wir ConTEB (Context-aware Text Embedding Benchmark) vor, einen Benchmark, der entwickelt wurde, um Retrieval-Modelle hinsichtlich ihrer Fähigkeit zu bewerten, dokumentweite Kontexte zu nutzen. Unsere Ergebnisse zeigen, dass state-of-the-art Einbettungsmodelle in Retrieval-Szenarien, die Kontext erfordern, Schwierigkeiten haben. Um diese Einschränkung zu überwinden, schlagen wir InSeNT (In-sequence Negative Training) vor, einen neuartigen kontrastiven Nachtrainierungsansatz, der in Kombination mit spätem Chunking-Pooling das kontextuelle Repräsentationslernen verbessert, während die Recheneffizienz erhalten bleibt. Unsere Methode verbessert die Retrieval-Qualität auf ConTEB signifikant, ohne die Leistung des Basismodells zu beeinträchtigen. Wir stellen außerdem fest, dass Abschnitte, die mit unserer Methode eingebettet wurden, robuster gegenüber suboptimalen Chunking-Strategien und größeren Retrieval-Korpusgrößen sind. Wir stellen alle Artefakte unter https://github.com/illuin-tech/contextual-embeddings als Open Source zur Verfügung.
Dieses Papier präsentiert eine umfassende Analyse der linguistischen Vielfalt in der Sicherheitsforschung zu großen Sprachmodellen (LLMs) und hebt den englischzentrierten Charakter des Feldes hervor. Durch eine systematische Überprüfung von fast 300 Publikationen aus den Jahren 2020–2024, die auf großen NLP-Konferenzen und Workshops der *ACL veröffentlicht wurden, identifizieren wir eine signifikante und wachsende Sprachlücke in der LLM-Sicherheitsforschung, wobei sogar hochressourcenreiche Nicht-Englisch-Sprachen nur minimal Beachtung finden. Wir stellen weiterhin fest, dass Nicht-Englisch-Sprachen selten als eigenständige Sprachen untersucht werden und dass die englischsprachige Sicherheitsforschung eine schlechte Praxis in der Sprachdokumentation aufweist. Um zukünftige Forschung zur mehrsprachigen Sicherheit zu motivieren, geben wir mehrere Empfehlungen basierend auf unserer Untersuchung und formulieren drei konkrete zukünftige Richtungen für die Sicherheitsbewertung, die Generierung von Trainingsdaten und die crosslinguale Sicherheitsverallgemeinerung. Basierend auf unserer Untersuchung und den vorgeschlagenen Richtungen kann das Feld robustere und inklusivere KI-Sicherheitspraktiken für diverse globale Bevölkerungsgruppen entwickeln.