Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle (LLMs) haben ihren Einfluss über die Verarbeitung natürlicher Sprache hinaus erweitert und die Entwicklung interdisziplinärer Forschung erheblich gefördert. In jüngster Zeit wurden verschiedene LLM-basierte Agenten entwickelt, um den Fortschritt der wissenschaftlichen Entdeckung in vielfältigen Aspekten und Domänen zu unterstützen. Unter diesen ebnen Computer nutzende Agenten, die in der Lage sind, mit Betriebssystemen zu interagieren wie Menschen, den Weg zur automatisierten Lösung wissenschaftlicher Probleme und zur Bewältigung von Routinen in den Arbeitsabläufen von Forschern. In Anerkennung des transformativen Potenzials dieser Agenten stellen wir ScienceBoard vor, das zwei komplementäre Beiträge umfasst: (i) eine realistische, multidisziplinäre Umgebung mit dynamischen und visuell ansprechenden wissenschaftlichen Arbeitsabläufen und integrierter professioneller Software, in der Agenten autonom über verschiedene Schnittstellen interagieren können, um komplexe Forschungsaufgaben und Experimente zu beschleunigen; und (ii) einen anspruchsvollen Benchmark mit 169 hochwertigen, rigoros validierten realen Aufgaben, die von Menschen kuratiert wurden und wissenschaftliche Entdeckungsprozesse in Domänen wie Biochemie, Astronomie und Geoinformatik abdecken. Umfangreiche Evaluierungen von Agenten mit modernsten Architekturen (z.B. GPT-4o, Claude 3.7, UI-TARS) zeigen, dass sie trotz einiger vielversprechender Ergebnisse noch nicht zuverlässig Wissenschaftler in komplexen Arbeitsabläufen unterstützen können und lediglich eine Gesamterfolgsquote von 15 % erreichen. Eine detaillierte Analyse liefert zudem wertvolle Einblicke in die Bewältigung aktueller Einschränkungen von Agenten und effektivere Designprinzipien, was den Weg für die Entwicklung leistungsfähigerer Agenten für die wissenschaftliche Entdeckung ebnet. Unser Code, die Umgebung und der Benchmark sind unter https://qiushisun.github.io/ScienceBoard-Home/ verfügbar.
Die Erstellung von akademischen Postern ist eine entscheidende, aber herausfordernde Aufgabe in der wissenschaftlichen Kommunikation, da sie die Komprimierung von langen, verschachtelten Dokumenten in eine einzige, visuell kohärente Seite erfordert. Um diese Herausforderung zu bewältigen, führen wir den ersten Benchmark und eine Metrik-Suite für die Postergenerierung ein, die aktuelle Konferenzpapiere mit von Autoren entworfenen Postern kombiniert und die Ergebnisse anhand von (i) Visueller Qualität – semantischer Übereinstimmung mit menschlichen Postern, (ii) Textueller Kohärenz – Sprachflüssigkeit, (iii) Ganzheitlicher Bewertung – sechs fein abgestuften ästhetischen und informativen Kriterien, die von einem VLM (Vision-Language Model) bewertet werden, und insbesondere (iv) PaperQuiz – der Fähigkeit des Posters, den Kerninhalt des Papiers zu vermitteln, gemessen durch VLMs, die generierte Quizfragen beantworten, evaluiert. Aufbauend auf diesem Benchmark schlagen wir PosterAgent vor, eine Top-Down, visuell-in-the-loop Multi-Agenten-Pipeline: der (a) Parser destilliert das Papier in eine strukturierte Asset-Bibliothek; der (b) Planner ordnet Text-Bild-Paare in einem Binärbaum-Layout an, das die Lesereihenfolge und räumliche Balance bewahrt; und die (c) Painter-Commenter-Schleife verfeinert jedes Panel durch die Ausführung von Rendering-Code und die Nutzung von VLM-Feedback, um Überlauf zu eliminieren und Ausrichtung sicherzustellen. In unserer umfassenden Evaluation stellen wir fest, dass GPT-4o-Ergebnisse – obwohl auf den ersten Blick visuell ansprechend – oft verrauschten Text und schlechte PaperQuiz-Werte aufweisen, und wir finden, dass die Leserbindung der primäre ästhetische Engpass ist, da von Menschen gestaltete Poster weitgehend auf visuelle Semantik angewiesen sind, um Bedeutung zu vermitteln. Unsere vollständig Open-Source-Varianten (z.B. basierend auf der Qwen-2.5-Serie) übertreffen bestehende 4o-gesteuerte Multi-Agenten-Systeme in nahezu allen Metriken, während sie 87 % weniger Tokens verwenden. Es transformiert ein 22-seitiges Papier in ein fertiges, aber editierbares .pptx-Poster – alles für nur $0,005. Diese Ergebnisse weisen klare Richtungen für die nächste Generation vollautomatischer Postergenerierungsmodelle auf. Der Code und die Datensätze sind verfügbar unter https://github.com/Paper2Poster/Paper2Poster.
Logisches Denken ist ein grundlegender Aspekt der menschlichen Intelligenz und eine wesentliche Fähigkeit für multimodale große Sprachmodelle (MLLMs). Trotz erheblicher Fortschritte im Bereich des multimodalen Denkens versagen bestehende Benchmarks bei der umfassenden Bewertung ihrer Denkfähigkeiten, da es an einer expliziten Kategorisierung von logischen Denktypen und einem klaren Verständnis des Denkens mangelt. Um diese Probleme zu lösen, stellen wir MME-Reasoning vor, einen umfassenden Benchmark, der entwickelt wurde, um die Denkfähigkeit von MLLMs zu bewerten und dabei alle drei Denktypen (d. h. induktiv, deduktiv und abduktiv) in seinen Fragen abdeckt. Wir haben die Daten sorgfältig kuratiert, um sicherzustellen, dass jede Frage die Denkfähigkeit effektiv bewertet und nicht Wahrnehmungsfähigkeiten oder Wissensbreite, und haben die Bewertungsprotokolle erweitert, um die Bewertung vielfältiger Fragen abzudecken. Unsere Bewertung zeigt erhebliche Einschränkungen der modernsten MLLMs bei ganzheitlichen Bewertungen der logischen Denkfähigkeiten. Selbst die fortschrittlichsten MLLMs zeigen begrenzte Leistung beim umfassenden logischen Denken, mit bemerkenswerten Leistungsungleichgewichten über die Denktypen hinweg. Darüber hinaus haben wir eine detaillierte Analyse von Ansätzen wie dem „Denkmodus“ und regelbasiertem RL durchgeführt, von denen allgemein angenommen wird, dass sie die Denkfähigkeiten verbessern. Diese Ergebnisse verdeutlichen die kritischen Einschränkungen und Leistungsungleichgewichte aktueller MLLMs in verschiedenen logischen Denkszenarien und bieten umfassende und systematische Einblicke in das Verständnis und die Bewertung von Denkfähigkeiten.
Jüngste Fortschritte wie OpenAI-o1 und DeepSeek R1 haben das Potenzial von Reinforcement Learning (RL) zur Verbesserung der Denkfähigkeiten in großen Sprachmodellen (LLMs) aufgezeigt. Während sich Open-Source-Replikationsbemühungen hauptsächlich auf mathematische und Programmierdomänen konzentriert haben, bleiben Methoden und Ressourcen zur Entwicklung allgemeiner Denkfähigkeiten weitgehend unerforscht. Diese Lücke ist teilweise auf die Herausforderung zurückzuführen, diverse und überprüfbare Denkdaten zu sammeln, die für RL geeignet sind. Wir stellen die Hypothese auf, dass logisches Denken entscheidend für die Entwicklung allgemeiner Denkfähigkeiten ist, da Logik ein grundlegender Baustein des Denkens darstellt. In dieser Arbeit präsentieren wir SynLogic, ein Daten-Synthese-Framework und einen Datensatz, der diverse logische Denkdaten in großem Umfang erzeugt und 35 verschiedene logische Denkaufgaben umfasst. Der SynLogic-Ansatz ermöglicht die kontrollierte Synthese von Daten mit einstellbarem Schwierigkeitsgrad und Menge. Wichtig ist, dass alle Beispiele durch einfache Regeln überprüft werden können, was sie ideal für RL mit überprüfbaren Belohnungen macht. In unseren Experimenten validieren wir die Wirksamkeit des RL-Trainings auf dem SynLogic-Datensatz basierend auf 7B- und 32B-Modellen. SynLogic führt zu einer Spitzenleistung im logischen Denken unter Open-Source-Datensätzen und übertrifft DeepSeek-R1-Distill-Qwen-32B um 6 Punkte auf BBEH. Darüber hinaus verbessert die Mischung von SynLogic-Daten mit mathematischen und Programmieraufgaben die Trainings effizienz dieser Domänen und steigert die Denkverallgemeinerung erheblich. Bemerkenswerterweise übertrifft unser gemischtes Trainingsmodell DeepSeek-R1-Zero-Qwen-32B in mehreren Benchmarks. Diese Ergebnisse positionieren SynLogic als wertvolle Ressource zur Weiterentwicklung der umfassenderen Denkfähigkeiten von LLMs. Wir stellen sowohl die Daten-Synthese-Pipeline als auch den SynLogic-Datensatz unter https://github.com/MiniMax-AI/SynLogic als Open Source zur Verfügung.
Diffusionsmodelle haben die Bildstilisierung erheblich vorangetrieben, doch bestehen weiterhin zwei zentrale Herausforderungen: (1) die Beibehaltung einer konsistenten Stilisierung in komplexen Szenen, insbesondere in Bezug auf Identität, Komposition und feine Details, und (2) die Vermeidung von Stilabbau in Bild-zu-Bild-Pipelines mit Stil-LoRAs. Die außergewöhnliche Stilisierungskonsistenz von GPT-4o verdeutlicht die Leistungslücke zwischen Open-Source-Methoden und proprietären Modellen. Um diese Lücke zu schließen, schlagen wir OmniConsistency vor, ein universelles Konsistenz-Plugin, das großskalige Diffusion Transformers (DiTs) nutzt. OmniConsistency leistet folgende Beiträge: (1) ein In-Context-Konsistenzlernframework, das auf ausgerichteten Bildpaaren trainiert wird, um eine robuste Generalisierung zu ermöglichen; (2) eine zweistufige progressive Lernstrategie, die das Stil-Lernen von der Konsistenzbewahrung entkoppelt, um Stilabbau zu minimieren; und (3) ein vollständig Plug-and-Play-Design, das mit beliebigen Stil-LoRAs unter dem Flux-Framework kompatibel ist. Umfangreiche Experimente zeigen, dass OmniConsistency die visuelle Kohärenz und ästhetische Qualität signifikant verbessert und eine Leistung erreicht, die mit dem kommerziellen State-of-the-Art-Modell GPT-4o vergleichbar ist.
Eine aktuelle Studie zeigte, dass große Sprachmodelle (LLMs) überraschend lange Texte – bis zu Tausende von Tokens – durch autoregressive Generierung aus nur einem speziell trainierten Eingabe-Embedding rekonstruieren können. In dieser Arbeit untersuchen wir, ob eine solche Rekonstruktion ohne Autoregression möglich ist. Wir zeigen, dass eingefrorene LLMs Hunderte von genauen Tokens in nur einem Vorwärtsdurchlauf erzeugen können, wenn sie mit nur zwei gelernten Embeddings versorgt werden. Dies offenbart eine überraschende und bisher wenig erforschte Fähigkeit von LLMs – die Multi-Token-Generierung ohne iteratives Decoding. Wir untersuchen das Verhalten dieser Embeddings und geben Einblicke in die Art der Informationen, die sie kodieren. Wir zeigen empirisch, dass diese Repräsentationen zwar nicht einzigartig für einen bestimmten Text sind, aber zusammenhängende und lokale Regionen im Embedding-Raum bilden – eine Eigenschaft, die das Potenzial nahelegt, einen dedizierten Encoder in diesen Raum zu lernen.
Große Sprachmodelle (LLMs), die auf logisches Schlussfolgern spezialisiert sind, verlassen sich stark auf die Skalierung der Rechenleistung zur Laufzeit, um komplexe Denkaufgaben durch die Erzeugung umfangreicher „Denkketten“ zu bewältigen. Obwohl dieser Ansatz beeindruckende Ergebnisse liefert, verursacht er erhebliche Rechenkosten und längere Inferenzzeiten. In dieser Arbeit stellen wir die Annahme infrage, dass längere Denkketten zu besseren Fähigkeiten im logischen Schlussfolgern führen. Wir zeigen zunächst, dass kürzere Denkketten innerhalb einzelner Fragestellungen signifikant häufiger zu korrekten Antworten führen – bis zu 34,5 % genauer als die längste für dieselbe Frage generierte Kette. Basierend auf diesen Ergebnissen schlagen wir short-m@k vor, eine neuartige Inferenzmethode für schlussfolgernde LLMs. Unser Ansatz führt k unabhängige Generierungen parallel aus und beendet die Berechnung, sobald die ersten m Denkprozesse abgeschlossen sind. Die endgültige Antwort wird durch Mehrheitsentscheidung unter diesen m Ketten ausgewählt. Die einfache Variante short-1@k zeigt eine ähnliche oder sogar überlegene Leistung gegenüber der Standard-Mehrheitsentscheidung in Umgebungen mit geringer Rechenleistung – bei bis zu 40 % weniger verwendeten Denk-Tokens. short-3@k, obwohl etwas weniger effizient als short-1@k, übertrifft die Mehrheitsentscheidung konsistent über alle Rechenbudgets hinweg und ist dennoch deutlich schneller (bis zu 33 % geringere Wandzeit). Inspiriert durch unsere Ergebnisse, finetunen wir ein LLM mit kurzen, langen und zufällig ausgewählten Denkketten. Dabei stellen wir fest, dass das Training mit kürzeren Ketten zu einer besseren Leistung führt. Unsere Ergebnisse legen nahe, die aktuellen Methoden der Rechenleistungsnutzung zur Laufzeit in schlussfolgernden LLMs zu überdenken, und betonen, dass längeres „Denken“ nicht zwangsläufig zu einer verbesserten Leistung führt und kontraintuitiv sogar zu schlechteren Ergebnissen führen kann.
Subject-to-Video (S2V)-Generierung zielt darauf ab, Videos zu erstellen, die Referenzinhalte treu einbeziehen und somit eine verbesserte Flexibilität in der Videoproduktion bieten. Um die Infrastruktur für die S2V-Generierung zu etablieren, schlagen wir OpenS2V-Nexus vor, das aus (i) OpenS2V-Eval, einem feinkörnigen Benchmark, und (ii) OpenS2V-5M, einem Millionen-umfassenden Datensatz, besteht. Im Gegensatz zu bestehenden S2V-Benchmarks, die von VBench übernommen wurden und sich auf globale und grobkörnige Bewertungen generierter Videos konzentrieren, legt OpenS2V-Eval den Fokus auf die Fähigkeit des Modells, subjektkonsistente Videos mit natürlicher Subjektdarstellung und Identitätstreue zu generieren. Zu diesem Zweck führt OpenS2V-Eval 180 Prompts aus sieben Hauptkategorien der S2V ein, die sowohl reale als auch synthetische Testdaten beinhalten. Darüber hinaus schlagen wir drei automatische Metriken vor, NexusScore, NaturalScore und GmeScore, um die Subjektkonsistenz, Natürlichkeit und Textrelevanz in generierten Videos separat zu quantifizieren und so die menschlichen Präferenzen präzise mit den S2V-Benchmarks abzustimmen. Aufbauend darauf führen wir eine umfassende Bewertung von 16 repräsentativen S2V-Modellen durch, die deren Stärken und Schwächen in verschiedenen Inhalten hervorhebt. Zudem erstellen wir den ersten Open-Source-Großdatensatz für die S2V-Generierung, OpenS2V-5M, der aus fünf Millionen hochwertigen 720P-Subjekt-Text-Video-Triplets besteht. Insbesondere stellen wir die Subjektinformationsvielfalt in unserem Datensatz sicher, indem wir (1) Subjekte segmentieren und Paarungsinformationen durch cross-video Assoziationen aufbauen und (2) GPT-Image-1 auf Rohframes anwenden, um multi-view Repräsentationen zu synthetisieren. Durch OpenS2V-Nexus liefern wir eine robuste Infrastruktur, um zukünftige Forschungen zur S2V-Generierung zu beschleunigen.
Test-Time Scaling (TTS)-Methoden zur Verbesserung des logischen Denkens von Large Language Models (LLMs) verursachen oft erhebliche Rechenkosten, hauptsächlich aufgrund der starken Abhängigkeit von externen Process Reward Models (PRMs) oder Sampling-Methoden wie Best-of-N (BoN). Dieses Papier stellt Guided by Gut (GG) vor, ein effizientes, selbstgesteuertes TTS-Framework, das PRM-Level-Leistung ohne kostspielige externe Verifikationsmodelle erreicht. Unsere Methode verwendet eine leichtgewichtige Baumsuche, die ausschließlich durch intrinsische LLM-Signale, Token-Level-Konfidenz und Schritt-Neuheit gesteuert wird. Eine entscheidende Innovation ist die Verbesserung der Zuverlässigkeit interner Konfidenzschätzungen durch eine gezielte Feinabstimmung mittels Reinforcement Learning. Empirische Auswertungen auf anspruchsvollen mathematischen Denkaufgaben zeigen, dass GG kleineren Modellen (z. B. 1,5 Mrd. Parametern) ermöglicht, eine Genauigkeit zu erreichen, die mit oder über der von deutlich größeren Modellen (z. B. 32-70 Mrd. Parametern) liegt, während der GPU-Speicherbedarf um bis zu das 10-fache reduziert wird. Im Vergleich zu PRM-basierten Methoden erreicht GG eine vergleichbare Genauigkeit mit 8-fach schnelleren Inferenzgeschwindigkeiten und 4-5-fach geringerem Speicherbedarf. Darüber hinaus reduziert GG den KV-Cache-Speicherbedarf um etwa 50 % im Vergleich zur BoN-Strategie, was eine effizientere und praktischere Implementierung von TTS-Techniken ermöglicht.
Jüngste Fortschritte bei Multi-Modalen Großen Sprachmodellen (MLLMs) haben die einheitliche Verarbeitung von Sprache, Bildern und strukturierten Eingaben ermöglicht, wodurch komplexe Aufgaben wie logische Deduktion, räumliches Denken und wissenschaftliche Analyse zugänglich geworden sind. Trotz ihres Potenzials sind die Denkfähigkeiten von MLLMs, insbesondere solchen, die mit Zwischengedankenspuren (MLLMs-T) erweitert wurden, noch wenig verstanden und es fehlen standardisierte Bewertungsbenchmarks. Bisherige Arbeiten konzentrieren sich hauptsächlich auf Wahrnehmung oder die Korrektheit der Endantworten und bieten nur begrenzte Einblicke, wie Modelle über verschiedene Modalitäten hinweg denken oder scheitern. Um diese Lücke zu schließen, stellen wir den MMMR vor, einen neuen Benchmark, der darauf abzielt, multi-modales Denken mit expliziten Denkprozessen rigoros zu bewerten. Der MMMR besteht aus 1) einem hochschwierigen Datensatz mit 1.083 Fragen, die sechs verschiedene Denktypen mit symbolischer Tiefe und mehrstufigen Anforderungen abdecken, und 2) einer modularen Reasoning Trace Evaluation Pipeline (RTEP), die die Qualität des Denkens über die Genauigkeit hinaus durch Metriken wie Relevanz, Konsistenz und strukturierte Fehlerannotationen bewertet. Empirische Ergebnisse zeigen, dass MLLMs-T insgesamt besser abschneiden als Modelle ohne Denkprozesse, aber selbst Spitzenmodelle wie Claude-3.7-Sonnet und Gemini-2.5 Pro leiden unter Denkpathologien wie Inkonsistenz und Überdenken. Dieser Benchmark offenbart anhaltende Lücken zwischen Genauigkeit und Denkqualität und bietet eine umsetzbare Bewertungspipeline für die zukünftige Modellentwicklung. Insgesamt bietet der MMMR eine skalierbare Grundlage für die Bewertung, den Vergleich und die Verbesserung der nächsten Generation multi-modaler Denksysteme.
Jüngste Fortschritte bei Large Language Models (LLMs) haben vielversprechende Ergebnisse in der funktionsbasierten Code-Generierung gezeigt, doch repository-basierte Softwareentwicklungsaufgaben bleiben eine Herausforderung. Aktuelle Lösungen stützen sich überwiegend auf proprietäre LLM-Agenten, die Unvorhersehbarkeit mit sich bringen und die Zugänglichkeit einschränken, was Bedenken hinsichtlich Datenschutz und Modellanpassung aufwirft. Diese Arbeit untersucht, ob Open-Source-LLMs repository-basierte Aufgaben effektiv bewältigen können, ohne auf agentenbasierte Ansätze zurückzugreifen. Wir zeigen, dass dies möglich ist, indem LLMs befähigt werden, Funktionen und Dateien innerhalb von Codebasen durch deren semantische Informationen und strukturelle Abhängigkeiten zu verstehen. Zu diesem Zweck führen wir Code Graph Models (CGMs) ein, die Repository-Code-Graph-Strukturen in den Aufmerksamkeitsmechanismus des LLMs integrieren und Knotenattribute mithilfe eines spezialisierten Adapters in den Eingaberaum des LLMs abbilden. In Kombination mit einem agentenlosen Graph-RAG-Framework erreicht unser Ansatz eine Lösungsrate von 43,00 % auf dem SWE-bench Lite Benchmark unter Verwendung des Open-Source-Modells Qwen2.5-72B. Diese Leistung belegt den ersten Platz unter den Open-Weight-Modellen, den zweiten Platz unter den Methoden mit Open-Source-Systemen und den achten Platz insgesamt, womit der bisher beste Open-Source-Modell-basierte Ansatz um 12,33 % übertroffen wird.
Die Anwendung von Reinforcement Learning (RL) auf Video Large Language Models (Video-LLMs) zeigt vielversprechende Ergebnisse für komplexe Videoanalysen. Allerdings sind gängige Reinforcement Fine-Tuning (RFT)-Methoden wie das ergebnisbasierte Group Relative Policy Optimization (GRPO) durch Engpässe bei der Datenvorbereitung (z. B. Rauschen oder hohe Kosten) begrenzt und zeigen instabile Verbesserungen in der Qualität langer Gedankenketten (Chain-of-Thoughts, CoTs) und der nachgelagerten Leistung. Um diese Einschränkungen zu überwinden, schlagen wir VerIPO vor, eine Verifier-gestützte Iterative Policy Optimization-Methode, die darauf abzielt, die Fähigkeit von Video-LLMs zur Generierung tiefer, langfristiger Gedankenketten schrittweise zu verbessern. Die Kernkomponente ist der Rollout-Aware Verifier, der zwischen den GRPO- und Direct Preference Optimization (DPO)-Trainingsphasen positioniert ist, um den GRPO-Verifier-DPO-Trainingszyklus zu bilden. Dieser Verifier nutzt kleine LLMs als Bewertungseinheit, um die Logik der Gedankenketten in Rollouts zu beurteilen, wodurch die Erstellung hochwertiger kontrastiver Daten ermöglicht wird, einschließlich reflektiver und kontextuell konsistenter CoTs. Diese kuratierten Präferenzbeispiele treiben die effiziente DPO-Phase an (7x schneller als GRPO) und führen zu deutlichen Verbesserungen in der Qualität der Gedankenketten, insbesondere in Bezug auf Länge und kontextuelle Konsistenz. Dieser Trainingszyklus profitiert von der umfassenden Suche des GRPO und der gezielten Optimierung des DPO. Experimentelle Ergebnisse zeigen: 1) Eine deutlich schnellere und effektivere Optimierung im Vergleich zu Standard-GRPO-Varianten, die eine überlegene Leistung erzielt; 2) Unsere trainierten Modelle übertreffen die direkte Inferenz großskaliger, instruktionsoptimierter Video-LLMs und erzeugen lange, kontextuell konsistente CoTs bei verschiedenen Videoanalysen; und 3) Unser Modell mit einer Iteration übertrifft leistungsstarke LMMs (z. B. Kimi-VL) und Langzeit-Analysemodelle (z. B. Video-R1), was seine Effektivität und Stabilität unterstreicht.
Diffusion Transformers (DiTs) sind entscheidend für die Videogenerierung, leiden jedoch unter erheblicher Latenz aufgrund der quadratischen Komplexität der Aufmerksamkeitsmechanismen. Durch die Berechnung nur kritischer Tokens reduziert die spärliche Aufmerksamkeit die Rechenkosten und bietet einen vielversprechenden Ansatz zur Beschleunigung. Wir stellen jedoch fest, dass bestehende Methoden unter demselben Rechenbudget nicht die optimale Generierungsqualität erreichen, und zwar aus zwei Gründen: (1) Ungenaue Identifikation kritischer Tokens: Aktuelle Methoden gruppieren Tokens basierend auf ihrer Position anstatt ihrer Semantik, was zu unpräzisen aggregierten Darstellungen führt. (2) Übermäßiger Rechenaufwand: Kritische Tokens sind zwischen nicht-kritischen Tokens verstreut, was zu verschwendeter Rechenleistung auf GPUs führt, die für die Verarbeitung zusammenhängender Tokens optimiert sind. In diesem Artikel stellen wir SVG2 vor, ein trainingsfreies Framework, das die Identifikationsgenauigkeit maximiert und den Rechenaufwand minimiert, wodurch ein Pareto-optimaler Kompromiss zwischen Generierungsqualität und Effizienz erreicht wird. Das Kernstück von SVG2 ist die semantikbewusste Permutation, die Tokens basierend auf semantischer Ähnlichkeit mittels k-Means gruppiert und neu anordnet. Dieser Ansatz gewährleistet sowohl eine präzise Clusterdarstellung, die die Identifikationsgenauigkeit verbessert, als auch eine verdichtete Anordnung kritischer Tokens, die eine effiziente Berechnung ohne Auffüllung ermöglicht. Zusätzlich integriert SVG2 eine dynamische Budgetkontrolle mittels top-p und maßgeschneiderte Kernel-Implementierungen, wodurch eine Beschleunigung um bis zu 2,30x und 1,89x bei gleichzeitiger Beibehaltung eines PSNR von bis zu 30 bzw. 26 auf HunyuanVideo und Wan 2.1 erreicht wird.
Multimodale Large Language Models (MLLMs) haben eine beträchtliche Genauigkeit bei der optischen Zeichenerkennung (OCR) aus statischen Bildern erreicht. Ihre Wirksamkeit bei der Video-OCR ist jedoch aufgrund von Faktoren wie Bewegungsunschärfe, zeitlichen Variationen und visuellen Effekten, die in Videoinhalten inhärent sind, deutlich reduziert. Um eine klarere Anleitung für das Training praktischer MLLMs zu bieten, führen wir den MME-VideoOCR-Benchmark ein, der ein umfassendes Spektrum von Video-OCR-Anwendungsszenarien abdeckt. MME-VideoOCR umfasst 10 Aufgabenkategorien mit 25 einzelnen Aufgaben und spannt 44 verschiedene Szenarien ab. Diese Aufgaben gehen über die Texterkennung hinaus und beinhalten ein tieferes Verständnis und eine umfassendere Analyse des Textinhalts in Videos. Der Benchmark besteht aus 1.464 Videos mit unterschiedlichen Auflösungen, Seitenverhältnissen und Längen sowie 2.000 sorgfältig kuratierten, manuell annotierten Frage-Antwort-Paaren. Wir evaluieren 18 state-of-the-art MLLMs auf MME-VideoOCR und zeigen, dass selbst das leistungsstärkste Modell (Gemini-2.5 Pro) nur eine Genauigkeit von 73,7 % erreicht. Eine detaillierte Analyse zeigt, dass bestehende MLLMs zwar starke Leistungen bei Aufgaben zeigen, bei denen relevante Texte in einem oder wenigen Bildern enthalten sind, jedoch nur begrenzte Fähigkeiten bei Aufgaben aufweisen, die ein ganzheitliches Videoverständnis erfordern. Diese Einschränkungen sind besonders in Szenarien offensichtlich, die räumlich-zeitliche Schlussfolgerungen, die Integration von Informationen über mehrere Bilder oder die Resistenz gegen sprachliche Vorurteile erfordern. Unsere Ergebnisse unterstreichen auch die Bedeutung von hochauflösenden visuellen Eingaben und ausreichender zeitlicher Abdeckung für eine zuverlässige OCR in dynamischen Videoszenarien.
In diesem Artikel stellen wir UI-Genie vor, ein sich selbst verbesserndes Framework, das zwei zentrale Herausforderungen bei GUI-Agenten adressiert: die Überprüfung von Trajektorien-Ergebnissen ist schwierig und hochwertige Trainingsdaten sind nicht skalierbar. Diese Herausforderungen werden durch ein Belohnungsmodell und eine sich selbst verbessernde Pipeline gelöst. Das Belohnungsmodell, UI-Genie-RM, verfügt über eine Bild-Text-Architektur, die historische Kontexte effizient verarbeitet und Handlungs- sowie Aufgabenebene-Belohnungen vereinheitlicht. Um das Training von UI-Genie-RM zu unterstützen, entwickeln wir gezielt gestaltete Daten-Generierungsstrategien, einschließlich regelbasierter Überprüfung, kontrollierter Trajektorien-Korruption und Hard-Negative-Mining. Um die zweite Herausforderung zu bewältigen, erweitert eine Selbstverbesserungs-Pipeline schrittweise lösbare komplexe GUI-Aufgaben, indem sowohl der Agent als auch das Belohnungsmodell durch belohnungsgesteuerte Exploration und Ergebnisüberprüfung in dynamischen Umgebungen verbessert werden. Für das Training des Modells generieren wir UI-Genie-RM-517k und UI-Genie-Agent-16k, wodurch der erste belohnungsspezifische Datensatz für GUI-Agenten etabliert wird, während gleichzeitig hochwertige synthetische Trajektorien-Generierung ohne manuelle Annotation demonstriert wird. Experimentelle Ergebnisse zeigen, dass UI-Genie mit drei Generationen von Daten-Modell-Selbstverbesserung state-of-the-art Leistungen über mehrere GUI-Agenten-Benchmarks hinweg erreicht. Wir stellen unsere vollständige Framework-Implementierung und generierten Datensätze als Open Source zur Verfügung, um weitere Forschungen unter https://github.com/Euphoria16/UI-Genie zu erleichtern.
Low-Rank Adaptation (LoRA) ist eine beliebte Methode für parameter-effizientes Feintuning (PEFT) von generativen Modellen, die aufgrund ihrer Einfachheit und Effektivität geschätzt wird. Trotz jüngster Verbesserungen leidet LoRA weiterhin unter einer grundlegenden Einschränkung: Überanpassung, wenn der Engpass erweitert wird. Es erzielt die besten Ergebnisse bei Rängen von 32-64, doch seine Genauigkeit stagniert oder sinkt bei höheren Rängen und bleibt immer noch hinter der Leistung des vollständigen Feintunings (FFT) zurück. Wir identifizieren die Ursache als den strukturellen Engpass von LoRA, der Gradientenverschränkung in den nicht verwandten Eingangskanälen einführt und die Gradientenausbreitung verzerrt. Um dies zu beheben, führen wir eine neuartige Struktur ein, Granular Low-Rank Adaptation (GraLoRA), die Gewichtsmatrizen in Unterblöcke aufteilt, von denen jeder seinen eigenen Low-Rank-Adapter hat. Mit vernachlässigbarem Rechen- oder Speicheraufwand überwindet GraLoRA die Einschränkungen von LoRA, erhöht effektiv die Repräsentationskapazität und nähert sich dem Verhalten von FFT stärker an. Experimente auf Benchmarks für Code-Generierung und Common-Sense-Reasoning zeigen, dass GraLoRA durchgehend LoRA und andere Baselines übertrifft und einen absoluten Gewinn von bis zu +8,5 % in Pass@1 auf HumanEval+ erzielt. Diese Verbesserungen gelten über Modellgrößen und Rang-Einstellungen hinweg, was GraLoRA zu einer skalierbaren und robusten Lösung für PEFT macht. Code, Daten und Skripte sind verfügbar unter https://github.com/SqueezeBits/GraLoRA.git.
Unternehmenskunden setzen zunehmend Large Language Models (LLMs) für kritische Kommunikationsaufgaben ein, wie das Verfassen von E-Mails, das Erstellen von Verkaufsargumenten und das Formulieren von informellen Nachrichten. Die Bereitstellung solcher Modelle in verschiedenen Regionen erfordert, dass sie unterschiedliche kulturelle und sprachliche Kontexte verstehen und sichere sowie respektvolle Antworten generieren. Für Unternehmensanwendungen ist es entscheidend, Reputationsrisiken zu minimieren, Vertrauen zu bewahren und Compliance sicherzustellen, indem unsichere oder beleidigende Sprache effektiv identifiziert und behandelt wird. Um dies zu adressieren, stellen wir SweEval vor, einen Benchmark, der reale Szenarien mit Variationen im Ton (positiv oder negativ) und Kontext (formell oder informell) simuliert. Die Prompts weisen das Modell explizit an, bestimmte Schimpfwörter zu verwenden, während es die Aufgabe erledigt. Dieser Benchmark bewertet, ob LLMs solchen unangemessenen Anweisungen folgen oder widerstehen, und prüft ihre Ausrichtung an ethischen Rahmenbedingungen, kulturellen Nuancen und Sprachverständnisfähigkeiten. Um die Forschung im Bereich der Entwicklung ethisch ausgerichteter KI-Systeme für den Unternehmenseinsatz und darüber hinaus voranzutreiben, veröffentlichen wir den Datensatz und den Code: https://github.com/amitbcp/multilingual_profanity.
Jüngste Fortschritte im Bereich des Chain-of-Thought (CoT)-Denkens und des Reinforcement Learning (RL) im Post-Training haben die Fähigkeiten von Multimodalen Large Language Models (MLLMs) zur Videoreasoning verbessert. Diese Entwicklung wirft die Frage auf: Können diese Modelle komplexe Videoreasoning-Aufgaben in einer Weise bewältigen, die mit der von menschlichen Experten vergleichbar ist? Bisherige Video-Benchmarks bewerten jedoch hauptsächlich visuelle Wahrnehmung und Verankerungsfähigkeiten, mit Fragen, die auf expliziten Aufforderungen oder isolierten visuellen Hinweisen basieren. Solche Benchmarks erfassen nicht vollständig die Komplexität des realen Denkens, bei dem Menschen aktiv nach Hinweisen suchen, diese integrieren und analysieren müssen, bevor sie zu einer Schlussfolgerung gelangen. Um dieses Problem zu lösen, stellen wir Video-Holmes vor, einen Benchmark, der vom Denkprozess von Sherlock Holmes inspiriert ist und darauf abzielt, die komplexen Videoreasoning-Fähigkeiten von MLLMs zu bewerten. Video-Holmes besteht aus 1.837 Fragen, die aus 270 manuell annotierten Spannungskurzfilmen abgeleitet wurden und sieben sorgfältig gestaltete Aufgaben umfassen. Jede Aufgabe wird konstruiert, indem zunächst Schlüsselereignisse und kausale Zusammenhänge innerhalb der Filme identifiziert und dann Fragen entworfen werden, die von den Modellen verlangen, aktiv mehrere relevante visuelle Hinweise zu lokalisieren und zu verbinden, die über verschiedene Videosegmente verstreut sind. Unsere umfassende Bewertung der aktuellsten MLLMs zeigt, dass diese Modelle zwar im Allgemeinen in der visuellen Wahrnehmung hervorragend sind, jedoch erhebliche Schwierigkeiten bei der Integration von Informationen haben und oft kritische Hinweise übersehen. Zum Beispiel erreicht das leistungsstärkste Modell, Gemini-2.5-Pro, eine Genauigkeit von nur 45 %, wobei die meisten Modelle unter 40 % liegen. Wir hoffen, dass Video-Holmes als „Holmes-Test“ für multimodales Denken dienen kann, um Modelle dazu zu motivieren, mehr wie Menschen zu denken, und die anhaltenden Herausforderungen in diesem Bereich zu betonen. Der Benchmark ist unter https://github.com/TencentARC/Video-Holmes verfügbar.
Die Weiterentwicklung der Code-Reasoning-Fähigkeiten in großen Sprachmodellen (LLMs) wird grundlegend durch die Knappheit von hochschwierigen Datensätzen eingeschränkt, insbesondere solchen mit überprüfbaren Eingabe-Ausgabe-Testfällen, die für eine rigorose Lösungsvalidierung im großen Maßstab erforderlich sind. Wir stellen rStar-Coder vor, das die Code-Reasoning-Fähigkeiten von LLMs erheblich verbessert, indem es einen groß angelegten, verifizierten Datensatz von 418K wettbewerbsorientierten Code-Problemen, 580K langen Lösungswegen sowie umfangreichen Testfällen unterschiedlicher Schwierigkeitsgrade konstruiert. Dies wird durch drei zentrale Beiträge erreicht: (1) Wir kuratieren Wettbewerbsprogrammierungs-Codeprobleme und Oracle-Lösungen, um neue, lösbare Probleme zu synthetisieren; (2) Wir führen eine zuverlässige Pipeline zur Synthese von Eingabe-Ausgabe-Testfällen ein, die die Generierung in eine dreistufige Eingabegenerierungsmethode und einen gegenseitigen Verifizierungsmechanismus zur effektiven Ausgabekennzeichnung entkoppelt; (3) Wir erweitern die Probleme um hochwertige, testfallverifizierte lange Lösungswege. Umfangreiche Experimente mit Qwen-Modellen (1,5B-14B) über verschiedene Code-Reasoning-Benchmarks demonstrieren die Überlegenheit des rStar-Coder-Datensatzes, der eine führende Leistung erzielt, die mit der von fortschrittlichen Reasoning-LLMs vergleichbar ist, jedoch mit deutlich kleineren Modellgrößen. Auf LiveCodeBench verbessert rStar-Coder Qwen2.5-7B von 17,4 % auf beeindruckende 57,3 % und Qwen2.5-14B von 23,3 % auf 62,5 %, wobei es o3-mini (low) um 3,1 % übertrifft. Bei der anspruchsvolleren USA Computing Olympiad erreicht unser 7B-Modell eine durchschnittliche Pass@1-Genauigkeit von 16,15 % und übertrifft damit das Spitzenniveau von QWQ-32B. Der Code und der Datensatz werden unter https://github.com/microsoft/rStar veröffentlicht.
Der jüngste Paradigmenwechsel hin zum Training großer Sprachmodelle (LLMs) mithilfe von DeepSeek-R1-Zero-artigem Reinforcement Learning (RL) auf Basis überprüfbarer Belohnungen hat zu beeindruckenden Fortschritten im Bereich des Code- und mathematischen Denkens geführt. Diese Methodik ist jedoch auf Aufgaben beschränkt, bei denen eine regelbasierte Antwortüberprüfung möglich ist, und lässt sich nicht ohne Weiteres auf reale Anwendungsbereiche wie Chemie, Gesundheitswesen, Ingenieurwesen, Recht, Biologie, Wirtschaft und Ökonomie übertragen. Aktuelle praktische Lösungsansätze verwenden ein zusätzliches LLM als modellbasierten Verifizierer; dies führt jedoch zu Problemen wie der Abhängigkeit von einem leistungsstarken Verifizierer-LLM, der Anfälligkeit für Reward Hacking und dem praktischen Aufwand, das Verifizierer-Modell während des Trainings im Speicher zu halten. Um dies zu adressieren und das DeepSeek-R1-Zero-artige Training auf allgemeine Denkdomänen auszuweiten, schlagen wir eine verifiziererfreie Methode (VeriFree) vor, die die Antwortüberprüfung umgeht und stattdessen RL direkt zur Maximierung der Wahrscheinlichkeit der Generierung der Referenzantwort einsetzt. Wir vergleichen VeriFree mit verifiziererbasierten Methoden und zeigen, dass VeriFree neben seinen erheblichen praktischen Vorteilen und reduzierten Rechenanforderungen verifiziererbasierte Methoden in umfangreichen Evaluierungen auf MMLU-Pro, GPQA, SuperGPQA und mathematikbezogenen Benchmarks erreicht und sogar übertrifft. Darüber hinaus bieten wir Einblicke in diese Methode aus mehreren Perspektiven: als elegante Integration des Trainings sowohl der Policy als auch des impliziten Verifizierers in einem einheitlichen Modell und als variationsbasierter Optimierungsansatz. Der Code ist verfügbar unter https://github.com/sail-sg/VeriFree.
Menschliche soziale Interaktionen hängen von der Fähigkeit ab, die unausgesprochenen Absichten, Emotionen und Überzeugungen anderer zu erschließen – eine kognitive Fähigkeit, die auf dem psychologischen Konzept der Theory of Mind (ToM) basiert. Während große Sprachmodelle (LLMs) bei Aufgaben des semantischen Verständnisses hervorragend abschneiden, haben sie Schwierigkeiten mit der Mehrdeutigkeit und dem kontextuellen Nuancenreichtum, die der menschlichen Kommunikation innewohnen. Um diese Lücke zu schließen, stellen wir MetaMind vor, ein Multi-Agenten-Framework, das von psychologischen Theorien der Metakognition inspiriert ist und darauf abzielt, menschliches soziales Denken nachzuahmen. MetaMind zerlegt soziales Verständnis in drei kooperative Stufen: (1) ein Theory-of-Mind-Agent generiert Hypothesen über mentale Zustände des Nutzers (z. B. Absicht, Emotion), (2) ein Domänen-Agent verfeinert diese Hypothesen unter Berücksichtigung kultureller Normen und ethischer Einschränkungen, und (3) ein Antwort-Agent erzeugt kontextuell angemessene Antworten und überprüft dabei die Übereinstimmung mit der erschlossenen Absicht. Unser Framework erreicht Spitzenleistungen in drei anspruchsvollen Benchmarks, mit einer Verbesserung von 35,7 % in realen sozialen Szenarien und einem Zuwachs von 6,2 % in der ToM-Argumentation. Bemerkenswerterweise ermöglicht es LLMs erstmals, auf Schlüsselaufgaben der ToM menschliches Niveau zu erreichen. Ablationsstudien bestätigen die Notwendigkeit aller Komponenten, die die Fähigkeit des Frameworks zeigen, kontextuelle Plausibilität, soziale Angemessenheit und Nutzeranpassung in Einklang zu bringen. Diese Arbeit bringt KI-Systeme einen Schritt näher an eine menschenähnliche soziale Intelligenz, mit Anwendungen in empathischen Dialogen und kultursensiblen Interaktionen. Der Code ist verfügbar unter https://github.com/XMZhangAI/MetaMind.
Die Verbesserung der Leistung bei komplexen Aufgaben und die Ermöglichung interpretierbarer Entscheidungsfindung in großen Sprachmodellen (LLMs), insbesondere für klinische Anwendungen, erfordern effektives logisches Denken. Dies bleibt jedoch eine Herausforderung, ohne überwachtes Feinabstimmen (SFT) auf kostspielige Chain-of-Thought (CoT)-Daten, die aus geschlossenen Modellen (z. B. GPT-4o) destilliert wurden. In dieser Arbeit präsentieren wir AlphaMed, das erste medizinische LLM, das zeigt, dass logisches Denken rein durch Reinforcement Learning (RL) entstehen kann, indem minimalistische regelbasierte Belohnungen auf öffentlichen Multiple-Choice-QA-Datensätzen verwendet werden, ohne auf SFT oder destillierte CoT-Daten angewiesen zu sein. AlphaMed erzielt Spitzenergebnisse auf sechs medizinischen QA-Benchmarks und übertrifft Modelle, die mit konventionellen SFT+RL-Pipelines trainiert wurden. Auf anspruchsvollen Benchmarks (z. B. MedXpert) übertrifft AlphaMed sogar größere oder geschlossene Modelle wie DeepSeek-V3-671B und Claude-3.5-Sonnet. Um die Faktoren hinter diesem Erfolg zu verstehen, führen wir eine umfassende datenzentrierte Analyse durch, die von drei Fragen geleitet wird: (i) Kann minimalistisches regelbasiertes RL logisches Denken ohne destillierte CoT-Aufsicht fördern? (ii) Wie beeinflussen Menge und Vielfalt der Datensätze das logische Denken? (iii) Wie beeinflusst die Schwierigkeit der Fragen die Entstehung und Generalisierung des logischen Denkens? Unsere Ergebnisse zeigen, dass die Informativität der Datensätze ein Schlüsselfaktor für die Leistung des logischen Denkens ist und dass minimalistisches RL auf informativen Multiple-Choice-QA-Daten effektiv logisches Denken ohne CoT-Aufsicht induzieren kann. Wir beobachten auch unterschiedliche Trends über Benchmarks hinweg, was die Grenzen der aktuellen Bewertung und die Notwendigkeit für anspruchsvollere, auf logisches Denken ausgerichtete medizinische QA-Benchmarks unterstreicht.
Video Large Language Models (Video LLMs) zeichnen sich durch ihre Fähigkeit zur Videoverständnis aus, leiden jedoch unter erheblicher Rechenineffizienz aufgrund redundanter Video-Tokens. Bestehende Token-Pruning-Methoden bieten Lösungen an. Ansätze, die innerhalb des LLM operieren (inner-LLM-Pruning), wie FastV, verursachen jedoch inhärenten Rechenaufwand in den oberflächlichen Schichten. Im Gegensatz dazu adressieren Methoden, die das Token-Pruning vor dem LLM durchführen (outer-LLM-Pruning), hauptsächlich räumliche Redundanz innerhalb einzelner Frames oder begrenzter zeitlicher Fenster, vernachlässigen jedoch die entscheidenden globalen zeitlichen Dynamiken und Korrelationen über längere Videosequenzen hinweg. Dies führt zu einer suboptimalen räumlich-zeitlichen Reduktion und nutzt die Komprimierbarkeit von Videos nicht vollständig aus. Entscheidend ist, dass das synergetische Potenzial und die gegenseitige Beeinflussung der Kombination dieser Strategien bisher unerforscht bleiben. Um die Redundanz weiter zu reduzieren, führen wir HoliTom ein, ein neuartiges, trainingsfreies, ganzheitliches Token-Merging-Framework. HoliTom verwendet outer-LLM-Pruning durch global redundanzbewusste zeitliche Segmentierung, gefolgt von räumlich-zeitlichem Merging, um visuelle Tokens um über 90% zu reduzieren und damit die Rechenlast des LLM erheblich zu verringern. Ergänzend dazu führen wir einen robusten inner-LLM-Token-Ähnlichkeits-basierten Merging-Ansatz ein, der für überlegene Leistung und Kompatibilität mit outer-LLM-Pruning entwickelt wurde. Evaluierungen zeigen das vielversprechende Effizienz-Leistungs-Verhältnis unserer Methode auf LLaVA-OneVision-7B, wobei die Rechenkosten auf 6,9% der FLOPs reduziert werden, während 99,1% der ursprünglichen Leistung erhalten bleiben. Darüber hinaus erreichen wir eine 2,28-fache Reduktion der Time-To-First-Token (TTFT) und eine 1,32-fache Beschleunigung des Decoding-Durchsatzes, was die praktischen Vorteile unseres integrierten Pruning-Ansatzes für eine effiziente Inferenz von Video-LLMs unterstreicht.
Die Animation von Bildern mit interaktiver Bewegungssteuerung hat bei der Bild-zu-Video (I2V)-Generierung an Popularität gewonnen. Moderne Ansätze verlassen sich typischerweise auf große Gauß-Kerne, um Bewegungspfade als Bedingung zu erweitern, ohne dabei explizit Bewegungsregionen zu definieren. Dies führt zu grober Bewegungssteuerung und versagt bei der Trennung von Objekt- und Kamerabewegung. Um diese Probleme zu beheben, präsentieren wir MotionPro, einen präzisen Bewegungscontroller, der neuartig regionsbezogene Trajektorien und Bewegungsmasken nutzt, um fein abgestimmte Bewegungsynthese zu regulieren und die Zielbewegungskategorie (d.h. Objekt- oder Kamerabewegung) zu identifizieren. Technisch gesehen schätzt MotionPro zunächst die Flusskarten für jedes Trainingsvideo über ein Tracking-Modell und sampelt dann die regionsbezogenen Trajektorien, um das Inferenzszenario zu simulieren. Anstatt den Fluss durch große Gauß-Kerne zu erweitern, ermöglicht unser regionsbezogener Trajektorienansatz eine präzisere Steuerung, indem direkt Trajektorien innerhalb lokaler Regionen genutzt werden, wodurch fein abgestimmte Bewegungen effektiv charakterisiert werden. Gleichzeitig wird eine Bewegungsmaske aus den vorhergesagten Flusskarten abgeleitet, um die ganzheitliche Bewegungsdynamik der Bewegungsregionen zu erfassen. Um eine natürliche Bewegungssteuerung zu erreichen, verstärkt MotionPro die Videoentrauschung weiter, indem sowohl regionsbezogene Trajektorien als auch die Bewegungsmaske durch Feature-Modulation integriert werden. Bemerkenswerterweise haben wir sorgfältig einen Benchmark, d.h. MC-Bench, mit 1.1K benutzerannotierten Bild-Trajektorien-Paaren konstruiert, um sowohl die fein abgestimmte als auch die objektbezogene I2V-Bewegungssteuerung zu evaluieren. Umfangreiche Experimente, die auf WebVid-10M und MC-Bench durchgeführt wurden, demonstrieren die Wirksamkeit von MotionPro. Weitere Ergebnisse finden Sie auf unserer Projektseite: https://zhw-zhang.github.io/MotionPro-page/.
Multilinguale Ausrichtung ist ein effektives und repräsentatives Paradigma, um die mehrsprachigen Fähigkeiten von LLMs (Large Language Models) zu verbessern, indem Fähigkeiten von hochressourcenreichen Sprachen auf ressourcenarme Sprachen übertragen werden. Gleichzeitig zeigen einige Forschungen zu sprachspezifischen Neuronen, dass es in LLMs sprachspezifische Neuronen gibt, die selektiv aktiviert werden, wenn verschiedene Sprachen verarbeitet werden. Dies bietet eine neue Perspektive, um die Mechanismen von LLMs in mehrsprachigen Szenarien genauer zu analysieren und zu verstehen. In dieser Arbeit schlagen wir einen neuen, feiner abgestimmten Algorithmus zur Identifikation von Neuronen vor, der Sprachneuronen (einschließlich sprachspezifischer und sprachbezogener Neuronen) sowie sprachunabhängige Neuronen erkennt. Darüber hinaus unterteilen wir basierend auf den Verteilungseigenschaften verschiedener Neuronentypen den internen Prozess von LLMs für mehrsprachige Inferenz in vier Teile: (1) mehrsprachiges Verständnis, (2) gemeinsames semantisches Raumdenken, (3) mehrsprachige Ausgaberaumtransformation und (4) Vokabelraumausgabe. Zusätzlich analysieren wir systematisch die Modelle vor und nach der Ausrichtung mit einem Fokus auf verschiedene Neuronentypen. Wir untersuchen auch das Phänomen der „spontanen mehrsprachigen Ausrichtung“. Insgesamt führt unsere Arbeit eine umfassende Untersuchung basierend auf verschiedenen Neuronentypen durch und liefert empirische Ergebnisse und wertvolle Einblicke für ein besseres Verständnis der mehrsprachigen Ausrichtung und der mehrsprachigen Fähigkeiten von LLMs.
Kontrollierbarkeit, zeitliche Kohärenz und Detailgenauigkeit bleiben die größten Herausforderungen bei der Videogenerierung. In diesem Artikel konzentrieren wir uns auf eine häufig verwendete, aber noch wenig erforschte filmische Technik, die als Frame In und Frame Out bekannt ist. Konkret ermöglichen wir, ausgehend von der Bild-zu-Video-Generierung, dass Benutzer die Objekte im Bild steuern können, um diese natürlich aus der Szene verschwinden zu lassen oder neue Identitätsreferenzen einzuführen, die in die Szene eintreten, geleitet durch benutzerdefinierte Bewegungsbahnen. Um diese Aufgabe zu unterstützen, stellen wir einen neuen, halbautomatisch kuratierten Datensatz vor, ein umfassendes Evaluationsprotokoll, das auf diese Anwendung zugeschnitten ist, sowie eine effiziente, identitätserhaltende und bewegungskontrollierbare Video-Diffusion-Transformer-Architektur. Unsere Auswertungen zeigen, dass unser vorgeschlagener Ansatz bestehende Baselines deutlich übertrifft.
Jüngste Fortschritte bei generativen Modellen haben eine hochwertige Text-zu-Bild-Generierung ermöglicht. Dennoch hinken Open-Source-Bildbearbeitungsmodelle ihren proprietären Gegenstücken hinterher, hauptsächlich aufgrund begrenzter hochwertiger Daten und unzureichender Benchmarks. Um diese Einschränkungen zu überwinden, stellen wir ImgEdit vor, einen groß angelegten, hochwertigen Bildbearbeitungsdatensatz, der 1,2 Millionen sorgfältig kuratierte Bearbeitungspaare umfasst. Diese enthalten sowohl neuartige und komplexe Einzelschritt-Bearbeitungen als auch anspruchsvolle Mehrschritt-Aufgaben. Um die Datenqualität sicherzustellen, verwenden wir eine mehrstufige Pipeline, die ein modernes Vision-Language-Modell, ein Detektionsmodell, ein Segmentierungsmodell sowie aufgaben spezifische Inpainting-Verfahren und strenge Nachbearbeitung integriert. ImgEdit übertrifft bestehende Datensätze sowohl in Bezug auf die Neuartigkeit der Aufgaben als auch auf die Datenqualität. Mit ImgEdit trainieren wir ImgEdit-E1, ein Bearbeitungsmodell, das ein Vision-Language-Modell zur Verarbeitung des Referenzbildes und des Bearbeitungsprompts verwendet. Dieses Modell übertrifft bestehende Open-Source-Modelle bei mehreren Aufgaben und unterstreicht den Wert von ImgEdit und dem Modell-Design. Für eine umfassende Bewertung führen wir ImgEdit-Bench ein, einen Benchmark, der die Bildbearbeitungsleistung in Bezug auf Anweisungsbefolgung, Bearbeitungsqualität und Detailerhaltung bewertet. Er umfasst einen Basistest, einen anspruchsvollen Einzelschritt-Test und einen speziellen Mehrschritt-Test. Wir bewerten sowohl Open-Source- als auch proprietäre Modelle sowie ImgEdit-E1 und bieten eine tiefgehende Analyse und umsetzbare Erkenntnisse über das aktuelle Verhalten von Bildbearbeitungsmodellen. Die Quelldaten sind öffentlich verfügbar unter https://github.com/PKU-YuanGroup/ImgEdit.
In vielen realen Anwendungen stoßen eingesetzte Modelle auf Eingaben, die sich von den während des Trainings gesehenen Daten unterscheiden. Die Erkennung von Out-of-Distribution-Daten identifiziert, ob eine Eingabe aus einer unbekannten Verteilung stammt, während die Open-World-Erkennung solche Eingaben markiert, um sicherzustellen, dass das System robust bleibt, wenn ständig neue, bisher unbekannte Kategorien auftreten und ohne erneutes Training behandelt werden müssen. Foundation- und Vision-Language-Modelle werden auf großen und vielfältigen Datensätzen vortrainiert, mit der Erwartung einer breiten Generalisierung über verschiedene Domänen hinweg, einschließlich der medizinischen Bildgebung. Die Bewertung dieser Modelle anhand von Testsets mit nur wenigen gängigen Ausreißertypen reduziert die Evaluation jedoch stillschweigend auf ein Closed-Set-Problem und verschleiert Fehler bei seltenen oder wirklich neuartigen Bedingungen, die in der klinischen Praxis auftreten. Daher stellen wir NOVA vor, einen anspruchsvollen, realitätsnahen Evaluations-Benchmark mit 900 simulierten Gehirn-MRT-Scans, die 281 seltene Pathologien und heterogene Aufnahmeprotokolle abdecken. Jeder Fall umfasst umfangreiche klinische Beschreibungen und doppelblinde, von Experten erstellte Bounding-Box-Annotationen. Zusammen ermöglichen sie eine gemeinsame Bewertung der Anomalielokalisierung, visuellen Beschreibung und diagnostischen Argumentation. Da NOVA niemals für das Training verwendet wird, dient es als extremer Stresstest für die Out-of-Distribution-Generalisierung: Modelle müssen eine Verteilungslücke sowohl im Erscheinungsbild der Proben als auch im semantischen Raum überbrücken. Baseline-Ergebnisse mit führenden Vision-Language-Modellen (GPT-4o, Gemini 2.0 Flash und Qwen2.5-VL-72B) zeigen erhebliche Leistungseinbußen bei allen Aufgaben, was NOVA als rigorose Testplattform für die Weiterentwicklung von Modellen etabliert, die wirklich unbekannte Anomalien erkennen, lokalisieren und interpretieren können.
Dieses Papier stellt DetailFlow vor, eine grob-zu-fein 1D autoregressive (AR) Bildgenerierungsmethode, die Bilder durch eine neuartige Next-Detail-Vorhersagestrategie modelliert. Durch das Lernen einer auflösungsbewussten Token-Sequenz, die mit progressiv degradierten Bildern überwacht wird, ermöglicht DetailFlow den Generierungsprozess, von der globalen Struktur auszugehen und Details schrittweise zu verfeinern. Diese grob-zu-fein 1D Token-Sequenz passt gut zum autoregressiven Inferenzmechanismus und bietet eine natürlichere und effizientere Möglichkeit für das AR-Modell, komplexe visuelle Inhalte zu generieren. Unser kompaktes 1D AR-Modell erreicht eine hochwertige Bildsynthese mit deutlich weniger Token als bisherige Ansätze, z.B. VAR/VQGAN. Wir schlagen weiterhin einen parallelen Inferenzmechanismus mit Selbstkorrektur vor, der die Generierungsgeschwindigkeit um etwa das 8-fache beschleunigt und dabei den akkumulierten Sampling-Fehler, der der Teacher-Forcing-Überwachung innewohnt, reduziert. Auf dem ImageNet 256x256 Benchmark erreicht unsere Methode einen gFID von 2,96 mit 128 Token und übertrifft damit VAR (3,3 FID) und FlexVAR (3,05 FID), die beide 680 Token in ihren AR-Modellen benötigen. Darüber hinaus läuft unsere Methode aufgrund der deutlich reduzierten Tokenanzahl und des parallelen Inferenzmechanismus mit nahezu doppelter Inferenzgeschwindigkeit im Vergleich zu VAR und FlexVAR. Umfangreiche experimentelle Ergebnisse demonstrieren die überlegene Generierungsqualität und Effizienz von DetailFlow im Vergleich zu bestehenden State-of-the-Art-Methoden.
Aktives Sehen, auch bekannt als aktive Wahrnehmung, bezeichnet den Prozess der aktiven Auswahl von Ort und Art des Blickens, um aufgabenrelevante Informationen zu sammeln. Es ist ein entscheidender Bestandteil effizienter Wahrnehmung und Entscheidungsfindung bei Menschen und fortgeschrittenen verkörperten Agenten. In jüngster Zeit hat die Verwendung von Multimodalen Großen Sprachmodellen (MLLMs) als zentrale Planungs- und Entscheidungsmodule in robotischen Systemen große Aufmerksamkeit erregt. Trotz der Bedeutung der aktiven Wahrnehmung für verkörperte Intelligenz gibt es jedoch kaum Untersuchungen dazu, wie MLLMs mit aktiven Wahrnehmungsfähigkeiten ausgestattet werden oder diese erlernen können. In diesem Artikel liefern wir zunächst eine systematische Definition von MLLM-basierten aktiven Wahrnehmungsaufgaben. Wir weisen darauf hin, dass die kürzlich vorgeschlagene Zoom-in-Suchstrategie des GPT-o3-Modells als ein Spezialfall der aktiven Wahrnehmung betrachtet werden kann; sie leidet jedoch immer noch unter geringer Such effizienz und ungenauer Bereichsauswahl. Um diese Probleme zu lösen, schlagen wir ACTIVE-O3 vor, ein rein auf Verstärkungslernen basierendes Trainingsframework, das auf GRPO aufbaut und darauf abzielt, MLLMs mit aktiven Wahrnehmungsfähigkeiten auszustatten. Wir etablieren weiterhin einen umfassenden Benchmark-Suite, um ACTIVE-O3 sowohl bei allgemeinen Open-World-Aufgaben wie der Lokalisierung kleiner und dichter Objekte als auch bei domänenspezifischen Szenarien, einschließlich der Erkennung kleiner Objekte in der Fernerkundung und im autonomen Fahren sowie der feinkörnigen interaktiven Segmentierung, zu evaluieren. Darüber hinaus zeigt ACTIVE-O3 auch starke Zero-Shot-Reasoning-Fähigkeiten auf dem V*-Benchmark, ohne dabei auf explizite Reasoning-Daten angewiesen zu sein. Wir hoffen, dass unsere Arbeit eine einfache Codebasis und ein Evaluationsprotokoll bereitstellt, um zukünftige Forschungen zur aktiven Wahrnehmung in MLLMs zu erleichtern.
Eine präzise Steuerung der Generierung von Sprachmodellen ist entscheidend, um sowohl Sicherheit als auch Zuverlässigkeit zu gewährleisten. Obwohl Prompt-Engineering und Lenkung häufig eingesetzt werden, um das Verhalten von Modellen zu beeinflussen, führt die enorme Anzahl von Parametern in den Modellen oft zu stark verflochtenen internen Repräsentationen. Diese Interdependenz kann die Präzision der Steuerung einschränken und manchmal zu unbeabsichtigten Nebeneffekten führen. Aktuelle Forschungen haben die Verwendung von spärlichen Autoencodern (SAE) untersucht, um Wissen in hochdimensionalen Räumen für die Lenkung zu entflechten. Diese Anwendungen waren jedoch aufgrund der nicht trivialen Herausforderung, atomare Wissenskomponenten zu lokalisieren, auf einfache Aufgaben beschränkt. In diesem Artikel schlagen wir Steering Target Atoms (STA) vor, eine neuartige Methode, die entflochtene Wissenskomponenten isoliert und manipuliert, um die Sicherheit zu erhöhen. Umfassende Experimente demonstrieren die Wirksamkeit unseres Ansatzes. Weitere Analysen zeigen, dass die Lenkung eine überlegene Robustheit und Flexibilität aufweist, insbesondere in adversarischen Szenarien. Wir wenden die Lenkungsstrategie auch auf ein großes Reasoning-Modell an und bestätigen deren Wirksamkeit bei der präzisen Steuerung von Schlussfolgerungen.
Wir stellen FinTagging vor, den ersten umfassenden, tabellenbewussten XBRL-Benchmark, der entwickelt wurde, um die Fähigkeiten großer Sprachmodelle (LLMs) zur strukturierten Informationsextraktion und semantischen Ausrichtung im Kontext von XBRL-basierter Finanzberichterstattung zu bewerten. Im Gegensatz zu früheren Benchmarks, die XBRL-Tagging als flache Mehrklassenklassifikation vereinfachen und sich ausschließlich auf narrativen Text konzentrieren, zerlegt FinTagging das XBRL-Tagging-Problem in zwei Teilaufgaben: FinNI für die Extraktion finanzieller Entitäten und FinCL für die taxonomiegesteuerte Konzeptausrichtung. Es erfordert, dass Modelle Fakten gemeinsam extrahieren und sie mit der vollständigen US-GAAP-Taxonomie von über 10.000 Einträgen sowohl in unstrukturiertem Text als auch in strukturierten Tabellen abgleichen, wodurch eine realistische, feingranulare Bewertung ermöglicht wird. Wir bewerten eine Vielzahl von LLMs unter Zero-Shot-Bedingungen und analysieren systematisch ihre Leistung in beiden Teilaufgaben sowie die Gesamtgenauigkeit des Taggings. Unsere Ergebnisse zeigen, dass LLMs zwar eine starke Generalisierung in der Informationsextraktion aufweisen, jedoch Schwierigkeiten mit der feingranularen Konzeptausrichtung haben, insbesondere bei der Unterscheidung eng verwandter Taxonomieeinträge. Diese Erkenntnisse verdeutlichen die Grenzen bestehender LLMs bei der vollständigen Automatisierung von XBRL-Tagging und unterstreichen die Notwendigkeit verbesserter semantischer Schlussfolgerung und schema-bewusster Modellierung, um die Anforderungen einer präzisen Finanzberichterstattung zu erfüllen. Der Code ist in unserem GitHub-Repository verfügbar, und die Daten befinden sich in unserem Hugging Face-Repository.
Vision-Language-Modelle (VLMs) haben bemerkenswerte Fähigkeiten beim Verstehen und Schlussfolgern über visuelle Inhalte gezeigt, doch bestehen erhebliche Herausforderungen bei Aufgaben, die ein Verständnis über verschiedene Blickwinkel und räumliches Denken erfordern. Wir identifizieren eine kritische Einschränkung: Aktuelle VLMs sind vor allem in der Lage, egozentrisches räumliches Denken (aus der Perspektive der Kamera) zu bewältigen, scheitern jedoch bei der Verallgemeinerung auf allozentrische Blickwinkel, wenn sie den räumlichen Bezugsrahmen einer anderen Entität einnehmen müssen. Wir stellen ViewSpatial-Bench vor, den ersten umfassenden Benchmark, der speziell für die Bewertung der räumlichen Lokalisierungserkennung über mehrere Blickwinkel entwickelt wurde und fünf verschiedene Aufgabentypen abdeckt. Dieser wird durch einen automatisierten 3D-Annotationspipeline unterstützt, der präzise Richtungsbeschriftungen generiert. Die umfassende Evaluierung verschiedener VLMs auf ViewSpatial-Bench zeigt eine signifikante Leistungsdiskrepanz: Modelle erzielen vernünftige Ergebnisse bei Aufgaben aus der Kameraperspektive, weisen jedoch eine geringere Genauigkeit auf, wenn sie aus der menschlichen Perspektive schlussfolgern sollen. Durch das Feinabstimmen von VLMs auf unser räumliches Multi-Perspektiven-Datensatz erreichen wir eine Gesamtleistungssteigerung von 46,24 % über alle Aufgaben hinweg, was die Wirksamkeit unseres Ansatzes unterstreicht. Unsere Arbeit etabliert einen entscheidenden Benchmark für räumliche Intelligenz in verkörperten KI-Systemen und liefert empirische Belege dafür, dass die Modellierung von 3D-räumlichen Beziehungen die entsprechenden räumlichen Verständnisfähigkeiten von VLMs verbessert.
Scalable Vector Graphics (SVG) bieten ein leistungsstarkes Format zur Darstellung von visuellen Designs als interpretierbarer Code. Jüngste Fortschritte in Vision-Language-Modellen (VLMs) haben die hochwertige SVG-Generierung ermöglicht, indem das Problem als Code-Generierungsaufgabe formuliert und groß angelegtes Pre-Training genutzt wurde. VLMs sind besonders geeignet für diese Aufgabe, da sie sowohl globale Semantik als auch fein abgestimmte visuelle Muster erfassen und dabei Wissen über die Bereiche Vision, natürliche Sprache und Code transferieren. Allerdings haben bestehende VLM-Ansätze oft Schwierigkeiten, treue und effiziente SVGs zu erzeugen, da sie während des Trainings nie die gerenderten Bilder beobachten. Obwohl differenzierbares Rendering für autoregressive SVG-Code-Generierung noch nicht verfügbar ist, können gerenderte Ausgaben dennoch mit den ursprünglichen Eingaben verglichen werden, was evaluatives Feedback ermöglicht, das für Reinforcement Learning (RL) geeignet ist. Wir stellen RLRF (Reinforcement Learning from Rendering Feedback) vor, eine RL-Methode, die die SVG-Generierung in autoregressiven VLMs verbessert, indem Feedback von gerenderten SVG-Ausgaben genutzt wird. Bei einem Eingabebild generiert das Modell SVG-Rollouts, die gerendert und mit dem Originalbild verglichen werden, um eine Belohnung zu berechnen. Dieses visuelle Treue-Feedback führt das Modell dazu, präzisere, effizientere und semantisch kohärentere SVGs zu erzeugen. RLRF übertrifft überwachtes Fine-Tuning deutlich, behebt häufige Fehlermodi und ermöglicht eine präzise, hochwertige SVG-Generierung mit starkem strukturellem Verständnis und Generalisierungsfähigkeit.
Aktuelle Studien zeigen, dass die Fähigkeiten von Large Language Models (LLMs) zur logischen Schlussfolgerung durch den Einsatz von Reinforcement Learning (RL) bei Frage-Antwort-Aufgaben (QA) in Bereichen wie Mathematik und Programmierung verbessert werden können. Bei einer langen Kontextlänge können LLMs lernen, Suchverhalten zu zeigen, wie das selbstkorrigierende Verhalten in DeepSeek R1 nahelegt. Dieses Suchverhalten ist jedoch oft unpräzise und unsicher, was zu langen, redundanten Antworten führt und Defizite in Intuition und Überprüfung offenbart. Inspiriert von der Dual-Process-Theorie in der Psychologie führen wir eine einfache Modifikation der QA-Aufgabe ein, die vier Phasen umfasst: Schnelles Denken, bei dem das LLM innerhalb eines strengen Token-Budgets antworten muss; Überprüfung, bei dem das Modell seine erste Antwort bewertet; Langsames Denken, bei dem es die erste Antwort mit mehr Bedacht verfeinert; und Zusammenfassung, bei der es die Verfeinerung aus der vorherigen Phase in präzise Schritte verdichtet. Unsere vorgeschlagene Aufgabe verbessert die durchschnittliche Genauigkeit von 24,9 % auf 27,9 % für Qwen2.5-1.5B und von 45,9 % auf 49,8 % für DeepSeek-R1-Qwen-1.5B. Bemerkenswert ist, dass der Modus Schnelles Denken allein für Qwen2.5-1.5B eine Genauigkeit von 26,8 % mit weniger als 1000 Tokens erreicht, was erhebliche Effizienzgewinne bei der Inferenz demonstriert. Diese Ergebnisse deuten darauf hin, dass Intuition und deliberatives Denken unterschiedliche, komplementäre Systeme sind, die von gezieltem Training profitieren.
Wir stellen VisTA vor, ein neues Reinforcement-Learning-Framework, das visuelle Agenten befähigt, Werkzeuge aus einer vielfältigen Bibliothek dynamisch zu erkunden, auszuwählen und zu kombinieren, basierend auf empirischer Leistung. Bestehende Methoden für werkzeuggestütztes Denken verlassen sich entweder auf trainingsfreie Prompting-Techniken oder groß angelegtes Fine-Tuning; beiden Ansätzen fehlt die aktive Werkzeugexploration, und sie gehen typischerweise von begrenzter Werkzeugvielfalt aus, während Fine-Tuning-Methoden zusätzlich umfangreiche menschliche Aufsicht erfordern. Im Gegensatz dazu nutzt VisTA end-to-end Reinforcement Learning, um iterativ anspruchsvolle, abfragespezifische Werkzeugauswahlstrategien zu verfeinern, wobei Aufgabenresultate als Feedback-Signale dienen. Durch Group Relative Policy Optimization (GRPO) ermöglicht unser Framework einem Agenten, effektive Werkzeugauswahlpfade autonom zu entdecken, ohne explizite Denküberwachung zu benötigen. Experimente auf den Benchmarks ChartQA, Geometry3K und BlindTest zeigen, dass VisTA erhebliche Leistungssteigerungen gegenüber trainingsfreien Baselines erzielt, insbesondere bei Out-of-Distribution-Beispielen. Diese Ergebnisse unterstreichen VisTAs Fähigkeit, die Generalisierung zu verbessern, diverse Werkzeuge adaptiv zu nutzen und den Weg für flexible, erfahrungsgetriebene visuelle Denksysteme zu ebnen.
Multimodale große Sprachmodelle (MLLMs) bleiben anfällig für übertragbare adversariale Beispiele. Während bestehende Methoden gezielte Angriffe typischerweise durch die Ausrichtung globaler Merkmale – wie den [CLS]-Token von CLIP – zwischen adversarialen und Zielproben erreichen, übersehen sie oft die reichhaltigen lokalen Informationen, die in Patch-Token kodiert sind. Dies führt zu suboptimaler Ausrichtung und begrenzter Übertragbarkeit, insbesondere bei Closed-Source-Modellen. Um diese Einschränkung zu überwinden, schlagen wir eine gezielte übertragbare adversariale Angriffsmethode basierend auf optimaler Merkmalsausrichtung vor, genannt FOA-Attack, um die adversariale Übertragungsfähigkeit zu verbessern. Konkret führen wir auf globaler Ebene einen globalen Merkmalsverlust basierend auf Kosinusähnlichkeit ein, um die grobkörnigen Merkmale adversarialer Proben mit denen der Zielproben auszurichten. Auf lokaler Ebene nutzen wir angesichts der reichhaltigen lokalen Repräsentationen innerhalb von Transformern Clustering-Techniken, um kompakte lokale Muster zu extrahieren und redundante lokale Merkmale zu reduzieren. Anschließend formulieren wir die lokale Merkmalsausrichtung zwischen adversarialen und Zielproben als ein Optimal-Transport-Problem (OT) und schlagen einen lokalen Clustering-Optimal-Transport-Verlust vor, um die feinkörnige Merkmalsausrichtung zu verfeinern. Zusätzlich schlagen wir eine dynamische Ensemble-Modellgewichtungsstrategie vor, um den Einfluss mehrerer Modelle während der Generierung adversarialer Beispiele adaptiv auszubalancieren und dadurch die Übertragbarkeit weiter zu verbessern. Umfangreiche Experimente über verschiedene Modelle hinweg demonstrieren die Überlegenheit der vorgeschlagenen Methode, die state-of-the-art-Methoden übertrifft, insbesondere bei der Übertragung auf Closed-Source-MLLMs. Der Code ist unter https://github.com/jiaxiaojunQAQ/FOA-Attack veröffentlicht.
Wir präsentieren SeePhys, einen groß angelegten multimodalen Benchmark für das physikalische Denken von LLMs, der Fragen von der Mittelstufe bis zu PhD-Qualifikationsprüfungen abdeckt. Der Benchmark umfasst 7 grundlegende Domänen der Physik und integriert 21 Kategorien hochgradig heterogener Diagramme. Im Gegensatz zu früheren Arbeiten, in denen visuelle Elemente hauptsächlich unterstützende Funktionen erfüllten, zeichnet sich unser Benchmark durch einen erheblichen Anteil visuell essenzieller Probleme (75 %) aus, die die Extraktion visueller Informationen für korrekte Lösungen erfordern. Durch umfangreiche Evaluierungen stellen wir fest, dass selbst die fortschrittlichsten visuellen Denkmodelle (z. B. Gemini-2.5-pro und o4-mini) auf unserem Benchmark eine Genauigkeit von unter 60 % erreichen. Diese Ergebnisse offenbaren grundlegende Herausforderungen im visuellen Verständnis aktueller großer Sprachmodelle, insbesondere in: (i) der Herstellung einer strengen Kopplung zwischen Diagramminterpretation und physikalischem Denken sowie (ii) der Überwindung ihrer anhaltenden Abhängigkeit von textuellen Hinweisen als kognitive Abkürzungen.
Die automatische Bewertung multimodaler Generierung stellt eine erhebliche Herausforderung dar, da automatisierte Metriken oft Schwierigkeiten haben, zuverlässig mit der menschlichen Bewertung übereinzustimmen, insbesondere bei komplexen Aufgaben, die mehrere Modalitäten umfassen. Um dies zu adressieren, präsentieren wir MMMG, einen umfassenden und menschlich ausgerichteten Benchmark für multimodale Generierung über 4 Modalitätskombinationen (Bild, Audio, verschachtelter Text und Bild, verschachtelter Text und Audio), mit einem Fokus auf Aufgaben, die erhebliche Herausforderungen für Generierungsmodelle darstellen, während dennoch eine zuverlässige automatische Bewertung durch eine Kombination von Modellen und Programmen ermöglicht wird. MMMG umfasst 49 Aufgaben (darunter 29 neu entwickelte), jede mit einem sorgfältig gestalteten Bewertungspipeline, und 937 Anweisungen, um systematisch das Denkvermögen, die Steuerbarkeit und andere Schlüsselfähigkeiten multimodaler Generierungsmodelle zu bewerten. Umfangreiche Validierungen zeigen, dass MMMG stark mit der menschlichen Bewertung übereinstimmt und eine durchschnittliche Übereinstimmung von 94,3 % erreicht. Benchmarking-Ergebnisse für 24 multimodale Generierungsmodelle offenbaren, dass das state-of-the-art Modell, GPT Image, zwar eine Genauigkeit von 78,3 % für die Bildgenerierung erzielt, jedoch bei multimodalem Denken und verschachtelter Generierung zurückbleibt. Darüber hinaus deuten die Ergebnisse auf erheblichen Verbesserungsbedarf in der Audiogenerierung hin, was eine wichtige Richtung für zukünftige Forschung aufzeigt.
Große Sprachmodelle (LLMs), die durch Reinforcement Learning (RL) trainiert wurden, haben starke Fähigkeiten im logischen Denken und emergente reflektierende Verhaltensweisen wie Rückverfolgung und Fehlerkorrektur gezeigt. Konventionelles Markovian RL beschränkt jedoch die Exploration auf die Trainingsphase, um eine optimale deterministische Policy zu erlernen, und hängt von den historischen Kontexten nur durch den aktuellen Zustand ab. Daher bleibt unklar, ob reflektierendes Denken während des Markovian RL-Trainings entsteht oder warum es zur Testzeit vorteilhaft ist. Um dies zu beheben, reformulieren wir die reflektierende Exploration im Rahmen des Bayes-Adaptive RL, das den erwarteten Ertrag explizit unter einer Posterior-Verteilung über Markov-Entscheidungsprozesse optimiert. Diese Bayes'sche Formulierung fördert sowohl belohnungsmaximierende Ausbeutung als auch informationssammlende Exploration durch Aktualisierungen der Überzeugungen. Unser resultierender Algorithmus, BARL, weist das LLM an, Strategien basierend auf den beobachteten Ergebnissen zu kombinieren und zu wechseln, und bietet prinzipielle Anleitungen, wann und wie das Modell reflektierend explorieren sollte. Empirische Ergebnisse sowohl bei synthetischen als auch bei mathematischen Denkaufgaben zeigen, dass BARL zur Testzeit Standardansätze des Markovian RL übertrifft und eine überlegene Token-Effizienz mit verbesserter Explorationseffektivität erreicht. Unser Code ist verfügbar unter https://github.com/shenao-zhang/BARL.
Da sich das Testzeit-Skalieren zu einer zentralen Forschungsfront in der Entwicklung von Large Language Models (LLMs) entwickelt, konzentrieren sich moderne und fortschrittliche Post-Training-Methoden zunehmend darauf, die Generierungslänge langer Chain-of-Thought (CoT)-Antworten zu erweitern, um die Denkfähigkeiten in Richtung einer DeepSeek R1-ähnlichen Leistung zu verbessern. Jüngste Studien zeigen jedoch ein anhaltendes Overthinking-Phänomen in modernsten Denkmodellen, das sich als übermäßige Redundanz oder wiederholte Denkmuster in langen CoT-Antworten manifestiert. Um dieses Problem zu lösen, schlagen wir in diesem Artikel ein einfaches, aber effektives zweistufiges Reinforcement-Learning-Framework vor, um präzises Denken in LLMs zu erreichen, genannt ConciseR. Konkret zielt die erste Stufe, die mehr Trainingsschritte verwendet, darauf ab, die Denkfähigkeiten des Modells durch Group Relative Policy Optimization mit Clip-Higher- und Dynamic-Sampling-Komponenten (GRPO++) zu fördern, während die zweite Stufe, die weniger Trainingsschritte verwendet, explizit Prägnanz erzwingt und die Effizienz durch Length-aware Group Relative Policy Optimization (L-GRPO) verbessert. Bemerkenswerterweise optimiert ConciseR die Antwortlänge erst, wenn alle Rollouts einer Probe korrekt sind, gemäß dem Prinzip „erst gehen, dann laufen“. Umfangreiche experimentelle Ergebnisse zeigen, dass unser ConciseR-Modell, das prägnantere CoT-Denkantworten generiert, aktuelle state-of-the-art Denkmodelle mit dem Zero-RL-Paradigma auf den Benchmarks AIME 2024, MATH-500, AMC 2023, Minerva und Olympiad übertrifft.
Das Verständnis von Perspektive ist grundlegend für die menschliche visuelle Wahrnehmung, doch das Ausmaß, in dem multimodale große Sprachmodelle (MLLMs) Perspektivgeometrie verinnerlichen, bleibt unklar. Wir stellen MMPerspective vor, den ersten Benchmark, der speziell entwickelt wurde, um das Verständnis von Perspektive durch MLLMs systematisch anhand von 10 sorgfältig gestalteten Aufgaben in drei komplementären Dimensionen zu bewerten: Perspektivwahrnehmung, -schlussfolgerung und -robustheit. Unser Benchmark umfasst 2.711 reale und synthetische Bildinstanzen mit 5.083 Frage-Antwort-Paaren, die Schlüsselfähigkeiten wie die Wahrnehmung von Fluchtpunkten und Zählen, die Schlussfolgerung von Perspektivtypen, das Verständnis von Linienbeziehungen im 3D-Raum, die Invarianz gegenüber perspektiverhaltenden Transformationen usw. untersuchen. Durch eine umfassende Bewertung von 43 state-of-the-art MLLMs decken wir erhebliche Einschränkungen auf: Während Modelle bei oberflächlichen Wahrnehmungsaufgaben Kompetenz zeigen, haben sie Schwierigkeiten mit kompositioneller Schlussfolgerung und der Aufrechterhaltung räumlicher Konsistenz unter Störungen. Unsere Analyse zeigt weiterhin interessante Muster zwischen Modellarchitektur, Skalierung und Perspektivfähigkeiten auf, die sowohl Robustheitsengpässe als auch die Vorteile von Chain-of-Thought-Prompting hervorheben. MMPerspective schafft eine wertvolle Testumgebung für die Diagnose und Weiterentwicklung des räumlichen Verständnisses in Vision-Sprache-Systemen. Ressourcen verfügbar unter: https://yunlong10.github.io/MMPerspective/
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben es Agenten ermöglicht, komplexe, offene Aufgaben autonom auszuführen. Viele bestehende Frameworks sind jedoch stark auf manuell vordefinierte Werkzeuge und Arbeitsabläufe angewiesen, was ihre Anpassungsfähigkeit, Skalierbarkeit und Generalisierung über verschiedene Domänen hinweg behindert. In dieser Arbeit stellen wir Alita vor – einen Generalisten-Agenten, der nach dem Prinzip „Einfachheit ist die höchste Form der Raffinesse“ entwickelt wurde und skalierbares agentisches Denken durch minimale Vordefinition und maximale Selbstentwicklung ermöglicht. Für die minimale Vordefinition ist Alita mit nur einer Komponente zur direkten Problemlösung ausgestattet, was ihn wesentlich einfacher und übersichtlicher macht als bisherige Ansätze, die stark auf handgefertigte, aufwendige Werkzeuge und Arbeitsabläufe angewiesen waren. Dieses klare Design erhöht sein Potenzial, sich auf herausfordernde Fragen zu verallgemeinern, ohne durch Werkzeuge eingeschränkt zu werden. Für die maximale Selbstentwicklung ermöglichen wir die Kreativität von Alita, indem wir eine Reihe von universellen Komponenten bereitstellen, um externe Fähigkeiten autonom zu konstruieren, zu verfeinern und wiederzuverwenden, indem wir aufgabenbezogene Modellkontextprotokolle (MCPs) aus Open Source generieren, was zu skalierbarem agentischem Denken beiträgt. Bemerkenswerterweise erreicht Alita eine Genauigkeit von 75,15 % pass@1 und 87,27 % pass@3, was ihn unter den Generalisten-Agenten an der Spitze platziert, auf dem GAIA-Benchmark-Validierungsdatensatz, sowie 74,00 % und 52,00 % pass@1 auf Mathvista und PathVQA, womit er viele Agentensysteme mit weitaus größerer Komplexität übertrifft. Weitere Details werden unter https://github.com/CharlesQ9/Alita aktualisiert.
Vision-Language-Modelle (VLMs) haben beeindruckende Ergebnisse bei Codierungs- und Mathematik-Benchmarks erzielt, die für Menschen herausfordernd sind. Dennoch bleibt ihre Fähigkeit, Aufgaben zu bewältigen, die für Menschen natürlich sind – wie Wahrnehmung, räumliche Navigation und Speicherverwaltung – weitgehend unerforscht. Echte Videospiele sind so gestaltet, dass sie für Menschen intuitiv zu erlernen und zu meistern sind, indem sie angeborene induktive Verzerrungen nutzen, was sie zu einem idealen Testfeld für die Bewertung solcher Fähigkeiten in VLMs macht. Zu diesem Zweck stellen wir VideoGameBench vor, einen Benchmark, der aus 10 beliebten Videospielen der 1990er Jahre besteht, mit denen VLMs in Echtzeit interagieren. VideoGameBench fordert Modelle heraus, ganze Spiele zu absolvieren, wobei sie nur auf rohe visuelle Eingaben und eine allgemeine Beschreibung der Ziele und Steuerungen zugreifen können. Dies stellt eine deutliche Abweichung von bestehenden Ansätzen dar, die auf spielspezifische Hilfestellungen und zusätzliche Informationen angewiesen sind. Drei der Spiele halten wir geheim, um Lösungen zu fördern, die auf unbekannte Umgebungen verallgemeinern können. Unsere Experimente zeigen, dass fortschrittliche Vision-Language-Modelle Schwierigkeiten haben, über den Anfang jedes Spiels hinauszukommen. Wir stellen fest, dass die Inferenzlatenz eine wesentliche Einschränkung fortschrittlicher Modelle im Echtzeit-Setting darstellt; daher führen wir VideoGameBench Lite ein, ein Setting, in dem das Spiel pausiert, während es auf die nächste Aktion des Sprachmodells wartet. Das beste Modell, Gemini 2.5 Pro, schafft nur 0,48 % von VideoGameBench und 1,6 % von VideoGameBench Lite. Wir hoffen, dass die Formalisierung der oben genannten menschlichen Fähigkeiten in diesem Benchmark Fortschritte in diesen Forschungsrichtungen anregt.
Mit den rasanten Fortschritten bei Nachbereitungstechniken für logisches Denken und Informationsbeschaffung können große Sprachmodelle (LLMs) eine große Menge an abgerufenen Wissen integrieren, um komplexe Aufgaben zu lösen. Allerdings behindert das begrenzte Kontextfenster von LLMs die Skalierung der Menge an externem Wissen, was weitere Verbesserungen insbesondere bei Aufgaben, die eine erhebliche Menge an externem Wissen erfordern, verhindert. Bestehende Methoden zur Erweiterung des Kontextfensters führen unweigerlich zu Informationsverlust. LLM-basierte Multi-Agenten-Methoden entstehen als neues Paradigma, um massive Eingaben auf verteilte Weise zu verarbeiten, wobei wir zwei zentrale Engpässe in bestehenden Wissenssynchronisations- und Denkprozessen identifizieren. In dieser Arbeit entwickeln wir ein Multi-Agenten-Framework, ExtAgents, um diese Engpässe zu überwinden und eine bessere Skalierbarkeit bei der Integration von Wissen zur Inferenzzeit ohne längerkontextiges Training zu ermöglichen. Benchmarking mit unserem erweiterten Multi-Hop-Frage-Antwort-Test, $boldsymbol{inftyBench+}$, und anderen öffentlichen Testdatensätzen, einschließlich der Generierung langer Umfragen, verbessert ExtAgents die Leistung signifikant gegenüber bestehenden Nicht-Trainingsmethoden mit der gleichen Menge an externem Wissensinput, unabhängig davon, ob es innerhalb oder außerhalb des Kontextfensters liegt. Darüber hinaus behält die Methode aufgrund hoher Parallelität eine hohe Effizienz bei. Weitere Untersuchungen zur Koordination von LLM-Agenten bei zunehmendem externem Wissensinput könnten reale Anwendungen begünstigen.
Frame Inbetweening zielt darauf ab, Zwischensequenzen in Videos zu synthetisieren, die durch die gegebenen Start- und Endframes bedingt sind. Aktuelle State-of-the-Art-Methoden erweitern hauptsächlich groß angelegte, vortrainierte Image-to-Video-Diffusionsmodelle (I2V-DMs), indem sie Endframe-Bedingungen durch direktes Fine-Tuning oder das Weglassen von Training einbeziehen. Wir identifizieren eine kritische Einschränkung in ihrem Design: Die Einbindung der Endframe-Bedingung nutzt üblicherweise denselben Mechanismus, der ursprünglich die Startframe-Bedingung (einzelnes Bild) auferlegt hat. Da die ursprünglichen I2V-DMs jedoch bereits ausreichend für die Startframe-Bedingung trainiert wurden, führt die naive Einführung der Endframe-Bedingung durch denselben Mechanismus mit deutlich weniger (oder sogar keiner) spezialisierten Trainingsdauer wahrscheinlich nicht dazu, dass der Endframe einen ebenso starken Einfluss auf den Zwischeninhalt hat wie der Startframe. Diese asymmetrische Kontrollstärke der beiden Frames über den Zwischeninhalt führt wahrscheinlich zu inkonsistenter Bewegung oder einem Zusammenbruch des Erscheinungsbilds in den generierten Frames. Um eine symmetrische Bedingung von Start- und Endframes effizient zu erreichen, schlagen wir ein neuartiges Framework vor, genannt Sci-Fi, das eine stärkere Einbindung für die Bedingung eines kleineren Trainingsumfangs vorsieht. Konkret behandelt es die Startframe-Bedingung wie bisher, während die Endframe-Bedingung durch einen verbesserten Mechanismus eingeführt wird. Der neue Mechanismus basiert auf einem gut durchdachten, leichtgewichtigen Modul, genannt EF-Net, das nur den Endframe kodiert und ihn in zeitlich adaptive Frame-spezifische Merkmale erweitert, die in das I2V-DM injiziert werden. Dies macht die Endframe-Bedingung ebenso stark wie die Startframe-Bedingung und ermöglicht es unserem Sci-Fi, harmonischere Übergänge in verschiedenen Szenarien zu erzeugen. Umfangreiche Experimente belegen die Überlegenheit unseres Sci-Fi im Vergleich zu anderen Baselines.
Diffusion Transformer (DiT)-basierte Video-Diffusionsmodelle erzeugen hochwertige Videos in großem Maßstab, verursachen jedoch prohibitive Verarbeitungslatenz und Speicherkosten für lange Videos. Um dies zu adressieren, schlagen wir eine neuartige verteilte Inferenzstrategie vor, genannt DualParal. Die Kernidee besteht darin, dass wir anstelle der Erzeugung eines gesamten Videos auf einer einzelnen GPU sowohl zeitliche Frames als auch Modellschichten über GPUs parallelisieren. Eine naive Implementierung dieser Aufteilung stößt jedoch auf eine entscheidende Einschränkung: Da Diffusionsmodelle synchronisierte Rauschpegel über Frames hinweg erfordern, führt diese Implementierung zur Serialisierung ursprünglicher Parallelismen. Wir nutzen ein blockweises Entrauschungsschema, um dies zu bewältigen. Konkret verarbeiten wir eine Sequenz von Frame-Blöcken durch die Pipeline mit progressiv abnehmenden Rauschpegeln. Jede GPU bearbeitet einen spezifischen Block und eine Teilmenge der Schichten, während vorherige Ergebnisse an die nächste GPU weitergegeben werden, was asynchrone Berechnung und Kommunikation ermöglicht. Um die Leistung weiter zu optimieren, integrieren wir zwei wesentliche Verbesserungen. Erstens wird auf jeder GPU ein Feature-Cache implementiert, um Features aus dem vorherigen Block als Kontext zu speichern und wiederzuverwenden, wodurch die Inter-GPU-Kommunikation und redundante Berechnungen minimiert werden. Zweitens verwenden wir eine koordinierte Rauschinitialisierungsstrategie, die global konsistente zeitliche Dynamik sicherstellt, indem initiale Rauschmuster über GPUs hinweg geteilt werden, ohne zusätzliche Ressourcenkosten zu verursachen. Zusammen ermöglichen diese Ansätze eine schnelle, artefaktfreie und unendlich lange Videogenerierung. Angewendet auf den neuesten Diffusion-Transformer-Videogenerator, produziert unsere Methode effizient 1.025-Frame-Videos mit bis zu 6,54-fach geringerer Latenz und 1,48-fach geringeren Speicherkosten auf 8xRTX 4090 GPUs.
Die Nachschulungskompression reduziert die Rechen- und Speicherkosten großer Sprachmodelle (LLMs) und ermöglicht eine ressourceneffiziente Bereitstellung. Bisher konzentrieren sich bestehende Kompressionsbenchmarks jedoch nur auf Sprachmodellierung (z. B. Perplexität) und Aufgaben des natürlichen Sprachverständnisses (z. B. GLUE-Genauigkeit) und ignorieren dabei die agentenbasierten Fähigkeiten – Workflow, Werkzeugnutzung/Funktionsaufruf, Langzeitkontextverständnis und reale Anwendungen. Wir stellen den Agent Compression Benchmark (ACBench) vor, den ersten umfassenden Benchmark zur Bewertung, wie sich die Kompression auf die agentenbasierten Fähigkeiten von LLMs auswirkt. ACBench umfasst (1) 12 Aufgaben über 4 Fähigkeiten hinweg (z. B. WorfBench für Workflow-Generierung, Needle-in-Haystack für Langzeitkontextabruf), (2) Quantisierung (GPTQ, AWQ) und Pruning (Wanda, SparseGPT) sowie (3) 15 Modelle, darunter kleine (Gemma-2B), Standard- (Qwen2.5 7B-32B) und destillierte Reasoning-LLMs (DeepSeek-R1-Distill). Unsere Experimente zeigen Kompromisse bei der Kompression: 4-Bit-Quantisierung bewahrt die Workflow-Generierung und Werkzeugnutzung (1%-3% Rückgang), verschlechtert jedoch die Genauigkeit bei realen Anwendungen um 10%-15%. Wir führen ERank, Top-k-Ranking-Korrelation und Energie ein, um die Analyse zu systematisieren. ACBench bietet umsetzbare Erkenntnisse zur Optimierung der LLM-Kompression in agentenbasierten Szenarien. Der Code ist unter https://github.com/pprp/ACBench verfügbar.
Jüngste Fortschritte bei Multimodalen Großen Sprachmodellen (MLLMs) haben vielversprechende Ergebnisse bei der Integration verschiedener Modalitäten wie Texte und Bilder gezeigt. MLLMs werden stark durch Modalitätsbias beeinflusst, wobei sie sich oft auf Sprache verlassen und andere Modalitäten wie visuelle Eingaben unterausnutzen. Dieses Positionspapier argumentiert, dass MLLMs tiefgreifend von Modalitätsbias betroffen sind. Erstens diagnostizieren wir den aktuellen Stand des Modalitätsbias und heben dessen Ausprägungen in verschiedenen Aufgaben hervor. Zweitens schlagen wir einen systematischen Forschungsfahrplan im Zusammenhang mit Modalitätsbias in MLLMs vor. Drittens identifizieren wir Schlüsselfaktoren des Modalitätsbias in MLLMs und bieten umsetzbare Vorschläge für zukünftige Forschung, um diesen zu mildern. Um diese Erkenntnisse zu untermauern, führen wir Experimente durch, die den Einfluss jedes Faktors demonstrieren: 1. Datencharakteristika: Sprachdaten sind kompakt und abstrakt, während visuelle Daten redundant und komplex sind, was ein inhärentes Ungleichgewicht in den Lernprozessen schafft. 2. Ungleiche Fähigkeiten der Backbone-Modelle: Die Dominanz vortrainierter Sprachmodelle in MLLMs führt zu einer Überbetonung von Sprache und einer Vernachlässigung visueller Informationen. 3. Trainingsziele: Aktuelle Ziele fördern oft keine ausgewogene cross-modale Ausrichtung, was zu einem Shortcut-Lernen führt, das auf Sprache ausgerichtet ist. Diese Erkenntnisse unterstreichen die Notwendigkeit ausgewogener Trainingsstrategien und Modellarchitekturen, um mehrere Modalitäten in MLLMs besser zu integrieren. Wir fordern interdisziplinäre Bemühungen, um diese Herausforderungen zu bewältigen und Innovationen in der MLLM-Forschung voranzutreiben. Unsere Arbeit bietet eine neue Perspektive auf Modalitätsbias in MLLMs und liefert Erkenntnisse für die Entwicklung robusterer und generalisierbarer multimodaler Systeme – ein Fortschritt hin zu Künstlicher Allgemeiner Intelligenz.
Biomedizinische Forscher verlassen sich zunehmend auf groß angelegte strukturierte Datenbanken für komplexe analytische Aufgaben. Aktuelle Text-zu-SQL-Systeme haben jedoch oft Schwierigkeiten, qualitative wissenschaftliche Fragen in ausführbare SQL-Abfragen abzubilden, insbesondere wenn implizites domänenspezifisches Denken erforderlich ist. Wir stellen BiomedSQL vor, den ersten Benchmark, der explizit entwickelt wurde, um wissenschaftliches Denken bei der Text-zu-SQL-Generierung über eine realitätsnahe biomedizinische Wissensdatenbank zu evaluieren. BiomedSQL umfasst 68.000 Frage/SQL-Abfrage/Antwort-Tripel, die auf einer harmonisierten BigQuery-Wissensdatenbank basieren, die Gen-Krankheits-Assoziationen, kausale Inferenzen aus Omics-Daten und Arzneimittelzulassungsdaten integriert. Jede Frage erfordert, dass Modelle domänenspezifische Kriterien ableiten, wie z. B. genomweite Signifikanzschwellen, Effektrichtungen oder Filterung nach Studienphasen, anstatt sich allein auf syntaktische Übersetzung zu verlassen. Wir evaluieren eine Reihe von Open-Source- und Closed-Source-LLMs über verschiedene Prompting-Strategien und Interaktionsparadigmen hinweg. Unsere Ergebnisse zeigen eine erhebliche Leistungslücke: GPT-o3-mini erreicht eine Ausführungsgenauigkeit von 59,0 %, während unser benutzerdefinierter Multi-Schritt-Agent, BMSQL, 62,6 % erreicht, beide deutlich unter der Experten-Baseline von 90,0 %. BiomedSQL bietet eine neue Grundlage für die Weiterentwicklung von Text-zu-SQL-Systemen, die in der Lage sind, die wissenschaftliche Entdeckung durch robustes Denken über strukturierte biomedizinische Wissensdatenbanken zu unterstützen. Unser Datensatz ist öffentlich verfügbar unter https://huggingface.co/datasets/NIH-CARD/BiomedSQL, und unser Code ist Open-Source unter https://github.com/NIH-CARD/biomedsql.
Große Sprachmodelle (LLMs) sind leistungsstark, neigen jedoch aufgrund statischen Wissens zu Halluzinationen. Retrieval-Augmented Generation (RAG) hilft dabei, indem externe Informationen eingespielt werden, doch aktuelle Methoden sind oft kostspielig, generalisieren schlecht oder ignorieren das interne Wissen des Modells. In diesem Artikel stellen wir R1-Searcher++ vor, ein neuartiges Framework, das darauf abzielt, LLMs so zu trainieren, dass sie sowohl interne als auch externe Wissensquellen adaptiv nutzen. R1-Searcher++ verwendet eine zweistufige Trainingsstrategie: eine anfängliche SFT Cold-start-Phase für das vorläufige Erlernen von Formaten, gefolgt von RL für die dynamische Wissensakquisition. Die RL-Phase nutzt Ergebnisüberwachung, um Exploration zu fördern, integriert einen Belohnungsmechanismus für die Nutzung internen Wissens und fügt einen Memorierungsmechanismus ein, um kontinuierlich abgerufene Informationen zu assimilieren und dadurch das interne Wissen des Modells zu bereichern. Durch die Nutzung internen Wissens und externer Suchmaschinen verbessert das Modell kontinuierlich seine Fähigkeiten und ermöglicht effizientes retrieval-augmentiertes Schließen. Unsere Experimente zeigen, dass R1-Searcher++ bisherige RAG- und Schließmethoden übertrifft und effizientes Retrieval erreicht. Der Code ist verfügbar unter https://github.com/RUCAIBox/R1-Searcher-plus.
Große Sprachmodelle haben beeindruckende Fähigkeiten im Bereich des logischen Denkens gezeigt, sind jedoch durch ihren Wissensspeicher inhärent begrenzt. Das retrievergestützte Denken mildert diese Einschränkung, indem es den Sprachmodellen ermöglicht, externe Ressourcen abzufragen. Bisherige Methoden rufen jedoch oft irrelevante oder verrauschte Informationen ab, was präzises Denken behindert. In diesem Artikel stellen wir AutoRefine vor, ein Reinforcement-Learning-Nachschulungs-Framework, das ein neues Paradigma des „Suchens und Verfeinerns während des Denkens“ einführt. AutoRefine integriert explizite Schritte zur Wissensverfeinerung zwischen aufeinanderfolgenden Suchanfragen, wodurch das Modell Beweise iterativ filtern, destillieren und organisieren kann, bevor es eine Antwort generiert. Darüber hinaus integrieren wir maßgeschneiderte, retriever-spezifische Belohnungen neben Belohnungen für die Antwortkorrektheit mithilfe der gruppenrelativen Politikoptimierung. Experimente auf Single-Hop- und Multi-Hop-Frage-Antwort-Benchmarks zeigen, dass AutoRefine bestehende Ansätze deutlich übertrifft, insbesondere in komplexen, Multi-Hop-Denkszenarien. Detaillierte Analysen zeigen, dass AutoRefine häufige, qualitativ hochwertige Suchanfragen stellt und Beweise effektiv synthetisiert.
Die rasante Weiterentwicklung von Large Multimodal Models (LMMs) für 2D-Bilder und Videos hat die Motivation verstärkt, diese Modelle auf das Verständnis von 3D-Szenen auszuweiten, um eine menschenähnliche visuell-räumliche Intelligenz zu erreichen. Dennoch stellt das Erreichen eines tiefen räumlichen Verständnisses, das mit menschlichen Fähigkeiten vergleichbar ist, erhebliche Herausforderungen in der Modellkodierung und Datenerfassung dar. Bestehende Methoden sind häufig auf externe Tiefensensoren zur Geometrieerfassung angewiesen oder nutzen Standardalgorithmen zur Vorabkonstruktion von 3D-Karten, was ihre Skalierbarkeit einschränkt, insbesondere bei weit verbreiteten monokularen Videoeingaben und für zeitkritische Anwendungen. In dieser Arbeit stellen wir VLM-3R vor, ein einheitliches Framework für Vision-Language Models (VLMs), das 3D-Rekonstruktive Instruction Tuning integriert. VLM-3R verarbeitet monokulare Videobilder, indem es einen Geometrie-Encoder verwendet, um implizite 3D-Tokens abzuleiten, die das räumliche Verständnis repräsentieren. Durch die Nutzung unserer Spatial-Visual-View Fusion und über 200.000 kuratierten 3D-rekonstruktiven Instruction-Tuning-Frage-Antwort-Paaren (QA) aligniert VLM-3R effektiv den realen räumlichen Kontext mit Sprachanweisungen. Dies ermöglicht monokulare 3D-räumliche Unterstützung und verkörperte Schlussfolgerungen. Um die Bewertung des zeitlichen Denkens zu erleichtern, führen wir den Vision-Spatial-Temporal Intelligence Benchmark ein, der über 138.600 QA-Paare in fünf verschiedenen Aufgaben umfasst, die sich auf sich entwickelnde räumliche Beziehungen konzentrieren. Umfangreiche Experimente zeigen, dass unser Modell, VLM-3R, nicht nur robustes visuell-räumliches Denken ermöglicht, sondern auch das Verständnis für zeitliche 3D-Kontextveränderungen fördert und sowohl in der Genauigkeit als auch in der Skalierbarkeit überzeugt.
Die multimodale Informationsrückgewinnung (Multimodal Information Retrieval, MIR) steht vor inhärenten Herausforderungen aufgrund der Heterogenität der Datenquellen und der Komplexität der cross-modalen Ausrichtung. Während frühere Studien modale Lücken in Merkmalsräumen identifiziert haben, bleibt ein systematischer Ansatz zur Bewältigung dieser Herausforderungen unerforscht. In dieser Arbeit stellen wir UNITE vor, ein universelles Framework, das diese Herausforderungen durch zwei kritische, aber bisher wenig erforschte Aspekte angeht: Datenkuratierung und modalitätsbewusste Trainingskonfigurationen. Unsere Arbeit bietet die erste umfassende Analyse, wie modalitätsspezifische Dateneigenschaften die Leistung nachgelagerter Aufgaben in verschiedenen Szenarien beeinflussen. Darüber hinaus schlagen wir Modal-Aware Masked Contrastive Learning (MAMCL) vor, um die konkurrierenden Beziehungen zwischen den Instanzen verschiedener Modalitäten zu mildern. Unser Framework erzielt state-of-the-art Ergebnisse auf mehreren multimodalen Retrieval-Benchmarks und übertrifft bestehende Methoden mit bemerkenswerten Abständen. Durch umfangreiche Experimente zeigen wir, dass strategische Modalitätskuratierung und maßgeschneiderte Trainingsprotokolle entscheidend für robustes cross-modales Repräsentationslernen sind. Diese Arbeit verbessert nicht nur die MIR-Leistung, sondern bietet auch einen grundlegenden Leitfaden für zukünftige Forschung in multimodalen Systemen. Unser Projekt ist verfügbar unter https://friedrichor.github.io/projects/UNITE.
Target Speech Extraction (TSE) zielt darauf ab, die Stimme eines Zielsprechers aus einer Mischung mehrerer Sprecher zu isolieren, indem spezifische Sprechermerkmale genutzt werden, die typischerweise als zusätzliches Audio (auch bekannt als Cue-Audio) bereitgestellt werden. Obwohl die jüngsten Fortschritte in TSE hauptsächlich diskriminative Modelle verwendet haben, die eine hohe wahrgenommene Qualität bieten, führen diese Modelle oft unerwünschte Artefakte ein, verringern die Natürlichkeit und sind empfindlich gegenüber Diskrepanzen zwischen Trainings- und Testumgebungen. Auf der anderen Seite hinken generative Modelle für TSE in Bezug auf wahrgenommene Qualität und Verständlichkeit hinterher. Um diese Herausforderungen zu bewältigen, präsentieren wir SoloSpeech, eine neuartige kaskadierte generative Pipeline, die Kompression, Extraktion, Rekonstruktion und Korrekturprozesse integriert. SoloSpeech verfügt über einen zielsprecher-embedding-freien Extraktor, der bedingte Informationen aus dem latenten Raum des Cue-Audios nutzt und diesen mit dem latenten Raum des Mischaudios abstimmt, um Fehlanpassungen zu verhindern. Bewertet auf dem weit verbreiteten Libri2Mix-Datensatz, erreicht SoloSpeech den neuen Stand der Technik in Bezug auf Verständlichkeit und Qualität bei der Zielsprachextraktion und Sprachseparation und zeigt dabei eine außergewöhnliche Generalisierung auf Daten außerhalb des Trainingsbereichs und in realen Szenarien.
Jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) haben deren Fähigkeiten erheblich verbessert; dennoch bleibt ihre räumliche Wahrnehmungsfähigkeit eine bemerkenswerte Einschränkung. Um diese Herausforderung zu bewältigen, bietet die multimodale Datensynthese eine vielversprechende Lösung. Es ist jedoch keine triviale Aufgabe, sicherzustellen, dass synthetisierte Daten räumlichem Common Sense entsprechen. In dieser Arbeit stellen wir SKG2Data vor, einen neuartigen multimodalen Syntheseansatz, der durch räumliche Wissensgraphen geleitet wird und auf dem Konzept der Wissens-zu-Daten-Generierung basiert. SKG2Data konstruiert automatisch einen Spatial Knowledge Graph (SKG), um die menschliche Wahrnehmung von räumlichen Richtungen und Entfernungen nachzuahmen, der anschließend zur Steuerung der multimodalen Datensynthese verwendet wird. Umfangreiche Experimente zeigen, dass Daten, die aus verschiedenen Arten von räumlichem Wissen, einschließlich Richtung und Entfernung, synthetisiert werden, nicht nur die räumliche Wahrnehmungs- und Schlussfolgerungsfähigkeiten von MLLMs verbessern, sondern auch starke Generalisierungsfähigkeiten aufweisen. Wir hoffen, dass die Idee der wissensbasierten Datensynthese die Entwicklung der räumlichen Intelligenz vorantreiben kann.
Während virtuelle Anprobe-Systeme (VTON) darauf abzielen, ein Kleidungsstück in ein Zielpersonenbild zu rendern, widmet sich diese Arbeit der neuartigen Aufgabe der virtuellen Entnahme (VTOFF), die das umgekehrte Problem behandelt: die Erzeugung standardisierter Produktbilder von Kleidungsstücken aus realen Fotos bekleideter Personen. Im Gegensatz zu VTON, das diverse Pose- und Stilvariationen bewältigen muss, profitiert VTOFF von einem konsistenten und klar definierten Ausgabeformat – typischerweise einer flachen, liegenden Darstellung des Kleidungsstücks –, was es zu einem vielversprechenden Werkzeug für die Datengenerierung und Datensatzverbesserung macht. Bestehende VTOFF-Ansätze stehen jedoch vor zwei großen Herausforderungen: (i) Schwierigkeiten bei der Trennung von Kleidungsmerkmalen von Verdeckungen und komplexen Posen, was oft zu visuellen Artefakten führt, und (ii) eine eingeschränkte Anwendbarkeit auf Einzelkategorie-Kleidungsstücke (z.B. nur Oberbekleidung), was die Generalisierung einschränkt. Um diese Herausforderungen zu bewältigen, präsentieren wir Text-Enhanced MUlti-category Virtual Try-Off (TEMU-VTOFF), eine neuartige Architektur mit einem dualen DiT-basierten Backbone und einem modifizierten multimodalen Aufmerksamkeitsmechanismus zur robusten Extraktion von Kleidungsmerkmalen. Unsere Architektur ist darauf ausgelegt, Kleidungsinformationen aus mehreren Modalitäten wie Bildern, Text und Masken in einem Mehrkategorie-Setting zu verarbeiten. Schließlich schlagen wir ein zusätzliches Ausrichtungsmodul vor, um die generierten visuellen Details weiter zu verfeinern. Experimente auf den VITON-HD- und Dress-Code-Datensätzen zeigen, dass TEMU-VTOFF einen neuen State-of-the-Art auf der VTOFF-Aufgabe setzt und sowohl die visuelle Qualität als auch die Treue zu den Zielkleidungsstücken signifikant verbessert.
Da große Sprachmodelle an Fähigkeit und Handlungsfähigkeit gewinnen, wird die Identifizierung von Schwachstellen durch Red-Teaming entscheidend für den sicheren Einsatz. Traditionelle Prompt-Engineering-Ansätze könnten jedoch unwirksam werden, sobald Red-Teaming zu einem Problem des schwachen gegenüber starken Modellen wird, bei dem die Zielmodelle die Fähigkeiten der Red-Teamer übertreffen. Um diesen Wandel zu untersuchen, betrachten wir Red-Teaming durch die Linse des Fähigkeitsgefälles zwischen Angreifer und Ziel. Wir bewerten mehr als 500 Angreifer-Ziel-Paare mithilfe von LLM-basierten Jailbreak-Angriffen, die menschliche Red-Teamer über verschiedene Modellfamilien, Größen und Fähigkeitsniveaus hinweg nachahmen. Drei deutliche Trends zeichnen sich ab: (i) leistungsfähigere Modelle sind bessere Angreifer, (ii) die Erfolgsrate von Angriffen sinkt stark, sobald die Fähigkeiten des Ziels die des Angreifers übersteigen, und (iii) die Erfolgsraten von Angriffen korrelieren mit hoher Leistung auf den sozialwissenschaftlichen Teilen des MMLU-Pro-Benchmarks. Aus diesen Trends leiten wir ein Jailbreak-Skalierungsgesetz ab, das den Angriffserfolg für ein festes Ziel basierend auf dem Fähigkeitsgefälle zwischen Angreifer und Ziel vorhersagt. Diese Erkenntnisse deuten darauf hin, dass Angreifer mit festen Fähigkeiten (z. B. Menschen) gegenüber zukünftigen Modellen unwirksam werden könnten, zunehmend leistungsfähige Open-Source-Modelle die Risiken für bestehende Systeme verstärken und Modellanbieter die Überzeugungs- und Manipulationsfähigkeiten ihrer Modelle genau messen und kontrollieren müssen, um deren Wirksamkeit als Angreifer zu begrenzen.
Digitale Forensik und Incident Response (DFIR) umfasst die Analyse digitaler Beweise zur Unterstützung rechtlicher Untersuchungen. Große Sprachmodelle (LLMs) bieten neue Möglichkeiten in DFIR-Aufgaben wie der Protokollanalyse und der Speicherforensik, doch ihre Anfälligkeit für Fehler und Halluzinationen wirft Bedenken in hochsensiblen Kontexten auf. Trotz des wachsenden Interesses gibt es keinen umfassenden Benchmark, um LLMs sowohl in theoretischen als auch praktischen DFIR-Bereichen zu bewerten. Um diese Lücke zu schließen, stellen wir DFIR-Metric vor, einen Benchmark mit drei Komponenten: (1) Wissensbewertung: eine Sammlung von 700 von Experten geprüften Multiple-Choice-Fragen, die aus branchenüblichen Zertifizierungen und offiziellen Dokumentationen stammen; (2) Realistische forensische Herausforderungen: 150 CTF-ähnliche Aufgaben, die mehrstufiges Denken und Beweiskorrelation testen; und (3) Praktische Analyse: 500 Fälle aus dem NIST Computer Forensics Tool Testing Program (CFTT) zur Festplatten- und Speicherforensik. Wir haben 14 LLMs mit DFIR-Metric bewertet und sowohl ihre Genauigkeit als auch ihre Konsistenz über mehrere Durchläufe hinweg analysiert. Zudem führen wir eine neue Metrik ein, den Task Understanding Score (TUS), der entwickelt wurde, um Modelle in Szenarien, in denen sie eine nahezu null Genauigkeit erreichen, effektiver zu bewerten. Dieser Benchmark bietet eine rigorose, reproduzierbare Grundlage für die Weiterentwicklung von KI in der digitalen Forensik. Alle Skripte, Artefakte und Ergebnisse sind auf der Projektwebsite unter https://github.com/DFIR-Metric verfügbar.
Mit dem rasanten Fortschritt generativer Modelle hat die allgemeine Generierung zunehmend Aufmerksamkeit als vielversprechender Ansatz erlangt, um verschiedene Aufgaben über Modalitäten hinweg in einem einzigen System zu vereinen. Trotz dieser Fortschritte bleiben bestehende Open-Source-Frameworks oft fragil und haben Schwierigkeiten, komplexe Anwendungen in der realen Welt zu unterstützen, was auf den Mangel an strukturierter Arbeitsablaufplanung und Feedback auf Ausführungsebene zurückzuführen ist. Um diese Einschränkungen zu überwinden, präsentieren wir ComfyMind, ein kollaboratives KI-System, das darauf abzielt, robuste und skalierbare allgemeine Generierung zu ermöglichen, basierend auf der ComfyUI-Plattform. ComfyMind führt zwei Kerninnovationen ein: Die Semantic Workflow Interface (SWI), die Low-Level-Knotengraphen in aufrufbare Funktionsmodule abstrahiert, die in natürlicher Sprache beschrieben sind, wodurch High-Level-Komposition ermöglicht und strukturelle Fehler reduziert werden; sowie den Search Tree Planning-Mechanismus mit lokalisiertem Feedback zur Ausführung, der die Generierung als hierarchischen Entscheidungsprozess modelliert und adaptive Korrekturen in jeder Phase ermöglicht. Zusammen verbessern diese Komponenten die Stabilität und Flexibilität komplexer generativer Arbeitsabläufe. Wir evaluieren ComfyMind anhand von drei öffentlichen Benchmarks: ComfyBench, GenEval und Reason-Edit, die Generierungs-, Bearbeitungs- und Schlussfolgerungsaufgaben abdecken. Die Ergebnisse zeigen, dass ComfyMind bestehende Open-Source-Baselines konsequent übertrifft und eine Leistung erzielt, die mit GPT-Image-1 vergleichbar ist. ComfyMind ebnet einen vielversprechenden Weg für die Entwicklung von Open-Source-Systemen für allgemeine generative KI. Projektseite: https://github.com/LitaoGuo/ComfyMind
Vision-Language Model (VLM)-basierte Web-Agents stellen einen bedeutenden Schritt zur Automatisierung komplexer Aufgaben dar, indem sie menschenähnliche Interaktionen mit Websites simulieren. Ihre Bereitstellung in unkontrollierten Webumgebungen führt jedoch zu erheblichen Sicherheitslücken. Bisherige Forschung zu adversariellen Umgebungsinjektionsangriffen stützt sich oft auf unrealistische Annahmen, wie direkte HTML-Manipulation, Kenntnis der Benutzerabsicht oder Zugriff auf die Modellparameter des Agents, was ihre praktische Anwendbarkeit einschränkt. In diesem Artikel stellen wir AdInject vor, eine neuartige und praxisnahe Black-Box-Angriffsmethode, die die Internetwerbeauslieferung nutzt, um bösartige Inhalte in die Umgebung des Web-Agents einzuschleusen. AdInject operiert unter einem deutlich realistischeren Bedrohungsmodell als bisherige Arbeiten, indem es einen Black-Box-Agent, statische Einschränkungen für bösartige Inhalte und keine spezifische Kenntnis der Benutzerabsicht annimmt. AdInject umfasst Strategien zur Gestaltung bösartiger Werbeinhalte, die darauf abzielen, Agents zu täuschen und sie zum Klicken zu verleiten, sowie eine VLM-basierte Optimierungstechnik für Werbeinhalte, die potenzielle Benutzerabsichten aus dem Kontext der Zielwebsite ableitet und diese Absichten in die Werbeinhalte integriert, um sie relevanter oder kritischer für die Aufgabe des Agents erscheinen zu lassen und so die Angriffswirksamkeit zu steigern. Experimentelle Auswertungen demonstrieren die Effektivität von AdInject, wobei die Angriffserfolgsraten in den meisten Szenarien 60 % überschreiten und in bestimmten Fällen nahezu 100 % erreichen. Dies zeigt deutlich, dass die weit verbreitete Werbeauslieferung einen wirksamen und praxisnahen Angriffsvektor für Umgebungsinjektionsangriffe auf Web-Agents darstellt. Diese Arbeit beleuchtet eine kritische Schwachstelle in der Sicherheit von Web-Agents, die sich aus realen Manipulationskanälen der Umgebung ergibt, und unterstreicht die dringende Notwendigkeit, robuste Abwehrmechanismen gegen solche Bedrohungen zu entwickeln. Unser Code ist verfügbar unter https://github.com/NicerWang/AdInject.
State-of-the-Art-Modelle zur Text-zu-Bewegung-Generierung basieren auf der kinematikbewussten, lokal-relativen Bewegungsdarstellung, die durch HumanML3D populär gemacht wurde. Diese kodiert Bewegung relativ zum Becken und zum vorherigen Frame mit eingebauter Redundanz. Während dieses Design das Training für frühere Generierungsmodelle vereinfacht, führt es kritische Einschränkungen für Diffusionsmodelle ein und behindert die Anwendbarkeit auf nachgelagerte Aufgaben. In dieser Arbeit überdenken wir die Bewegungsdarstellung und schlagen eine radikal vereinfachte und lange vernachlässigte Alternative für die Text-zu-Bewegung-Generierung vor: absolute Gelenkkoordinaten im globalen Raum. Durch systematische Analyse der Designentscheidungen zeigen wir, dass diese Formulierung eine signifikant höhere Bewegungsqualität, verbesserte Textausrichtung und starke Skalierbarkeit erreicht, selbst mit einem einfachen Transformer-Backbone und ohne zusätzliche kinematikbewusste Verlustfunktionen. Darüber hinaus unterstützt unsere Formulierung natürlicherweise nachgelagerte Aufgaben wie textgesteuerte Bewegungssteuerung und zeitliche/räumliche Bearbeitung, ohne zusätzliche aufgabenspezifische Neuentwicklung und kostspielige Klassifikator-gesteuerte Generierung aus Steuersignalen. Schließlich demonstrieren wir eine vielversprechende Generalisierungsfähigkeit, um direkt SMPL-H-Mesh-Vertices in Bewegung aus Text zu generieren, und legen damit eine solide Grundlage für zukünftige Forschung und bewegungsbezogene Anwendungen.
Vision-Language Models (VLMs) zeichnen sich in vielfältigen Aufgaben aus, leiden jedoch unter hohen Inferenzkosten in Bezug auf Zeit und Speicher. Token-Sparsity mildert Ineffizienzen in der Token-Nutzung, während Neuron-Sparsity hochdimensionale Berechnungen reduziert – beide bieten vielversprechende Lösungen zur Steigerung der Effizienz. In jüngster Zeit haben sich diese beiden Sparsity-Paradigmen weitgehend parallel entwickelt, was die vorherrschende Annahme förderte, dass sie unabhängig voneinander funktionieren. Doch eine grundlegende, jedoch wenig erforschte Frage bleibt: Operieren sie tatsächlich isoliert, oder gibt es eine tieferliegende Wechselwirkung, die noch nicht entdeckt wurde? In diesem Papier führen wir die erste umfassende Untersuchung zu dieser Frage durch. Durch die Einführung und Analyse des Matching-Mechanismus zwischen Core Neurons und Core Tokens fanden wir heraus, dass Schlüsselneuronen und -tokens für die Inferenz sich gegenseitig beeinflussen und verstärken. Aufbauend auf dieser Erkenntnis schlagen wir CoreMatching vor, ein ko-adaptives sparses Inferenz-Framework, das die Synergie zwischen Token- und Neuron-Sparsity nutzt, um die Inferenzeffizienz zu steigern. Durch theoretische Analysen und Effizienzbewertungen zeigen wir, dass die vorgeschlagene Methode state-of-the-art Baselines auf zehn Bildverständnisaufgaben und drei Hardware-Geräten übertrifft. Bemerkenswerterweise erreichte sie auf der NVIDIA Titan Xp eine 5-fache Reduktion der FLOPs und eine 10-fache Gesamtbeschleunigung. Der Code ist unter https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main veröffentlicht.
DeepSeek-R1 hat durch stabiles Reinforcement Learning (RL) beeindruckende Fähigkeiten im Bereich der Textverarbeitung demonstriert. Kürzlich wurden im multimodalen Bereich Arbeiten veröffentlicht, die RL direkt anwenden, um R1-ähnliche freie Schlussfolgerungen für Aufgaben der visuellen Fragebeantwortung (Visual Question Answering, VQA) zu generieren. Multimodale Aufgaben unterscheiden sich jedoch grundlegend von textbasierten Aufgaben, da sie stark auf das Verständnis des Eingabebildes angewiesen sind, um das Problem zu lösen. Daher stößt diese Art der freien Schlussfolgerung bei VQA-Aufgaben auf zwei kritische Einschränkungen: (1) Längere Schlussfolgerungsketten lenken den visuellen Fokus von aufgabenkritischen Regionen ab, was die Antwortgenauigkeit verringert. (2) Nicht überprüfbare Zwischenschritte verstärken die Varianz der Policy-Gradienten und erhöhen die Rechenkosten. Um diese Probleme zu lösen, stellen wir in diesem Artikel SATORI (Spatially Anchored Task Optimization with Reinforcement Learning) vor, das VQA in drei überprüfbare Stufen unterteilt: globale Bildbeschreibung, Regionenlokalisierung und Antwortvorhersage, wobei jede Stufe explizite Belohnungssignale liefert. Darüber hinaus führen wir VQA-Verify ein, einen Datensatz mit 12.000 Einträgen, der mit antwortbezogenen Beschreibungen und Begrenzungsrahmen annotiert ist, um das Training zu erleichtern. Experimente zeigen konsistente Leistungsverbesserungen über sieben VQA-Benchmarks hinweg, mit einer Genauigkeitssteigerung von bis zu 15,7 % im Vergleich zur R1-ähnlichen Baseline. Unsere Analyse der Aufmerksamkeitskarten bestätigt einen verbesserten Fokus auf kritische Regionen, was zu einer höheren Genauigkeit führt. Unser Code ist unter https://github.com/justairr/SATORI-R1 verfügbar.
Mixture-of-Experts (MoE)-Architekturen ermöglichen die Skalierung großer Sprachmodelle (LLMs) auf enorme Parameterzahlen ohne einen proportionalen Anstieg der Rechenkosten. Die erheblichen Speicheranforderungen großer MoE-Modelle behindern jedoch deren Einsatz in verschiedenen Rechenumgebungen, von Cloud-Servern bis hin zu Endgeräten. Diese Studie zeigt zunächst eine ausgeprägte aufgabenbezogene Spezialisierung in den Aktivierungsmustern der Experten innerhalb der MoE-Schichten. Aufbauend darauf stellen wir PreMoe vor, ein neuartiges Framework, das den effizienten Einsatz massiver MoE-Modelle in speicherbeschränkten Umgebungen ermöglicht. PreMoe umfasst zwei Hauptkomponenten: probabilistisches Experten-Pruning (PEP) und aufgabenadaptives Experten-Retrieval (TAER). PEP verwendet eine neue Metrik, den aufgabenbedingten erwarteten Auswahlwert (TCESS), der aus den Router-Logits abgeleitet wird, um die Bedeutung der Experten für spezifische Aufgaben zu quantifizieren und so eine minimale Menge kritischer Experten zu identifizieren. TAER nutzt diese aufgabenspezifischen Expertenbedeutungsprofile für effizientes Inferenzverfahren. Es berechnet und speichert kompakte Expertenmuster für verschiedene Aufgaben im Voraus. Wenn eine Benutzeranfrage eingeht, identifiziert TAER schnell das relevanteste gespeicherte Aufgabenmuster und rekonstruiert das Modell, indem nur die kleine Teilmenge der Experten geladen wird, die für diese Aufgabe entscheidend sind. Dieser Ansatz reduziert den Speicherbedarf in allen Einsatzszenarien drastisch. DeepSeek-R1 671B behält 97,2 % Genauigkeit auf MATH500 bei einer Pruning-Konfiguration von 8/128 (50 % Expertenreduktion) und erreicht sogar 72,0 % bei aggressivem 8/32-Pruning (87,5 % Expertenreduktion). Pangu-Ultra-MoE 718B erreicht 97,15 % auf MATH500 und 81,3 % auf AIME24 mit 8/128-Pruning, während noch aggressiveres Pruning auf 4/64 (390 GB Speicher) eine Genauigkeit von 96,95 % auf MATH500 bewahrt. Unser Code ist öffentlich verfügbar unter https://github.com/JarvisPei/PreMoe.
In dieser Arbeit zielen wir darauf ab, die Fähigkeit zur logischen Schlussfolgerung von Multimodalen Großen Sprachmodellen (MLLMs) durch Reinforcement Learning (RL) zu fördern und einen effektiven Ansatz zu entwickeln, der die Probleme spärlicher Belohnungen und verschwindender Vorteile während des RLs mildert. Zu diesem Zweck schlagen wir Share-GRPO vor, einen neuartigen RL-Ansatz, der diese Probleme angeht, indem er vielfältige Schlussfolgerungspfade über einen erweiterten Fragenraum erkundet und teilt. Konkret erweitert Share-GRPO zunächst den Fragenraum für eine gegebene Frage durch Datenumwandlungstechniken und ermutigt dann das MLLM, effektiv vielfältige Schlussfolgerungspfade über den erweiterten Fragenraum zu erkunden und die entdeckten Schlussfolgerungspfade während des RLs über die erweiterten Fragen hinweg zu teilen. Darüber hinaus teilt Share-GRPO auch Belohnungsinformationen während der Vorteilsberechnung, die die Lösungsvorteile hierarchisch über und innerhalb von Fragenvarianten schätzt, was eine genauere Schätzung der relativen Vorteile ermöglicht und die Stabilität der Politikschulung verbessert. Umfangreiche Bewertungen über sechs weit verbreitete logische Benchmark-Tests zeigen die überlegene Leistung unserer Methode. Der Code wird unter https://github.com/HJYao00/R1-ShareVL verfügbar sein.
Das Verständnis der Quellen der Unsicherheit eines Modells in Bezug auf seine Vorhersagen ist entscheidend für eine effektive Mensch-KI-Zusammenarbeit. Bisherige Arbeiten schlagen die Verwendung von numerischer Unsicherheit oder Abschwächungen („Ich bin mir nicht sicher, aber ...“) vor, die jedoch keine Erklärungen für Unsicherheiten liefern, die aus widersprüchlichen Beweisen resultieren, wodurch Nutzer nicht in der Lage sind, Meinungsverschiedenheiten zu klären oder sich auf die Ausgabe zu verlassen. Wir stellen CLUE (Conflict-and-Agreement-aware Language-model Uncertainty Explanations) vor, das erste Framework, das natürliche Spracherklärungen der Modellunsicherheit generiert, indem es (i) Beziehungen zwischen Textabschnitten identifiziert, die Behauptungs-Beweis- oder Beweis-Beweis-Konflikte und Übereinstimmungen aufdecken, die die Vorhersageunsicherheit des Modells auf unüberwachte Weise antreiben, und (ii) Erklärungen durch Prompting und Attention Steering erzeugt, die diese kritischen Interaktionen verbalisieren. Über drei Sprachmodelle und zwei Faktenprüfungsdatensätze hinweg zeigen wir, dass CLUE Erklärungen liefert, die treuer zur Unsicherheit des Modells und konsistenter mit Faktenprüfungsentscheidungen sind als das Anfordern von Unsicherheitserklärungen ohne Anleitung zur Textabschnittsinteraktion. Menschliche Bewerter beurteilen unsere Erklärungen als hilfreicher, informativer, weniger redundant und logisch konsistenter mit der Eingabe als diesen Basisansatz. CLUE erfordert kein Fine-Tuning oder architektonische Änderungen, was es zu einem Plug-and-Play-Tool für jedes White-Box-Sprachmodell macht. Durch die explizite Verknüpfung von Unsicherheit mit Beweiskonflikten bietet es praktische Unterstützung für die Faktenprüfung und lässt sich leicht auf andere Aufgaben übertragen, die das Schlussfolgern über komplexe Informationen erfordern.
Dynamische Programmierung (DP)-Algorithmen für kombinatorische Optimierungsprobleme arbeiten mit Maximierung, Minimierung und klassischer Addition in ihren Rekursionsalgorithmen. Die zugehörigen Wertfunktionen entsprechen konvexen Polyedern im Max-Plus-Halbring. Bestehende Modelle des Neural Algorithmic Reasoning verlassen sich jedoch auf Softmax-normalisierte Dot-Produkt-Attention, bei der die glatte exponentielle Gewichtung diese scharfen polyedrischen Strukturen verwischt und bei der Auswertung in Out-of-Distribution (OOD)-Szenarien zusammenbricht. Wir führen Tropical Attention ein, eine neuartige Attention-Funktion, die nativ im Max-Plus-Halbring der tropischen Geometrie operiert. Wir beweisen, dass Tropical Attention tropische Schaltkreise von DP-artigen kombinatorischen Algorithmen approximieren kann. Wir schlagen dann vor, dass die Verwendung von Tropical Transformern die empirische OOD-Leistung sowohl bei der Längengeneralisierung als auch bei der Wertgeneralisierung in algorithmischen Reasoning-Aufgaben verbessert und dabei Softmax-Baselines übertrifft, während sie unter Adversarial-Angriffen stabil bleibt. Wir führen auch Adversarial-Angriffs-Generalisierung als dritte Achse für das Benchmarking von Neural Algorithmic Reasoning ein. Unsere Ergebnisse zeigen, dass Tropical Attention das scharfe, skalierungsinvariante Reasoning wiederherstellt, das bei Softmax fehlt.
Große Sprachmodelle (LLMs) werden zunehmend als leistungsstarke Werkzeuge für wissenschaftliche Entdeckungen anerkannt, insbesondere in der Molekularwissenschaft. Eine grundlegende Anforderung an diese Modelle ist die Fähigkeit, molekulare Strukturen präzise zu verstehen, die üblicherweise in der SMILES-Darstellung kodiert sind. Allerdings haben aktuelle LLMs Schwierigkeiten, SMILES zu interpretieren, und scheitern sogar an grundlegenden Aufgaben wie dem Zählen von molekularen Ringen. Um diese Einschränkung zu überwinden, stellen wir CLEANMOL vor, ein neuartiges Framework, das das Parsen von SMILES in eine Reihe von klaren und deterministischen Aufgaben formuliert, die explizit darauf ausgelegt sind, das Verständnis auf Graphenebene für molekulare Strukturen zu fördern. Diese Aufgaben reichen von der Subgraph-Erkennung bis zum globalen Graph-Abgleich und bieten strukturierte Supervision, die mit den strukturellen Eigenschaften von Molekülen abgestimmt ist. Wir erstellen einen molekularen Pretraining-Datensatz mit adaptiver Schwierigkeitsbewertung und trainieren Open-Source-LLMs auf diesen Aufgaben. Unsere Ergebnisse zeigen, dass CLEANMOL nicht nur das strukturelle Verständnis verbessert, sondern auch die besten Ergebnisse auf dem Mol-Instructions-Benchmark erzielt oder mit den Baselines konkurriert.
Retrieval Augmented Generation verbessert die Genauigkeit von LLMs, indem Passagen aus einem externen Korpus zum LLM-Prompt hinzugefügt werden. Diese Arbeit untersucht, wie Positionsbias – die Tendenz von LLMs, Informationen basierend auf ihrer Position im Prompt unterschiedlich zu gewichten – nicht nur die Fähigkeit des LLMs beeinflusst, relevante Passagen zu nutzen, sondern auch seine Anfälligkeit für ablenkende Passagen. Durch umfangreiche Experimente auf drei Benchmarks zeigen wir, wie state-of-the-art Retrieval-Pipelines, während sie versuchen, relevante Passagen abzurufen, systematisch stark ablenkende Passagen in die oberen Ränge bringen, wobei über 60 % der Anfragen mindestens eine stark ablenkende Passage unter den Top-10 abgerufenen Passagen enthalten. Infolgedessen ist die Auswirkung des LLM-Positionsbias, die in kontrollierten Umgebungen oft als sehr ausgeprägt beschrieben wird, in realen Szenarien tatsächlich marginal, da sowohl relevante als auch ablenkende Passagen gleichermaßen benachteiligt werden. Tatsächlich zeigen unsere Ergebnisse, dass ausgefeilte Strategien, die versuchen, die Passagen basierend auf den Positionspräferenzen des LLMs neu anzuordnen, nicht besser abschneiden als zufälliges Mischen.
Vision Transformers (ViTs) haben sich als dominante Architektur für visuelle Verarbeitungsaufgaben etabliert und zeigen eine hervorragende Skalierbarkeit bei zunehmenden Trainingsdaten und Modellgrößen. Jüngste Arbeiten haben jedoch das Auftreten von Artefakt-Tokens in ViTs identifiziert, die nicht mit der lokalen Semantik übereinstimmen. Diese anomalen Tokens beeinträchtigen die Leistung von ViTs bei Aufgaben, die eine feinkörnige Lokalisierung oder strukturelle Kohärenz erfordern. Eine effektive Lösung für dieses Problem ist die Hinzufügung von Register-Tokens zu ViTs, die während des Trainings implizit die Artefakt-Terme „absorbieren“. Angesichts der Verfügbarkeit verschiedener großskaliger, vortrainierter ViTs zielen wir in dieser Arbeit darauf ab, diese mit solchen Register-Tokens auszustatten, ohne sie von Grund auf neu trainieren zu müssen, was angesichts ihrer Größe nicht praktikabel ist. Konkret schlagen wir Post Hoc Registers (PH-Reg) vor, eine effiziente Selbst-Distillationsmethode, die Register in einen bestehenden ViT integriert, ohne zusätzliche gelabelte Daten und vollständiges Retraining zu erfordern. PH-Reg initialisiert sowohl das Lehrer- als auch das Schüler-Netzwerk aus demselben vortrainierten ViT. Der Lehrer bleibt eingefroren und unverändert, während der Schüler mit zufällig initialisierten Register-Tokens erweitert wird. Durch die Anwendung von Test-Time-Augmentation auf die Eingaben des Lehrers erzeugen wir denoisierte, dichte Embeddings ohne Artefakte, die dann verwendet werden, um nur eine kleine Teilmenge der entsperrten Gewichte des Schülers zu optimieren. Wir zeigen, dass unser Ansatz die Anzahl der Artefakt-Tokens effektiv reduzieren kann und die Segmentierung und Tiefenvorhersage des Schüler-ViTs unter Zero-Shot- und Linear-Probing-Bedingungen verbessert.
Protein Language Models (PLMs) haben sich als leistungsstarke Werkzeuge erwiesen, um komplexe Muster in Proteinsequenzen zu erkennen. Die Fähigkeit von PLMs, Informationen über Proteinsequenzen vollständig zu erfassen, könnte jedoch dadurch eingeschränkt sein, dass sie sich auf einzelne Pre-Training-Aufgaben konzentrieren. Obwohl das Hinzufügen von Datenmodalitäten oder überwachten Zielen die Leistung von PLMs verbessern kann, bleibt das Pre-Training oft auf die Entrauschung korrupter Sequenzen beschränkt. Um die Grenzen von PLMs zu erweitern, untersuchte unsere Forschung eine Multi-Task-Pre-Training-Strategie. Wir entwickelten Ankh3, ein Modell, das gemeinsam auf zwei Ziele optimiert wurde: Masked Language Modeling mit mehreren Maskierungswahrscheinlichkeiten und die Vervollständigung von Proteinsequenzen, die ausschließlich auf Proteinsequenzen als Eingabe basiert. Dieses Multi-Task-Pre-Training zeigte, dass PLMs reichere und generalisierbarere Repräsentationen allein aus Proteinsequenzen lernen können. Die Ergebnisse zeigten eine verbesserte Leistung bei nachgelagerten Aufgaben, wie der Vorhersage der Sekundärstruktur, Fluoreszenz, GB1-Fitness und Kontaktvorhersage. Die Integration mehrerer Aufgaben verlieh dem Modell ein umfassenderes Verständnis von Proteineigenschaften, was zu robusteren und genaueren Vorhersagen führte.
Protein-Protein-Interaktionen (PPIs) sind grundlegend für zahlreiche zelluläre Prozesse, und ihre Charakterisierung ist entscheidend für das Verständnis von Krankheitsmechanismen und die Steuerung der Wirkstoffentdeckung. Während Protein-Sprachmodelle (PLMs) bemerkenswerte Erfolge bei der Vorhersage von Proteinstruktur und -funktion gezeigt haben, bleibt ihre Anwendung auf die sequenzbasierte Vorhersage der PPI-Bindungsaffinität relativ wenig erforscht. Diese Lücke wird oft auf den Mangel an hochwertigen, rigoros verfeinerten Datensätzen und die Abhängigkeit von einfachen Strategien zur Verkettung von Proteinrepräsentationen zurückgeführt. In dieser Arbeit gehen wir auf diese Einschränkungen ein. Zunächst stellen wir eine sorgfältig kuratierte Version des PPB-Affinity-Datensatzes mit insgesamt 8.207 eindeutigen Protein-Protein-Interaktions-Einträgen vor, indem wir Inkonsistenzen in der Annotation und doppelte Einträge für Multi-Ketten-Proteininteraktionen bereinigen. Dieser Datensatz beinhaltet eine strenge Sequenzidentitätsschwelle von ≤ 30 %, um eine robuste Aufteilung in Trainings-, Validierungs- und Testdatensätze zu gewährleisten und Datenlecks zu minimieren. Zweitens schlagen wir vier Architekturen zur Anpassung von PLMs für die PPI-Bindungsaffinitätsvorhersage vor und bewerten sie systematisch: Embedding-Verkettung (EC), Sequenz-Verkettung (SC), hierarchisches Pooling (HP) und gepoolte Aufmerksamkeitsaddition (PAD). Diese Architekturen wurden mit zwei Trainingsmethoden bewertet: vollständiges Fine-Tuning und ein leichtgewichtiger Ansatz, der ConvBERT-Köpfe über eingefrorene PLM-Features verwendet. Unsere umfassenden Experimente mit mehreren führenden PLMs (ProtT5, ESM2, Ankh, Ankh2 und ESM3) zeigten, dass die HP- und PAD-Architekturen konventionelle Verkettungsmethoden durchweg übertreffen und eine Steigerung der Spearman-Korrelation von bis zu 12 % erreichen. Diese Ergebnisse unterstreichen die Notwendigkeit ausgefeilter Architekturentwürfe, um die Fähigkeiten von PLMs für die differenzierte Vorhersage der PPI-Bindungsaffinität voll auszuschöpfen.
Die Differentialdiagnose neurodegenerativer Demenzen stellt eine anspruchsvolle klinische Aufgabe dar, vor allem aufgrund der Überschneidungen in der Symptompräsentation und der Ähnlichkeit der Muster, die in der strukturellen Bildgebung des Gehirns beobachtet werden. Um die diagnostische Effizienz und Genauigkeit zu verbessern, wurden Deep-Learning-Methoden wie Convolutional Neural Networks und Vision Transformers für die automatische Klassifizierung von MRT-Aufnahmen des Gehirns vorgeschlagen. Trotz ihrer starken Vorhersageleistung finden diese Modelle jedoch aufgrund ihrer undurchsichtigen Entscheidungsfindung nur begrenzt klinische Anwendung. In dieser Arbeit schlagen wir ein Framework vor, das zwei Kernkomponenten integriert, um die diagnostische Transparenz zu erhöhen. Zunächst führen wir eine modulare Pipeline zur Konvertierung von 3D-T1-gewichteten MRT-Aufnahmen des Gehirns in textuelle radiologische Berichte ein. Zweitens untersuchen wir das Potenzial moderner Large Language Models (LLMs), um Kliniker bei der Differentialdiagnose zwischen Frontotemporaler Demenz-Subtypen, Alzheimer-Krankheit und normalem Altern auf der Grundlage der generierten Berichte zu unterstützen. Um die Lücke zwischen Vorhersagegenauigkeit und Erklärbarkeit zu schließen, setzen wir Reinforcement Learning ein, um diagnostisches Denken in LLMs zu fördern. Ohne überwachte Denkspuren oder Destillation aus größeren Modellen zu benötigen, ermöglicht unser Ansatz die Entstehung strukturierter diagnostischer Begründungen, die auf bildgebenden Befunden basieren. Im Gegensatz zu post-hoc-Erklärungsmethoden, die Modellentscheidungen rückwirkend rechtfertigen, generiert unser Framework diagnostische Begründungen als Teil des Inferenzprozesses – und erzeugt damit kausal fundierte Erklärungen, die den Entscheidungsprozess des Modells informieren und leiten. Auf diese Weise erreicht unser Framework die diagnostische Leistung bestehender Deep-Learning-Methoden und bietet gleichzeitig Begründungen, die seine diagnostischen Schlussfolgerungen unterstützen.