Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen MiniMax-M1 vor, das weltweit erste Open-Weight-Modell mit großem Umfang und einer hybriden Aufmerksamkeitsarchitektur. MiniMax-M1 wird durch eine hybride Mixture-of-Experts (MoE)-Architektur in Kombination mit einem Lightning-Attention-Mechanismus angetrieben. Das Modell basiert auf unserem vorherigen MiniMax-Text-01-Modell, das insgesamt 456 Milliarden Parameter umfasst, wobei 45,9 Milliarden Parameter pro Token aktiviert sind. Das M1-Modell unterstützt nativ eine Kontextlänge von 1 Million Tokens, das 8-fache der Kontextgröße von DeepSeek R1. Darüber hinaus ermöglicht der Lightning-Attention-Mechanismus in MiniMax-M1 eine effiziente Skalierung der Rechenleistung zur Testzeit. Diese Eigenschaften machen M1 besonders geeignet für komplexe Aufgaben, die die Verarbeitung langer Eingaben und umfangreiches Denken erfordern. MiniMax-M1 wird mit groß angelegtem Reinforcement Learning (RL) auf vielfältigen Problemen trainiert, einschließlich sandbox-basierter, realer Softwareentwicklungsumgebungen. Neben dem inhärenten Effizienzvorteil von M1 für das RL-Training schlagen wir CISPO vor, einen neuartigen RL-Algorithmus, der die RL-Effizienz weiter verbessert. CISPO beschränkt die Gewichtung der Importance Sampling anstelle von Token-Updates und übertrifft dabei andere wettbewerbsfähige RL-Varianten. Die Kombination aus hybrider Aufmerksamkeit und CISPO ermöglicht es, das vollständige RL-Training von MiniMax-M1 auf 512 H800-GPUs in nur drei Wochen abzuschließen, mit Mietkosten von lediglich 534.700 US-Dollar. Wir veröffentlichen zwei Versionen der MiniMax-M1-Modelle mit 40K bzw. 80K Denkbudgets, wobei das 40K-Modell eine Zwischenphase des 80K-Trainings darstellt. Experimente auf Standard-Benchmarks zeigen, dass unsere Modelle vergleichbar oder überlegen zu starken Open-Weight-Modellen wie dem ursprünglichen DeepSeek-R1 und Qwen3-235B sind, mit besonderen Stärken in komplexer Softwareentwicklung, Werkzeugnutzung und langen Kontextaufgaben. Wir veröffentlichen MiniMax-M1 öffentlich unter https://github.com/MiniMax-AI/MiniMax-M1.
Wissenschaftliche Entdeckungen beruhen zunehmend auf komplexem multimodalen Denken, das auf informationsintensiven wissenschaftlichen Daten und domänenspezifischem Fachwissen basiert. Durch Experten-basierte wissenschaftliche Benchmarks gestärkt, haben wissenschaftliche Multimodale Große Sprachmodelle (MLLMs) das Potenzial, diesen Entdeckungsprozess in realistischen Arbeitsabläufen erheblich zu verbessern. Allerdings konzentrieren sich aktuelle wissenschaftliche Benchmarks hauptsächlich auf die Bewertung der Wissensverständnisfähigkeiten von MLLMs, was zu einer unzureichenden Bewertung ihrer Wahrnehmungs- und Denkfähigkeiten führt. Um diese Lücke zu schließen, präsentieren wir den Scientists' First Exam (SFE) Benchmark, der die wissenschaftlichen kognitiven Fähigkeiten von MLLMs auf drei miteinander verbundenen Ebenen evaluiert: wissenschaftliche Signalwahrnehmung, wissenschaftliches Attributverständnis und wissenschaftliches vergleichendes Denken. Konkret umfasst SFE 830 von Experten verifizierte VQA-Paare über drei Fragentypen hinweg, die 66 multimodale Aufgaben in fünf hochwertigen Disziplinen abdecken. Umfangreiche Experimente zeigen, dass die derzeitigen State-of-the-art-Modelle GPT-o3 und InternVL-3 auf SFE nur 34,08 % bzw. 26,52 % erreichen, was einen erheblichen Verbesserungsbedarf von MLLMs in wissenschaftlichen Bereichen aufzeigt. Wir hoffen, dass die in SFE gewonnenen Erkenntnisse weitere Entwicklungen in der KI-gestützten wissenschaftlichen Entdeckung fördern werden.
Deep Research Agents (DRAs) stellen eine bedeutende Kategorie von LLM-basierten Agenten dar. Durch die autonome Orchestrierung mehrstufiger Web-Recherchen, gezielter Informationsbeschaffung und höherer Synthese transformieren sie große Mengen an Online-Informationen in analystenreife, zitatreiche Berichte – und komprimieren damit Stunden manueller Schreibtischrecherche in Minuten. Dennoch fehlt ein umfassender Benchmark zur systematischen Bewertung der Fähigkeiten dieser Agenten. Um diese Lücke zu schließen, präsentieren wir DeepResearch Bench, einen Benchmark, der aus 100 PhD-Level-Forschungsaufgaben besteht, die jeweils von Domänenexperten aus 22 verschiedenen Fachgebieten sorgfältig erstellt wurden. Die Bewertung von DRAs ist von Natur aus komplex und arbeitsintensiv. Daher schlagen wir zwei neuartige Methoden vor, die eine starke Übereinstimmung mit menschlichen Urteilen erreichen. Die erste ist eine referenzbasierte Methode mit adaptiven Kriterien zur Bewertung der Qualität generierter Forschungsberichte. Das andere Framework wurde eingeführt, um die Fähigkeiten der DRAs zur Informationsbeschaffung und -sammlung zu bewerten, indem die effektive Zitatanzahl und die Gesamtgenauigkeit der Zitate bewertet werden. Wir haben DeepResearch Bench sowie Schlüsselkomponenten dieser Frameworks unter https://github.com/Ayanami0730/deep_research_bench quelloffen verfügbar gemacht, um die Entwicklung praktischer LLM-basierter Agenten zu beschleunigen.
Wir stellen TransDiff vor, das erste Bildgenerierungsmodell, das einen autoregressiven (AR) Transformer mit Diffusionsmodellen kombiniert. In diesem gemeinsamen Modellierungsrahmen kodiert TransDiff Labels und Bilder in hochgradige semantische Merkmale und verwendet ein Diffusionsmodell, um die Verteilung der Bildbeispiele zu schätzen. Auf dem ImageNet 256x256-Benchmark übertrifft TransDiff deutlich andere Bildgenerierungsmodelle, die auf eigenständigen AR-Transformatoren oder Diffusionsmodellen basieren. Insbesondere erreicht TransDiff eine Fréchet Inception Distance (FID) von 1,61 und einen Inception Score (IS) von 293,4 und bietet darüber hinaus eine um den Faktor 2 schnellere Inferenzlatenz im Vergleich zu state-of-the-art Methoden, die auf AR-Transformatoren basieren, sowie eine um den Faktor 112 schnellere Inferenz im Vergleich zu reinen Diffusionsmodellen. Darüber hinaus führen wir aufbauend auf dem TransDiff-Modell ein neuartiges Bildgenerierungsparadigma namens Multi-Reference Autoregression (MRAR) ein, das eine autoregressive Generierung durch die Vorhersage des nächsten Bildes durchführt. MRAR ermöglicht es dem Modell, auf mehrere zuvor generierte Bilder zu verweisen, wodurch das Lernen vielfältigerer Darstellungen erleichtert und die Qualität der generierten Bilder in nachfolgenden Iterationen verbessert wird. Durch die Anwendung von MRAR wird die Leistung von TransDiff verbessert, wobei die FID von 1,61 auf 1,42 reduziert wird. Wir erwarten, dass TransDiff ein neues Kapitel im Bereich der Bildgenerierung eröffnen wird.
In diesem Artikel stellen wir DoTA-RAG (Dynamic-of-Thought Aggregation RAG) vor, ein retrieval-augmented Generation-System, das für hohen Durchsatz und große Web-Wissensindizes optimiert ist. Traditionelle RAG-Pipelines leiden oft unter hoher Latenz und begrenzter Genauigkeit bei massiven, diversen Datensätzen. DoTA-RAG adressiert diese Herausforderungen mit einer dreistufigen Pipeline: Query-Rewriting, dynamisches Routing zu spezialisierten Sub-Indizes sowie mehrstufige Retrieval- und Ranking-Prozesse. Wir verbessern das Retrieval weiter, indem wir ein überlegenes Embedding-Modell evaluieren und auswählen und das große FineWeb-10BT-Korpus neu einbetten. Darüber hinaus erstellen wir einen diversen Q&A-Datensatz mit 500 Fragen, die über das DataMorgana-Setup zu einer breiten Palette von WebOrganizer-Themen und -Formaten generiert wurden. DoTA-RAG verbessert den Antwortkorrektheits-Score von 0,752 (Baseline, unter Verwendung des LiveRAG vorgefertigten Vektorspeichers) auf 1,478 bei gleichbleibend niedriger Latenz und erreicht einen Korrektheits-Score von 0,929 am Live Challenge Day. Diese Ergebnisse unterstreichen das Potenzial von DoTA-RAG für den praktischen Einsatz in Domänen, die schnellen und zuverlässigen Zugriff auf große und sich entwickelnde Wissensquellen erfordern.
Jüngste Fortschritte bei großen Modellen für komplexes Denken haben schrittweises, detailliertes Schlussfolgern ermöglicht, führen jedoch häufig zu erheblichem Überdenken, was in ausführlichen und redundanten Ausgaben resultiert, die die Effizienz beeinträchtigen. In dieser Studie untersuchen wir, ob explizite Selbstreflexion, signalisiert durch Token wie „Wait“ und „Hmm“, für fortgeschrittenes Denken notwendig ist. Wir schlagen NoWait vor, einen einfachen, aber effektiven Ansatz, der explizite Selbstreflexion deaktiviert, indem diese Token während der Inferenz unterdrückt werden. Umfangreiche Experimente auf zehn Benchmarks für textuelle, visuelle und videobasierte Denkaufgaben zeigen, dass NoWait die Länge der Gedankenketten in fünf R1-Modellserien um bis zu 27 %–51 % reduziert, ohne die Nützlichkeit des Modells zu beeinträchtigen. NoWait bietet somit eine Plug-and-Play-Lösung für effizientes und nutzenerhaltendes multimodales Denken.
Wir stellen Ego-R1 vor, ein neuartiges Framework für das Schlussfolgern über ultra-lange (d.h. Tage und Wochen umfassende) egocentrische Videos, das einen strukturierten Chain-of-Tool-Thought (CoTT)-Prozess nutzt, der von einem Ego-R1-Agenten orchestriert wird, der mittels Reinforcement Learning (RL) trainiert wurde. Inspiriert von menschlichen Problemlösungsstrategien zerlegt CoTT komplexes Schlussfolgern in modulare Schritte, wobei der RL-Agent in jedem Schritt spezifische Werkzeuge aufruft, um iterativ und kollaborativ Teilfragen zu beantworten, die Aufgaben wie zeitliche Abrufung und multimodales Verständnis bewältigen. Wir entwerfen ein zweistufiges Trainingsparadigma, das eine überwachte Feinabstimmung (SFT) eines vortrainierten Sprachmodells unter Verwendung von CoTT-Daten und RL umfasst, um unseren Agenten zu befähigen, schrittweise Werkzeuge für langfristiges Schlussfolgern dynamisch vorzuschlagen. Um das Training zu erleichtern, erstellen wir einen Datensatz namens Ego-R1 Data, der aus Ego-CoTT-25K für SFT und Ego-QA-4.4K für RL besteht. Darüber hinaus wird unser Ego-R1-Agent auf einem neu kuratierten, wochenlangen Video-QA-Benchmark, Ego-R1 Bench, evaluiert, der menschlich verifizierte QA-Paare aus hybriden Quellen enthält. Umfangreiche Ergebnisse zeigen, dass das dynamische, werkzeuggestützte Chain-of-Thought-Schlussfolgern unseres Ego-R1-Agenten die einzigartigen Herausforderungen des Verstehens ultra-langer egocentrischer Videos effektiv bewältigen kann und die zeitliche Abdeckung signifikant von wenigen Stunden auf eine Woche erweitert.
In dieser Arbeit bieten wir eine systematische Übersicht über Discrete Diffusion Language Models (dLLMs) und Discrete Diffusion Multimodal Language Models (dMLLMs). Im Gegensatz zu autoregressiven (AR) Modellen verwenden dLLMs und dMLLMs ein Multi-Token-, paralleles Decoding-Paradigma, das auf vollständiger Aufmerksamkeit und einer denoising-basierten Generationsstrategie beruht. Dieses Paradigma ermöglicht natürlicherweise parallele Generierung, fein abgestimmte Ausgabesteuerung und dynamische, reaktionsbewusste Wahrnehmung. Diese Fähigkeiten waren mit AR-Modellen bisher nur schwer zu erreichen. In jüngster Zeit haben eine wachsende Anzahl von industriellen, proprietären d(M)LLMs sowie eine Vielzahl von Open-Source-Akademie-d(M)LLMs eine Leistung gezeigt, die mit ihren autoregressiven Gegenstücken vergleichbar ist, während sie eine bis zu 10-fache Beschleunigung der Inferenzgeschwindigkeit erreichen. Der Fortschritt von diskreten Diffusions-LLMs und MLLMs wurde maßgeblich durch Entwicklungen in zwei Bereichen vorangetrieben. Der erste ist die Entwicklung von autoregressiven LLMs und MLLMs, die große Mengen an Daten, Benchmarks und grundlegende Infrastruktur für Training und Inferenz angesammelt haben. Der zweite Beitragsbereich ist die Weiterentwicklung der mathematischen Modelle, die der diskreten Diffusion zugrunde liegen. Gemeinsam haben diese Fortschritte einen Anstieg der Forschung zu dLLMs und dMLLMs Anfang 2025 katalysiert. In dieser Arbeit präsentieren wir einen umfassenden Überblick über die Forschung in den Bereichen dLLM und dMLLM. Wir verfolgen die historische Entwicklung von dLLMs und dLLMs, formalisieren die zugrunde liegenden mathematischen Rahmenbedingungen und kategorisieren repräsentative Modelle. Wir analysieren weiterhin Schlüsseltechniken für Training und Inferenz und fassen aufkommende Anwendungen in den Bereichen Sprache, Sprach-Bild und Biologie zusammen. Wir schließen mit einer Diskussion über zukünftige Forschungs- und Einsatzrichtungen. Papersammlung: https://github.com/LiQiiiii/DLLM-Survey
Daten spielen die wichtigste Rolle dabei, wie Sprachmodelle Fähigkeiten und Wissen erwerben. Das Fehlen umfangreicher, gut organisierter Vor-Trainingsdatensätze führt zu kostspieligen und schwer zugänglichen Datenpipelines. Wir präsentieren Essential-Web v1.0, einen Datensatz mit 24 Billionen Tokens, in dem jedes Dokument mit einer zwölf Kategorien umfassenden Taxonomie annotiert ist, die Themen, Format, Inhaltskomplexität und Qualität abdeckt. Die Taxonomie-Labels werden von EAI-Distill-0.5b erzeugt, einem feinabgestimmten Modell mit 0,5 Milliarden Parametern, das eine Annotatorenübereinstimmung innerhalb von 3 % von Qwen2.5-32B-Instruct erreicht. Mit nichts weiter als SQL-ähnlichen Filtern erhalten wir wettbewerbsfähige, webkuratierte Datensätze in den Bereichen Mathematik (-8,0 % relativ zum State-of-the-Art), Web-Code (+14,3 %), MINT (+24,5 %) und Medizin (+8,6 %). Essential-Web v1.0 ist auf HuggingFace verfügbar: https://huggingface.co/datasets/EssentialAI/essential-web-v1.0.
Agentische Aufgaben, die mehrstufige Problemlösung mit Autonomie, Werkzeugnutzung und adaptiver Argumentation erfordern, werden zunehmend zentral für die Weiterentwicklung von NLP und KI. Allerdings mangelt es bestehenden Instruktionsdaten an Werkzeuginteraktion, und aktuelle Benchmarks für agentische Systeme stützen sich auf kostspielige menschliche Annotation, was ihre Skalierbarkeit einschränkt. Wir stellen TaskCraft vor, einen automatisierten Workflow zur Generierung von skalierbar schwierigen, multi-tool-basierten und verifizierbaren agentischen Aufgaben mit Ausführungspfaden. TaskCraft erweitert atomare Aufgaben durch tiefen- und breitenbasierte Erweiterungen, um strukturell und hierarchisch komplexe Herausforderungen zu schaffen. Empirische Ergebnisse zeigen, dass diese Aufgaben die Prompt-Optimierung im Generierungsprozess verbessern und das überwachte Fein-Tuning von agentischen Basismodellen fördern. Wir präsentieren einen umfangreichen synthetischen Datensatz mit etwa 36.000 Aufgaben unterschiedlicher Schwierigkeit, um zukünftige Forschung zur Feinabstimmung und Bewertung von Agenten zu unterstützen.
Wir stellen Autoregressive Retrieval Augmentation (AR-RAG) vor, ein neuartiges Paradigma, das die Bildgenerierung verbessert, indem es autoregressiv k-nächste-Nachbar-Retrievals auf Patch-Ebene einbezieht. Im Gegensatz zu früheren Methoden, die ein einzelnes, statisches Retrieval vor der Generierung durchführen und die gesamte Generierung auf festen Referenzbildern basieren, führt AR-RAG kontextbewusste Retrievals in jedem Generierungsschritt durch, indem es zuvor generierte Patches als Abfragen verwendet, um die relevantesten visuellen Referenzen auf Patch-Ebene zu ermitteln und einzubeziehen. Dadurch kann das Modell auf sich entwickelnde Generierungsanforderungen reagieren und gleichzeitig Einschränkungen (z. B. Überkopieren, stilistische Verzerrungen usw.) vermeiden, die in bestehenden Methoden weit verbreitet sind. Um AR-RAG zu realisieren, schlagen wir zwei parallele Frameworks vor: (1) Distribution-Augmentation in Decoding (DAiD), eine trainingsfreie Plug-and-Use-Decodierungsstrategie, die die Verteilung der vom Modell vorhergesagten Patches direkt mit der Verteilung der abgerufenen Patches zusammenführt, und (2) Feature-Augmentation in Decoding (FAiD), eine parameter-effiziente Feinabstimmungsmethode, die die Merkmale der abgerufenen Patches durch mehrstufige Faltungsoperationen schrittweise glättet und sie nutzt, um den Bildgenerierungsprozess zu erweitern. Wir validieren die Wirksamkeit von AR-RAG auf weit verbreiteten Benchmarks, darunter Midjourney-30K, GenEval und DPG-Bench, und zeigen signifikante Leistungssteigerungen gegenüber modernsten Bildgenerierungsmodellen.
Dichte Matching-Methoden wie DUSt3R regressieren paarweise Punktkarten für die 3D-Rekonstruktion. Die Abhängigkeit von paarweisen Vorhersagen und die begrenzte Generalisierungsfähigkeit schränken jedoch die globale geometrische Konsistenz von Natur aus ein. In dieser Arbeit stellen wir Test3R vor, eine überraschend einfache Testzeit-Lernmethode, die die geometrische Genauigkeit erheblich steigert. Unter Verwendung von Bildtripletts (I_1,I_2,I_3) erzeugt Test3R Rekonstruktionen aus den Paaren (I_1,I_2) und (I_1,I_3). Der Kernansatz besteht darin, das Netzwerk zur Testzeit über ein selbstüberwachtes Ziel zu optimieren: die Maximierung der geometrischen Konsistenz zwischen diesen beiden Rekonstruktionen in Bezug auf das gemeinsame Bild I_1. Dies stellt sicher, dass das Modell übergreifend konsistente Ausgaben erzeugt, unabhängig von den Eingaben. Umfangreiche Experimente zeigen, dass unsere Methode die bisherigen State-of-the-Art-Verfahren bei der 3D-Rekonstruktion und der Multi-View-Tiefenschätzung deutlich übertrifft. Darüber hinaus ist sie universell anwendbar und nahezu kostenfrei, was eine einfache Anwendung auf andere Modelle und eine Implementierung mit minimalem Testzeit-Trainingsaufwand und Parameterbedarf ermöglicht. Der Code ist unter https://github.com/nopQAQ/Test3R verfügbar.
In dieser Arbeit untersuchen wir die Synergie zwischen supervised Fine-Tuning (SFT) und Reinforcement Learning (RL) bei der Entwicklung leistungsstarker Reasoning-Modelle. Wir beginnen damit, die SFT-Trainingsdaten durch zwei Skalierungsstrategien zu kuratieren: die Erhöhung der Anzahl gesammelter Prompts und die Anzahl der generierten Antworten pro Prompt. Beide Ansätze führen zu bemerkenswerten Verbesserungen der Reasoning-Leistung, wobei die Skalierung der Anzahl der Prompts zu substanzielleren Gewinnen führt. Anschließend untersuchen wir die folgenden Fragen zur Synergie zwischen SFT und RL: (i) Führt ein stärkeres SFT-Modell konsistent zu einer besseren Endleistung nach groß angelegtem RL-Training? (ii) Wie können wir eine geeignete Sampling-Temperatur während des RL-Trainings bestimmen, um Exploration und Exploitation effektiv für eine gegebene SFT-Initialisierung auszubalancieren? Unsere Ergebnisse legen nahe, dass (i) zutrifft, vorausgesetzt, dass ein effektives RL-Training durchgeführt wird, insbesondere wenn die Sampling-Temperatur sorgfältig gewählt wird, um die temperaturangepasste Entropie bei etwa 0,3 zu halten – eine Einstellung, die eine gute Balance zwischen Exploration und Exploitation bietet. Bemerkenswerterweise verringert sich die Leistungslücke zwischen den initialen SFT-Modellen im Laufe des RL-Prozesses erheblich. Durch die Nutzung einer starken SFT-Grundlage und Erkenntnisse über das synergetische Zusammenspiel zwischen SFT und RL übertrifft unser AceReason-Nemotron-1.1 7B-Modell AceReason-Nemotron-1.0 deutlich und erreicht neue State-of-the-Art-Leistungen unter den Qwen2.5-7B-basierten Reasoning-Modellen auf anspruchsvollen Mathematik- und Code-Benchmarks, wodurch die Wirksamkeit unseres Post-Training-Rezepts demonstriert wird. Wir veröffentlichen das Modell und die Daten unter: https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B.
Mit der raschen Verbesserung der allgemeinen Fähigkeiten von LLMs (Large Language Models) ist die Personalisierung von LLMs, d.h. die Frage, wie LLM-Systeme entwickelt werden können, die personalisierte Antworten oder Dienstleistungen generieren, die auf unterschiedliche Benutzerprofile zugeschnitten sind, zu einem zunehmend wichtigen Forschungs- und Ingenieursproblem geworden. Im Gegensatz zu vielen neuen, herausfordernden Benchmarks, die zur Bewertung der allgemeinen/argumentativen Fähigkeiten veröffentlicht werden, behindert der Mangel an hochwertigen Benchmarks zur Bewertung der LLM-Personalisierung jedoch erheblich den Fortschritt auf diesem Gebiet. Um dies zu beheben, stellen wir PersonaFeedback vor, einen neuen Benchmark, der direkt die Fähigkeit von LLMs bewertet, personalisierte Antworten auf der Grundlage vordefinierter Benutzerprofile und Anfragen zu liefern. Im Gegensatz zu bestehenden Benchmarks, die von den Modellen verlangen, implizite Benutzerprofile aus historischen Interaktionen abzuleiten, entkoppelt PersonaFeedback die Profilableitung von der Personalisierung und konzentriert sich auf die Bewertung der Fähigkeit des Modells, Antworten zu generieren, die auf explizite Profile zugeschnitten sind. PersonaFeedback besteht aus 8298 von Menschen annotierten Testfällen, die basierend auf der kontextuellen Komplexität der Benutzerprofile und der Schwierigkeit, subtile Unterschiede zwischen zwei personalisierten Antworten zu erkennen, in einfache, mittlere und schwierige Kategorien eingeteilt werden. Wir führen umfassende Bewertungen über eine breite Palette von Modellen durch. Die empirischen Ergebnisse zeigen, dass selbst state-of-the-art LLMs, die komplexe reale Denkaufgaben lösen können, bei der schwierigen Kategorie von PersonaFeedback scheitern können, bei der selbst menschliche Bewerter die Unterscheidungen als herausfordernd empfinden könnten. Darüber hinaus führen wir eine detaillierte Analyse der Fehlermodi über verschiedene Systemtypen hinweg durch und zeigen, dass das derzeitige retrieval-augmentierte Framework nicht als de-facto-Lösung für Personalisierungsaufgaben angesehen werden sollte. Alle Benchmark-Daten, Annotationsprotokolle und die Evaluationspipeline werden öffentlich zugänglich gemacht, um zukünftige Forschungen zur LLM-Personalisierung zu erleichtern.
Im Bereich des multimodalen Chain-of-Thought (CoT)-Denkens stützen sich bestehende Ansätze überwiegend auf das Denken im reinen Sprachraum, was zwangsläufig unter Sprachverzerrungen leidet und weitgehend auf mathematische oder naturwissenschaftliche Domänen beschränkt ist. Diese enge Fokussierung schränkt ihre Fähigkeit ein, komplexe visuelle Denkaufgaben zu bewältigen, die ein umfassendes Verständnis von Bilddetails erfordern. Um diese Einschränkungen zu überwinden, stellt diese Arbeit VGR vor, ein neuartiges multimodales großes Sprachmodell (MLLM) mit verbesserten fein abgestimmten visuellen Wahrnehmungsfähigkeiten. Im Gegensatz zu traditionellen MLLMs, die Fragen oder Denkprozesse ausschließlich im Sprachraum beantworten, erkennt unser VGR zunächst relevante Regionen, die zur Lösung von Problemen beitragen könnten, und liefert dann präzise Antworten basierend auf den wiedergegebenen Bildregionen. Um dies zu erreichen, erstellen wir einen groß angelegten SFT-Datensatz namens VGR-SFT, der Denkdaten mit gemischter visueller Verankerung und sprachlicher Deduktion enthält. Die Inferenzpipeline von VGR ermöglicht es dem Modell, Begrenzungsrahmen für visuelle Referenzen auszuwählen, und eine Wiedergabephase wird eingeführt, um die entsprechenden Regionen in den Denkprozess zu integrieren und so das multimodale Verständnis zu verbessern. Experimente auf der LLaVA-NeXT-7B-Basislinie zeigen, dass VGR eine überlegene Leistung bei multimodalen Benchmarks erzielt, die ein umfassendes Verständnis von Bilddetails erfordern. Im Vergleich zur Basislinie verwendet VGR nur 30 % der Bildtokenanzahl, liefert jedoch Werte von +4,1 bei MMStar, +7,1 bei AI2D und eine Verbesserung von +12,9 bei ChartQA.
Große Sprachmodelle (LLMs) haben bemerkenswerte Generalisierungsfähigkeiten über Aufgaben und Sprachen hinweg demonstriert und damit die natürliche Sprachverarbeitung revolutioniert. Diese Arbeit untersucht die natürlich entstehende Repräsentationsausrichtung in LLMs, insbesondere in den mittleren Schichten, und ihre Implikationen für die Trennung von sprachspezifischen und sprachunabhängigen Informationen. Wir bestätigen empirisch die Existenz dieser Ausrichtung, analysieren ihr Verhalten im Vergleich zu explizit entworfenen Ausrichtungsmodellen und demonstrieren ihr Potenzial für sprachspezifische Manipulation ohne semantische Verschlechterung. Aufbauend auf diesen Erkenntnissen schlagen wir Inference-Time Language Control (ITLC) vor, eine neuartige Methode, die latente Injektion nutzt, um präzise cross-linguale Sprachsteuerung zu ermöglichen und Sprachverwirrung in LLMs zu mildern. Unsere Experimente unterstreichen die starken cross-lingualen Steuerungsfähigkeiten von ITLC bei gleichzeitiger Wahrung der semantischen Integrität in den Zielsprachen. Darüber hinaus zeigen wir seine Wirksamkeit bei der Linderung des Problems der cross-lingualen Sprachverwirrung, das selbst in aktuellen großskaligen LLMs bestehen bleibt und zu inkonsistenter Sprachgeneration führt. Diese Arbeit erweitert unser Verständnis der Repräsentationsausrichtung in LLMs und führt eine praktische Lösung zur Verbesserung ihrer cross-lingualen Leistung ein.
Die Suche nach vielfältigen, komplexen und groß angelegten Instruktionsdaten ist entscheidend für die automatische Ausrichtung großer Sprachmodelle (LLMs). Obwohl es Methoden gibt, die synthetische Instruktionen in großem Maßstab generieren können, leiden diese entweder unter begrenzten Quellen, was zu einer engen Verteilung führt, oder sie stützen sich auf triviale Erweiterungen, die keine sinnvollen Trajektorien in Bezug auf die Komplexität erzeugen. Im Gegensatz dazu werden Instruktionen, die eine effiziente Ausrichtung begünstigen, typischerweise mit kognitiven Erkenntnissen erstellt und in realen Anwendungsfällen verankert. In diesem Papier synthetisieren wir solche Instruktionen mithilfe von attributierter Verankerung, die 1) einen top-down Attributionsprozess umfasst, der eine ausgewählte Menge realer Instruktionen an situierte Benutzer bindet, und 2) einen bottom-up Syntheseprozess, der Webdokumente nutzt, um zunächst eine Situation und dann eine sinnvolle Instruktion zu generieren. Dieser Rahmen ermöglicht es uns, vielfältige und komplexe Instruktionen in großem Maßstab zu sammeln, indem wir die breite Palette von Webdokumenten nutzen. Konkret erstellen wir einen Datensatz von 1 Million Instruktionen, genannt SynthQuestions, und zeigen, dass darauf trainierte Modelle führende Leistungen in mehreren gängigen Benchmarks erzielen, wobei die Verbesserungen kontinuierlich mit mehr Webkorpora skalieren. Daten, Modelle und Codes werden unter https://github.com/Ignoramus0817/SynthQuestions verfügbar sein.
Kürzlich hat sich die Nutzung vortrainierter Vision-Sprache-Modelle (VLMs) zur Entwicklung von Vision-Sprache-Aktion-Modellen (VLA) als vielversprechender Ansatz für effektives Robotermanipulationslernen herausgestellt. Allerdings integrieren nur wenige Methoden 3D-Signale in VLMs für die Aktionsvorhersage, und sie nutzen die räumliche Struktur, die in 3D-Daten inhärent ist, nicht vollständig aus, was zu einer geringen Probeneffizienz führt. In diesem Artikel stellen wir BridgeVLA vor, ein neuartiges 3D-VLA-Modell, das (1) 3D-Eingaben in mehrere 2D-Bilder projiziert, um die Eingabeausrichtung mit dem VLM-Backbone sicherzustellen, und (2) 2D-Heatmaps für die Aktionsvorhersage verwendet, wodurch der Eingabe- und Ausgaberaum in einem konsistenten 2D-Bildraum vereinheitlicht wird. Zusätzlich schlagen wir eine skalierbare Vortrainingsmethode vor, die den VLM-Backbone mit der Fähigkeit ausstattet, 2D-Heatmaps vor der nachgelagerten Policy-Lernphase vorherzusagen. Umfangreiche Experimente zeigen, dass die vorgeschlagene Methode in der Lage ist, 3D-Manipulation effizient und effektiv zu erlernen. BridgeVLA übertrifft state-of-the-art Baseline-Methoden in drei Simulations-Benchmarks. In RLBench verbessert es die durchschnittliche Erfolgsrate von 81,4 % auf 88,2 %. In COLOSSEUM zeigt es eine deutlich bessere Leistung in anspruchsvollen Generalisierungsszenarien und steigert die durchschnittliche Erfolgsrate von 56,7 % auf 64,0 %. In GemBench übertrifft es alle verglichenen Baseline-Methoden in Bezug auf die durchschnittliche Erfolgsrate. In Real-Roboter-Experimenten übertrifft BridgeVLA eine state-of-the-art Baseline-Methode im Durchschnitt um 32 %. Es generalisiert robust in mehreren Out-of-Distribution-Szenarien, einschließlich visueller Störungen und unbekannter Anweisungen. Bemerkenswerterweise erreicht es eine Erfolgsrate von 96,8 % bei über 10 Aufgaben mit nur 3 Trajektorien pro Aufgabe, was seine außergewöhnliche Probeneffizienz unterstreicht. Projekt-Website: https://bridgevla.github.io/
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben die Entwicklung von KI-Agenten ermöglicht, die zunehmend menschenähnliche Verhaltensweisen zeigen, einschließlich Planung, Anpassung und sozialer Dynamiken in vielfältigen, interaktiven und offenen Szenarien. Diese Verhaltensweisen sind nicht allein das Ergebnis der internen Architekturen der zugrunde liegenden Modelle, sondern entstehen aus ihrer Integration in agentische Systeme, die in spezifischen Kontexten operieren, wo Umweltfaktoren, soziale Hinweise und Interaktionsrückmeldungen das Verhalten im Laufe der Zeit prägen. Diese Entwicklung erfordert eine neue wissenschaftliche Perspektive: die KI-Agenten-Verhaltenswissenschaft. Anstatt sich nur auf interne Mechanismen zu konzentrieren, betont diese Perspektive die systematische Beobachtung von Verhalten, die Gestaltung von Interventionen zur Überprüfung von Hypothesen und die theoriegeleitete Interpretation, wie KI-Agenten handeln, sich anpassen und im Laufe der Zeit interagieren. Wir systematisieren eine wachsende Anzahl von Forschungsarbeiten in den Bereichen individueller Agenten, Multi-Agenten und Mensch-Agenten-Interaktionen und zeigen weiterhin, wie diese Perspektive verantwortungsvolle KI fördert, indem Fairness, Sicherheit, Interpretierbarkeit, Rechenschaftspflicht und Privatsphäre als Verhaltenseigenschaften behandelt werden. Indem wir aktuelle Erkenntnisse vereinen und zukünftige Richtungen aufzeigen, positionieren wir die KI-Agenten-Verhaltenswissenschaft als notwendige Ergänzung zu traditionellen modellzentrierten Ansätzen und bieten wesentliche Werkzeuge zum Verstehen, Bewerten und Steuern des realen Verhaltens zunehmend autonomer KI-Systeme.
Die kontinuierliche Weiterentwicklung von Sprachmodellen hat zur Entwicklung großskaliger Architekturen geführt, die außergewöhnliche Leistungen über eine breite Palette von Aufgaben hinweg demonstrieren. Diese Modelle gehen jedoch mit erheblichen Rechen- und Energieanforderungen sowie potenziellen Datenschutzimplikationen einher. In diesem Kontext stellen Small Reasoning Language Models (SRLMs) mit etwa 0,5 Milliarden Parametern eine überzeugende Alternative dar, insbesondere aufgrund ihrer bemerkenswerten Recheneffizienz und Kosteneffektivität, vor allem in ressourcenbeschränkten Umgebungen. Trotz dieser Vorteile stellt die begrenzte Kapazität von Modellen mit 0,5 Milliarden Parametern Herausforderungen bei der Bewältigung komplexer Aufgaben wie mathematischem Denken und Code-Generierung dar. Diese Forschung untersucht verschiedene Trainingsstrategien, einschließlich Supervised Fine-Tuning (SFT), Knowledge Distillation (KD) und Reinforcement Learning (RL) sowie deren hybride Implementierungen, um die Leistung von 0,5B SRLMs zu verbessern. Wir analysieren effektive Methodologien, um die Leistungslücke zwischen SRLMs und größeren Modellen zu schließen, und präsentieren Erkenntnisse zu optimalen Trainingspipelines, die speziell für diese kleineren Architekturen zugeschnitten sind. Durch umfangreiche experimentelle Validierung und Analyse zielt unsere Arbeit darauf ab, umsetzbare Empfehlungen zur Maximierung der Denkfähigkeiten von 0,5B-Modellen zu liefern.
Interaktives Lernen aus Beobachtung und Sprachfeedback ist ein zunehmend erforschtes Gebiet, das durch das Aufkommen von Agenten mit großen Sprachmodellen (LLMs) vorangetrieben wird. Obwohl bereits beeindruckende empirische Demonstrationen gezeigt wurden, fehlt bisher eine prinzipielle Rahmung dieser Entscheidungsprobleme. In diesem Artikel formalisieren wir das Problem des Lernens aus Sprachfeedback (LLF), stellen hinreichende Annahmen auf, um Lernen trotz latenter Belohnungen zu ermöglichen, und führen die Transfer-Eluder-Dimension als Komplexitätsmaß ein, um die Schwierigkeit von LLF-Problemen zu charakterisieren. Wir zeigen, dass die Transfer-Eluder-Dimension die Intuition erfasst, dass Informationen im Feedback die Lernkomplexität des LLF-Problems verändern. Wir demonstrieren Fälle, in denen das Lernen aus umfangreichem Sprachfeedback exponentiell schneller sein kann als das Lernen aus Belohnungen. Wir entwickeln einen No-Regret-Algorithmus namens HELiX, der LLF-Probleme durch sequenzielle Interaktionen nachweislich löst, mit Leistungsgarantien, die mit der Transfer-Eluder-Dimension des Problems skalieren. Über mehrere empirische Domänen hinweg zeigen wir, dass HELiX gut abschneidet, selbst wenn wiederholtes Abfragen von LLMs nicht zuverlässig funktioniert. Unsere Beiträge markieren einen ersten Schritt hin zur Entwicklung prinzipieller interaktiver Lernalgorithmen aus generischem Sprachfeedback.
Wie gut schneiden KI-Systeme im Bereich des Algorithmen-Engineerings für schwierige Optimierungsprobleme in Domänen wie Paketzustellungsrouting, Crew-Zeitplanung, Fabrikproduktionsplanung und Stromnetzausgleich ab? Wir stellen ALE-Bench vor, einen neuen Benchmark zur Bewertung von KI-Systemen in score-basierten algorithmischen Programmierwettbewerben. Basierend auf realen Aufgaben aus den AtCoder Heuristic Contests präsentiert ALE-Bench Optimierungsprobleme, die rechenintensiv sind und keine bekannte exakte Lösung zulassen. Im Gegensatz zu kurzfristigen, bestanden/nicht-bestanden-Coding-Benchmarks fördert ALE-Bench die iterative Lösungsverbesserung über lange Zeiträume. Unser Software-Framework unterstützt interaktive Agentenarchitekturen, die Testlauf-Feedback und Visualisierungen nutzen. Unsere Bewertung von führenden LLMs zeigte, dass sie zwar bei spezifischen Problemen hohe Leistung erbringen, aber im Vergleich zu Menschen eine bemerkenswerte Lücke in Bezug auf Konsistenz über verschiedene Probleme hinweg und langfristige Problemlösungsfähigkeiten besteht. Dies unterstreicht die Notwendigkeit dieses Benchmarks, um zukünftige Fortschritte in der KI zu fördern.
Große Sprachmodelle (LLMs) werden zunehmend in alltägliche Anwendungen integriert. Da ihr Einfluss wächst, wird das Verständnis ihrer Entscheidungsfindung und zugrunde liegenden Persönlichkeit immer wichtiger. In dieser Arbeit interpretieren wir die Modellpersönlichkeit mithilfe unseres vorgeschlagenen Supernova Event Datasets, einem neuartigen Datensatz mit vielfältigen Artikeln, die Biografien, historische Ereignisse, Nachrichten und wissenschaftliche Entdeckungen umfassen. Wir verwenden diesen Datensatz, um LLMs beim Extrahieren und Bewerten von Schlüsselereignissen aus Texten zu benchmarken, eine subjektive und komplexe Herausforderung, die das Schließen über langfristige Kontexte und die Modellierung von Kausalketten erfordert. Wir evaluieren kleinere Modelle wie Phi-4, Orca 2 und Qwen 2.5 sowie größere, leistungsstärkere Modelle wie Claude 3.7, Gemini 2.5 und OpenAI o3 und schlagen ein Framework vor, in dem ein weiteres LLM als Richter fungiert, um die Persönlichkeit jedes Modells basierend auf seiner Auswahl und Klassifizierung von Ereignissen abzuleiten. Unsere Analyse zeigt deutliche Persönlichkeitsmerkmale: Beispielsweise zeigt Orca 2 emotionales Denken mit Fokus auf zwischenmenschliche Dynamiken, während Qwen 2.5 einen strategischeren, analytischen Stil aufweist. Bei der Analyse von wissenschaftlichen Entdeckungsereignissen betont Claude Sonnet 3.7 konzeptuelle Rahmung, Gemini 2.5 Pro priorisiert empirische Validierung und o3 bevorzugt schrittweise kausale Argumentation. Diese Analyse verbessert die Interpretierbarkeit der Modelle und macht sie benutzerfreundlich für eine breite Palette verschiedener Anwendungen.
Zeitreihen aus der realen Welt werden oft von komplexen nichtlinearen Dynamiken bestimmt. Das Verständnis dieser zugrunde liegenden Dynamiken ist entscheidend für präzise Vorhersagen der Zukunft. Während Deep Learning große Erfolge in der Zeitreihenvorhersage erzielt hat, modellieren viele bestehende Ansätze die Dynamiken nicht explizit. Um diese Lücke zu schließen, stellen wir DeepEDM vor, ein Framework, das die Modellierung nichtlinearer dynamischer Systeme mit tiefen neuronalen Netzwerken integriert. Inspiriert vom empirischen dynamischen Modellieren (EDM) und basierend auf dem Satz von Takens, präsentiert DeepEDM ein neuartiges Deep-Modell, das einen latenten Raum aus zeitverzögerten Einbettungen lernt und Kernel-Regression verwendet, um die zugrunde liegenden Dynamiken anzunähern. Dabei nutzt es eine effiziente Implementierung von Softmax-Attention und ermöglicht eine präzise Vorhersage zukünftiger Zeitschritte. Um unsere Methode zu bewerten, führen wir umfassende Experimente mit synthetischen Daten nichtlinearer dynamischer Systeme sowie realen Zeitreihen aus verschiedenen Domänen durch. Unsere Ergebnisse zeigen, dass DeepEDM robust gegenüber Eingangsrauschen ist und state-of-the-art Methoden in der Vorhersagegenauigkeit übertrifft. Unser Code ist verfügbar unter: https://abrarmajeedi.github.io/deep_edm.
Aktuelle Deep-Thinking-Modelle für große Sprachmodelle (LLMs) führen oft umfangreiche Überlegungen durch, um die Leistung zu verbessern. Solch langwierige Denkprozesse sind jedoch nicht immer wünschenswert, da sie übermäßige Inferenzkosten mit unverhältnismäßig geringen Leistungssteigerungen verursachen. Die Kontrolle der Denklänge ohne Einbußen bei der Leistung ist daher wichtig, bleibt jedoch eine Herausforderung, insbesondere bei strengen Denkbudgets. Wir schlagen Budget Guidance vor, eine einfache, aber effektive Methode, um den Denkprozess von LLMs auf ein vorgegebenes Budget zu lenken, ohne dass eine Feinabstimmung der LLMs erforderlich ist. Unser Ansatz führt einen leichtgewichtigen Prädiktor ein, der eine Gamma-Verteilung über die verbleibende Denklänge während der nächsten Token-Generierung modelliert. Dieses Signal wird dann verwendet, um die Generierung auf weiche, Token-Ebene Weise zu steuern, wodurch sichergestellt wird, dass der gesamte Denkprozess das spezifizierte Denkbudget einhält. Budget Guidance ermöglicht eine natürliche Kontrolle der Denklänge sowie signifikante Verbesserungen der Token-Effizienz im Vergleich zu Baseline-Methoden bei anspruchsvollen mathematischen Benchmarks. Beispielsweise erzielt es bis zu 26 % Genauigkeitssteigerung beim MATH-500-Benchmark unter strengen Budgets im Vergleich zu Baseline-Methoden, während es eine wettbewerbsfähige Genauigkeit mit nur 63 % der Denk-Token des vollständig denkenden Modells beibehält. Budget Guidance verallgemeinert sich auch auf breitere Aufgabenbereiche und zeigt emergente Fähigkeiten, wie die Schätzung der Schwierigkeit von Fragen. Der Quellcode ist verfügbar unter: https://github.com/UMass-Embodied-AGI/BudgetGuidance.
Das Training großer neuronaler Netze mit end-to-end Backpropagation führt zu erheblichen Speicherengpässen, was den Zugang zu modernster KI-Forschung einschränkt. Wir schlagen DiffusionBlocks vor, ein neuartiges Trainingsframework, das Blöcke neuronaler Netze als Denoising-Operationen in einem zeitkontinuierlichen Diffusionsprozess interpretiert. Durch die Aufteilung des Netzwerks in unabhängig trainierbare Blöcke und die Optimierung der Rauschpegelzuweisungen basierend auf gleicher kumulativer Wahrscheinlichkeitsmasse erreicht unser Ansatz eine signifikante Speichereffizienz bei gleichzeitiger Beibehaltung einer wettbewerbsfähigen Leistung im Vergleich zur traditionellen Backpropagation bei generativen Aufgaben. Experimente zur Bildgenerierung und Sprachmodellierung zeigen eine speicherreduzierende Wirkung, die proportional zur Anzahl der Blöcke ist, bei gleichzeitiger Erzielung überlegener Leistung. DiffusionBlocks bietet einen vielversprechenden Weg, um den Zugang zum Training großer neuronaler Netze mit begrenzten Rechenressourcen zu demokratisieren.
Da Selbstaufmerksamkeitsschichten in Transformern per Design permutationsinvariant sind, müssen Positionskodierungen explizit eingebunden werden, um ein räumliches Verständnis zu ermöglichen. Allerdings begrenzen feste Lookup-Tabellen, die in traditionellen lernbaren Positions-Einbettungen (PEs) verwendet werden, die Extrapolationsfähigkeiten über vorher trainierte Sequenzlängen hinaus. Expertenentworfene Methoden wie ALiBi und RoPE mildern diese Einschränkung, erfordern jedoch umfangreiche Anpassungen, um sich an neue Modalitäten anzupassen, was grundlegende Herausforderungen in Bezug auf Anpassungsfähigkeit und Skalierbarkeit unterstreicht. In dieser Arbeit präsentieren wir SeqPE, ein einheitliches und vollständig lernbares Positionskodierungs-Framework, das jeden n-dimensionalen Positionsindex als symbolische Sequenz darstellt und einen leichtgewichtigen sequenziellen Positionskodierer verwendet, um deren Einbettungen end-to-end zu lernen. Um den Einbettungsraum von SeqPE zu regularisieren, führen wir zwei komplementäre Ziele ein: ein kontrastives Ziel, das Einbettungsabstände mit einer vordefinierten Positions-Distanz-Funktion ausrichtet, und einen Wissensdistillationsverlust, der Out-of-Distribution-Positions-Einbettungen an In-Distribution-Lehrerrepräsentationen anbindet, was die Extrapolationsleistung weiter verbessert. Experimente in den Bereichen Sprachmodellierung, langkontextbezogene Fragebeantwortung und 2D-Bildklassifizierung zeigen, dass SeqPE nicht nur starke Baselines in Bezug auf Perplexität, exakte Übereinstimmung (EM) und Genauigkeit übertrifft – insbesondere bei der Extrapolation der Kontextlänge – sondern auch eine nahtlose Generalisierung auf mehrdimensionale Eingaben ermöglicht, ohne dass eine manuelle architektonische Neugestaltung erforderlich ist. Wir veröffentlichen unseren Code, Daten und Checkpoints unter https://github.com/ghrua/seqpe.
Jüngste Fortschritte bei Large Language Models (LLMs) haben neue Möglichkeiten für präzise und effiziente Zeitreihenanalysen aufgezeigt, doch frühere Arbeiten erforderten oft aufwendiges Fine-Tuning und/oder ignorierten Inter-Serien-Korrelationen. In dieser Arbeit untersuchen wir einfache und flexible Prompt-basierte Strategien, die es LLMs ermöglichen, Zeitreihenprognosen ohne umfangreiche Nachschulung oder den Einsatz einer komplexen externen Architektur durchzuführen. Durch die Erforschung spezialisierter Prompting-Methoden, die Zeitreihenzerlegung, Patch-basierte Tokenisierung und Ähnlichkeits-basierte Nachbaraugmentierung nutzen, stellen wir fest, dass es möglich ist, die Prognosequalität von LLMs zu verbessern, während Einfachheit gewahrt und minimaler Datenvorverarbeitungsaufwand benötigt wird. Zu diesem Zweck schlagen wir unsere eigene Methode, PatchInstruct, vor, die es LLMs ermöglicht, präzise und effektive Vorhersagen zu treffen.
Wir untersuchen die multimodale Zusammenfassung von Anleitungsvideos, deren Ziel es ist, Nutzern eine effiziente Möglichkeit zu bieten, Fähigkeiten in Form von Textanweisungen und Schlüsselvideobildern zu erlernen. Wir stellen fest, dass bestehende Benchmarks sich auf generische, semantische Videozusammenfassungen konzentrieren und nicht geeignet sind, schrittweise ausführbare Anweisungen und Illustrationen bereitzustellen, die beide für Anleitungsvideos entscheidend sind. Um diese Lücke zu schließen, schlagen wir einen neuartigen Benchmark für die Zusammenfassung von Benutzeroberflächen (UI)-Anleitungsvideos vor. Wir sammeln einen Datensatz von 2.413 UI-Anleitungsvideos, die sich über 167 Stunden erstrecken. Diese Videos sind manuell für Videosegmentierung, Textzusammenfassung und Videozusammenfassung annotiert, was umfassende Bewertungen für prägnante und ausführbare Videozusammenfassungen ermöglicht. Wir führen umfangreiche Experimente mit unserem gesammelten MS4UI-Datensatz durch, die zeigen, dass state-of-the-art multimodale Zusammenfassungsmethoden bei der UI-Videozusammenfassung Schwierigkeiten haben, und unterstreichen die Bedeutung neuer Methoden für die Zusammenfassung von UI-Anleitungsvideos.
In einem Zeitalter, das durch die Verbreitung von Fehl- und Desinformation im Internet geprägt ist, ist es entscheidend, Leserinnen und Leser zu befähigen, die Inhalte, die sie lesen, zu verstehen. Wichtige Bemühungen in diese Richtung stützen sich auf manuelle oder automatische Faktenprüfung, die bei neu auftretenden Behauptungen mit begrenzten Informationen jedoch herausfordernd sein kann. Solche Szenarien können bewältigt werden, indem die Zuverlässigkeit und die politische Voreingenommenheit der Quelle der Behauptung bewertet werden, d. h. indem gesamte Nachrichtenquellen charakterisiert werden, anstatt einzelne Behauptungen oder Artikel. Dies ist eine wichtige, aber bisher wenig erforschte Forschungsrichtung. Während frühere Arbeiten linguistische und soziale Kontexte untersucht haben, analysieren wir nicht einzelne Artikel oder Informationen in sozialen Medien. Stattdessen schlagen wir eine neuartige Methodik vor, die die Kriterien nachahmt, die professionelle Faktenprüfer verwenden, um die Faktizität und politische Voreingenommenheit einer gesamten Nachrichtenquelle zu bewerten. Konkret entwerfen wir eine Vielzahl von Prompts basierend auf diesen Kriterien und holen Antworten von großen Sprachmodellen (LLMs) ein, die wir aggregieren, um Vorhersagen zu treffen. Neben der Demonstration erheblicher Verbesserungen gegenüber starken Baselines durch umfangreiche Experimente mit mehreren LLMs, bieten wir eine detaillierte Fehleranalyse der Auswirkungen von Medienpopularität und Region auf die Modellleistung. Darüber hinaus führen wir eine Ablationsstudie durch, um die Schlüsselkomponenten unseres Datensatzes hervorzuheben, die zu diesen Verbesserungen beitragen. Um zukünftige Forschung zu erleichtern, haben wir unseren Datensatz und unseren Code unter https://github.com/mbzuai-nlp/llm-media-profiling veröffentlicht.
Die jüngsten Fortschritte bei Large Language Models (LLMs) haben erhebliche Auswirkungen auf eine Vielzahl von Bereichen, von allgemeinen Domänen bis hin zu spezialisierten Anwendungsgebieten. Diese Fortschritte haben jedoch auch das Potenzial für böswillige Nutzer deutlich erhöht, schädliche und Jailbreak-Prompts für bösartige Angriffe auszunutzen. Obwohl es viele Bemühungen gab, schädliche und Jailbreak-Prompts zu verhindern, bleibt der Schutz von LLMs vor solchen bösartigen Angriffen eine wichtige und herausfordernde Aufgabe. In diesem Artikel schlagen wir QGuard vor, eine einfache, aber effektive Sicherheitsmethode, die Frage-Prompting nutzt, um schädliche Prompts in einem Zero-Shot-Verfahren zu blockieren. Unsere Methode kann LLMs nicht nur vor textbasierten schädlichen Prompts schützen, sondern auch vor multimodalen schädlichen Prompt-Angriffen. Darüber hinaus bleibt unser Ansatz durch die Diversifizierung und Modifikation von Sicherheitsfragen robust gegenüber den neuesten schädlichen Prompts, ohne dass ein Fine-Tuning erforderlich ist. Experimentelle Ergebnisse zeigen, dass unser Modell sowohl bei textbasierten als auch bei multimodalen schädlichen Datensätzen wettbewerbsfähig abschneidet. Zudem ermöglichen wir durch eine Analyse des Frage-Promptings eine White-Box-Analyse von Benutzereingaben. Wir glauben, dass unsere Methode wertvolle Einblicke für reale LLM-Dienste bietet, um Sicherheitsrisiken im Zusammenhang mit schädlichen Prompts zu mindern.
Während die rasche Verbreitung tragbarer Kameras erhebliche Bedenken hinsichtlich der Privatsphäre bei egozentrischen Videos aufgeworfen hat, haben frühere Arbeiten die einzigartigen Datenschutzbedrohungen für den Kameraträger weitgehend übersehen. Diese Arbeit untersucht die Kernfrage: Wie viele private Informationen über den Kameraträger können aus seinen Ego-Perspektive-Videos abgeleitet werden? Wir stellen EgoPrivacy vor, den ersten groß angelegten Benchmark für die umfassende Bewertung von Datenschutzrisiken in der egozentrischen Bildverarbeitung. EgoPrivacy deckt drei Arten von Privatsphäre ab (demografisch, individuell und situativ) und definiert sieben Aufgaben, die darauf abzielen, private Informationen von feinkörnigen (z. B. die Identität des Trägers) bis hin zu grobkörnigen (z. B. Altersgruppe) zu rekonstruieren. Um die inhärenten Datenschutzbedrohungen der egozentrischen Bildverarbeitung weiter zu betonen, schlagen wir den Retrieval-Augmented Attack vor, eine neuartige Angriffsstrategie, die die Ego-zu-Exo-Rückgewinnung aus einem externen Pool exozentrischer Videos nutzt, um die Wirksamkeit demografischer Datenschutzangriffe zu steigern. Ein umfassender Vergleich der verschiedenen Angriffe unter allen Bedrohungsmodellen wird präsentiert, der zeigt, dass private Informationen des Trägers sehr anfällig für die Offenlegung sind. Beispielsweise deuten unsere Ergebnisse darauf hin, dass Foundation-Modelle die Privatsphäre des Trägers auch in Zero-Shot-Szenarien effektiv gefährden können, indem sie Attribute wie Identität, Szene, Geschlecht und Rasse mit einer Genauigkeit von 70-80 % rekonstruieren. Unser Code und unsere Daten sind unter https://github.com/williamium3000/ego-privacy verfügbar.
Sprachmodelle werden hauptsächlich auf massiven Textdaten aus dem Internet trainiert, und es wird zunehmend wichtig, diese Datenquelle zu verstehen. Exakte-Treffer-Suchmaschinen ermöglichen die Suche in großen Textkorpora – das Zählen von Zeichenkettenvorkommen und das Abrufen der umschließenden Dokumente – doch der hohe Speicheraufwand behindert ihre Anwendung auf Internet-große Datenmengen. Wir präsentieren Infini-gram mini, ein effizientes und skalierbares System, das Petabyte-große Textkorpora durchsuchbar machen kann. Basierend auf der FM-Index-Datenstruktur (Ferragina und Manzini, 2000), die gleichzeitig Text indiziert und komprimiert, erstellt unser System Indizes mit einer Größe von nur 44 % des Korpus. Infini-gram mini verbessert die beste bestehende Implementierung des FM-Index erheblich in Bezug auf die Indizierungsgeschwindigkeit (18-fach) und den Speicherbedarf sowohl während der Indizierung (3,2-fache Reduktion) als auch während der Abfrage (auf einen vernachlässigbaren Betrag reduziert). Wir indizieren 46 TB Internet-Text in 50 Tagen mit einem einzigen 128-Core-CPU-Knoten (oder 19 Stunden bei Verwendung von 75 solcher Knoten). Wir zeigen einen wichtigen Anwendungsfall von Infini-gram mini in einer groß angelegten Analyse von Benchmark-Kontamination. Wir stellen fest, dass mehrere Kern-LM-Evaluierungsbenchmarks in Internet-Crawls stark kontaminiert sind (bis zu 40 % in SQuAD), was zu einer Überschätzung der Fähigkeiten von Sprachmodellen führen könnte, wenn sie auf solchen Daten trainiert werden. Wir hosten ein Benchmark-Kontaminationsbulletin, um die Kontaminationsrate vieler Kern- und Community-beigetragener Benchmarks zu teilen. Wir stellen auch eine Web-Oberfläche und einen API-Endpunkt zur Verfügung, um allgemeine Suchanfragen auf Infini-gram mini-Indizes zu bedienen.
Selbstreguliertes Lernen (SRL) ist entscheidend für Studierende, die mit gesteigerten akademischen Anforderungen und größerer Unabhängigkeit konfrontiert sind. Unzureichende SRL-Fähigkeiten können zu unorganisierten Lerngewohnheiten, geringer Motivation und schlechtem Zeitmanagement führen, was die Fähigkeit der Lernenden beeinträchtigt, in anspruchsvollen Umgebungen erfolgreich zu sein. In einer formativen Studie mit 59 Studierenden identifizierten wir zentrale Herausforderungen, die Studierende bei der Entwicklung von SRL-Fähigkeiten bewältigen müssen, darunter Schwierigkeiten bei der Zielsetzung, dem Zeitmanagement und dem reflektierenden Lernen. Um diese Herausforderungen zu adressieren, stellen wir SRLAgent vor, ein LLM-unterstütztes System, das SRL-Fähigkeiten durch Gamification und adaptive Unterstützung durch Large Language Models (LLMs) fördert. Basierend auf Zimmermans Drei-Phasen-SRL-Rahmenwerk ermöglicht SRLAgent den Studierenden, sich in einem interaktiven, spielbasierten Umfeld mit Zielsetzung, Strategieumsetzung und Selbstreflexion auseinanderzusetzen. Das System bietet Echtzeit-Feedback und Scaffolding, das durch LLMs unterstützt wird, um die unabhängigen Lernbemühungen der Studierenden zu fördern. Wir evaluierten SRLAgent mithilfe eines Between-Subjects-Designs und verglichen es mit einem Basissystem (SRL ohne Agent-Funktionen) und einer traditionellen multimedialen Lernbedingung. Die Ergebnisse zeigten signifikante Verbesserungen der SRL-Fähigkeiten in der SRLAgent-Gruppe (p < .001, Cohens d = 0,234) sowie eine höhere Engagementrate im Vergleich zu den Baseline-Bedingungen. Diese Arbeit unterstreicht den Wert der Integration von SRL-Scaffolding und Echtzeit-KI-Unterstützung in gamifizierte Umgebungen und bietet Gestaltungsimplikationen für Bildungstechnologien, die darauf abzielen, vertieftes Lernen und die Entwicklung metakognitiver Fähigkeiten zu fördern.
Während Sprachmodelle zunehmend in der Materialwissenschaft eingesetzt werden, basieren typische Modelle auf frequenzzentrierten Tokenisierungsmethoden, die ursprünglich für die natürliche Sprachverarbeitung entwickelt wurden. Diese Methoden führen jedoch häufig zu übermäßiger Fragmentierung und semantischem Verlust, wodurch die strukturelle und semantische Integrität von Materialkonzepten nicht gewährleistet wird. Um dieses Problem zu lösen, schlagen wir MATTER vor, einen neuartigen Tokenisierungsansatz, der Materialwissen in die Tokenisierung integriert. Basierend auf MatDetector, der auf unserer Materialwissensdatenbank trainiert wurde, und einer Neubewertungsmethode, die Materialkonzepte bei der Tokenzusammenführung priorisiert, bewahrt MATTER die strukturelle Integrität identifizierter Materialkonzepte und verhindert Fragmentierung während der Tokenisierung, wodurch ihre semantische Bedeutung erhalten bleibt. Die experimentellen Ergebnisse zeigen, dass MATTER bestehende Tokenisierungsmethoden übertrifft und durchschnittliche Leistungssteigerungen von 4 % bzw. 2 % bei Generierungs- und Klassifizierungsaufgaben erzielt. Diese Ergebnisse unterstreichen die Bedeutung von Domänenwissen für Tokenisierungsstrategien in der wissenschaftlichen Textverarbeitung. Unser Code ist unter https://github.com/yerimoh/MATTER verfügbar.
Große Sprachmodelle (LLMs) werden typischerweise durch Next-Word-Prediction (NWP) trainiert, was eine starke oberflächliche Flüssigkeit bietet, jedoch oft keine robuste Unterstützung für logisches Denken bietet. Wir schlagen BOttlenecked next Word exploration (BOW) vor, ein neuartiges RL-Framework, das NWP neu denkt, indem es einen Denkengpass einführt, bei dem ein Policy-Modell zunächst einen Denkpfad generiert, anstatt direkt das nächste Token vorherzusagen. Anschließend sagt ein eingefrorenes Judge-Modell die Verteilung des nächsten Tokens ausschließlich basierend auf diesem Denkpfad voraus. Wir trainieren das Policy-Modell mit GRPO und Belohnungen, die quantifizieren, wie effektiv der Denkpfad die Wiederherstellung des nächsten Wortes ermöglicht. Im Vergleich zu anderen kontinuierlichen Vortrainings-Baselines zeigen wir, dass BOW sowohl die allgemeinen als auch die Next-Word-Denkfähigkeiten des Basismodells verbessert, bewertet anhand verschiedener Benchmarks. Unsere Ergebnisse zeigen, dass BOW als effektive und skalierbare Alternative zu herkömmlichem NWP dienen kann.
Die Vorhersage von Mortalitäts-bezogenen Ergebnissen aus Bildern bietet die Aussicht auf zugängliche, nicht-invasive und skalierbare Gesundheitsvorsorge. Wir präsentieren eine Methode, die vortrainierte Vision-Transformer-Foundation-Modelle nutzt, um die verbleibende Lebensdauer aus Gesichts- und Ganzkörperbildern abzuschätzen, zusammen mit einer robusten Unsicherheitsquantifizierung. Wir zeigen, dass die Vorhersageunsicherheit systematisch mit der tatsächlichen verbleibenden Lebensdauer variiert und dass diese Unsicherheit effektiv modelliert werden kann, indem für jede Probe eine Gaußverteilung gelernt wird. Unser Ansatz erreicht einen state-of-the-art mittleren absoluten Fehler (MAE) von 7,48 Jahren auf einem etablierten Datensatz und verbessert sich weiter auf 4,79 und 5,07 Jahre MAE auf zwei neuen, qualitativ hochwertigeren Datensätzen, die in dieser Arbeit kuratiert und veröffentlicht wurden. Wichtig ist, dass unsere Modelle gut kalibrierte Unsicherheitsschätzungen liefern, wie durch einen segmentierten erwarteten Kalibrierungsfehler von 0,62 Jahren demonstriert wird. Obwohl nicht für den klinischen Einsatz gedacht, unterstreichen diese Ergebnisse das Potenzial, medizinisch relevante Signale aus Bildern zu extrahieren. Wir stellen allen Code und Datensätze zur Verfügung, um weitere Forschungen zu erleichtern.
Wir präsentieren und evaluieren eine Reihe von Proof-of-Concept (PoC)-Workflow-Prompts, die darauf abzielen, menschlich-hierarchisches Denken zu fördern und gleichzeitig Large Language Models (LLMs) bei der semantischen und linguistischen Analyse von wissenschaftlichen Manuskripten auf hohem Niveau zu unterstützen. Die Prompts zielen auf zwei anspruchsvolle analytische Aufgaben ab: die Identifizierung unbelegter Behauptungen in Zusammenfassungen (informationale Integrität) und die Markierung mehrdeutiger Pronomenreferenzen (linguistische Klarheit). Wir führten eine systematische, mehrfache Evaluation an zwei führenden Modellen (Gemini Pro 2.5 Pro und ChatGPT Plus o3) unter variierten Kontextbedingungen durch. Unsere Ergebnisse für die Aufgabe der informationalen Integrität zeigen eine signifikante Diskrepanz in der Modellleistung: Während beide Modelle erfolgreich den unbelegten Kopf einer Nominalphrase identifizierten (95 % Erfolgsrate), scheiterte ChatGPT konsequent (0 % Erfolgsrate) bei der Identifizierung eines unbelegten adjektivischen Modifikators, den Gemini korrekt markierte (95 % Erfolgsrate). Dies wirft die Frage auf, ob die syntaktische Rolle des Ziels einen Einfluss hat. Bei der linguistischen Analyseaufgabe schnitten beide Modelle mit vollständigem Manuskriptkontext gut ab (80–90 % Erfolgsrate). In einer Zusammenfassungs-only-Einstellung erreichte ChatGPT jedoch eine perfekte (100 %) Erfolgsrate, während die Leistung von Gemini erheblich beeinträchtigt war. Unsere Ergebnisse deuten darauf hin, dass strukturierte Prompts eine praktikable Methode für komplexe Textanalysen darstellen, aber auch, dass die Prompt-Leistung stark von der Wechselwirkung zwischen Modell, Aufgabenart und Kontext abhängen kann, was die Notwendigkeit einer rigorosen, modellspezifischen Testung unterstreicht.
Bisherige Arbeiten zur automatischen Musikerzeugung konzentrierten sich hauptsächlich auf End-to-End-Systeme, die vollständige Kompositionen oder Fortsetzungen produzieren. Da die musikalische Komposition jedoch typischerweise ein iterativer Prozess ist, erschweren solche Systeme den Austausch zwischen Mensch und Maschine, der für computerunterstützte Kreativität entscheidend ist. In dieser Studie widmen wir uns der Aufgabe der personalisierbaren, mehrspurigen, langkontextuellen und kontrollierbaren symbolischen Musikergänzung, um den Prozess der computerunterstützten Komposition zu verbessern. Wir stellen MIDI-RWKV vor, ein neuartiges Modell basierend auf der RWKV-7-linearen Architektur, das eine effiziente und kohärente musikalische Ko-Kreation auf Edge-Geräten ermöglicht. Wir zeigen außerdem, dass MIDI-RWKV eine effektive Methode zur Feinabstimmung seines Ausgangszustands für die Personalisierung im Bereich sehr weniger Beispiele zulässt. Wir bewerten MIDI-RWKV und dessen Zustandsabstimmung anhand mehrerer quantitativer und qualitativer Metriken und veröffentlichen die Modellgewichte sowie den Code unter https://github.com/christianazinn/MIDI-RWKV.
Sprache verändert sich im Laufe der Zeit, auch im Bereich der Hassrede, die sich schnell im Zuge sozialer Dynamiken und kultureller Verschiebungen weiterentwickelt. Während die NLP-Forschung die Auswirkungen der Sprachevolution auf das Modelltraining untersucht und mehrere Lösungsansätze dafür vorgeschlagen hat, bleibt deren Einfluss auf das Benchmarking von Modellen weitgehend unerforscht. Dennoch spielen Hassrede-Benchmarks eine entscheidende Rolle, um die Sicherheit von Modellen zu gewährleisten. In diesem Artikel evaluieren wir empirisch die Robustheit von 20 Sprachmodellen in zwei Experimenten zur sich entwickelnden Hassrede und zeigen die zeitliche Fehlausrichtung zwischen statischen und zeitabhängigen Bewertungen. Unsere Ergebnisse unterstreichen die Notwendigkeit von zeitabhängigen linguistischen Benchmarks, um Sprachmodelle im Bereich der Hassrede korrekt und zuverlässig bewerten zu können.