papers.description
Listenweise Rangfolge basierend auf Large Language Models (LLM) hat in vielen Aufgaben zur Passage-Rangfolge überlegene Leistung gezeigt. Mit der Entwicklung von Large Reasoning Models haben viele Studien demonstriert, dass schrittweises Reasoning während der Testzeit die Leistung der listenweisen Rangfolge verbessert. Aufgrund der Knappheit von reasoning-intensiven Trainingsdaten schneiden bestehende Reranker jedoch in vielen komplexen Ranking-Szenarien schlecht ab, und die Ranking-Fähigkeit von reasoning-intensiven Rerankern bleibt weitgehend unterentwickelt. In diesem Artikel schlagen wir zunächst ein automatisiertes Framework zur Synthese von reasoning-intensiven Trainingsdaten vor, das Trainingsanfragen und Passagen aus verschiedenen Domänen bezieht und DeepSeek-R1 zur Generierung hochwertiger Trainingslabels anwendet. Ein Selbstkonsistenz-Datenfiltermechanismus wurde entwickelt, um die Datenqualität sicherzustellen. Um den listenweisen Reranker mit starker Reasoning-Fähigkeit auszustatten, schlagen wir weiterhin einen zweistufigen Post-Training-Ansatz vor, der eine Cold-Start-supervised Fine-Tuning (SFT)-Phase zum Erlernen von Reasoning-Mustern und eine Reinforcement Learning (RL)-Phase zur weiteren Verbesserung der Ranking-Fähigkeit umfasst. Während der RL-Phase entwerfen wir basierend auf der Natur der listenweisen Rangfolge eine Multi-View-Ranking-Belohnung, die effektiver ist als eine auf Ranking-Metriken basierende Belohnung. Umfangreiche Experimente zeigen, dass unser trainierter reasoning-intensiver Reranker ReasonRank bestehende Baselines deutlich übertrifft und auch eine viel geringere Latenzzeit als der punktweise Reranker Rank1 erreicht. Durch weitere Experimente hat unser ReasonRank eine state-of-the-art (SOTA)-Leistung von 40,6 auf der BRIGHT-Leaderboard\footnote{https://brightbenchmark.github.io/.} erzielt. Unsere Codes sind verfügbar unter https://github.com/8421BCD/ReasonRank.
Von der professionellen Forschung bis zur alltäglichen Planung werden viele Aufgaben durch die Suche nach umfangreichen Informationen behindert, die eher repetitiv als kognitiv komplex ist. Mit der rasanten Entwicklung von Large Language Models (LLMs) bieten automatisierte Suchagenten, die von LLMs angetrieben werden, eine vielversprechende Lösung, um Menschen von dieser mühsamen Arbeit zu befreien. Die Fähigkeit dieser Agenten, eine solche „weitreichende“ Informationssammlung zuverlässig und vollständig durchzuführen, bleibt jedoch weitgehend unevaluiert, da es an geeigneten Benchmarks mangelt. Um diese Lücke zu schließen, stellen wir WideSearch vor, einen neuen Benchmark, der entwickelt wurde, um die Zuverlässigkeit von Agenten bei diesen groß angelegten Sammelaufgaben zu bewerten. Der Benchmark umfasst 200 manuell kuratierte Fragen (100 auf Englisch, 100 auf Chinesisch) aus über 15 verschiedenen Domänen, die auf echten Benutzeranfragen basieren. Jede Aufgabe erfordert, dass die Agenten groß angelegte atomare Informationen sammeln, die objektiv einzeln überprüft werden können, und diese in eine gut organisierte Ausgabe anordnen. Eine strenge fünfstufige Qualitätskontrollpipeline gewährleistet die Schwierigkeit, Vollständigkeit und Überprüfbarkeit des Datensatzes. Wir benchmarken über 10 state-of-the-art agentenbasierte Suchsysteme, darunter Einzelagenten-, Multi-Agenten-Frameworks und end-to-end kommerzielle Systeme. Die meisten Systeme erreichen Gesamterfolgsquoten nahe 0\%, wobei das beste System gerade einmal 5\% erreicht. Bei ausreichender Zeit kann jedoch eine Kreuzvalidierung durch mehrere menschliche Tester eine Erfolgsquote von nahezu 100\% erreichen. Diese Ergebnisse zeigen, dass aktuelle Suchagenten kritische Mängel bei der groß angelegten Informationssuche aufweisen, was dringende Bereiche für zukünftige Forschung und Entwicklung in der agentenbasierten Suche unterstreicht. Unser Datensatz, die Evaluationspipeline und die Benchmark-Ergebnisse wurden öffentlich unter https://widesearch-seed.github.io/ freigegeben.
Jüngste Fortschritte bei großen Sprachmodellen haben ein wachsendes Interesse an KI-Agenten geweckt, die in der Lage sind, komplexe, realweltliche Aufgaben zu lösen. Die meisten bestehenden Agentensysteme basieren jedoch auf manuell erstellten Konfigurationen, die nach der Bereitstellung statisch bleiben, was ihre Fähigkeit zur Anpassung an dynamische und sich entwickelnde Umgebungen einschränkt. Zu diesem Zweck hat die aktuelle Forschung Techniken zur Agentenevolution untersucht, die darauf abzielen, Agentensysteme automatisch auf der Grundlage von Interaktionsdaten und Umweltfeedback zu verbessern. Diese aufstrebende Richtung legt den Grundstein für selbst-evolvierende KI-Agenten, die die statischen Fähigkeiten von Basismodellen mit der kontinuierlichen Anpassungsfähigkeit verbinden, die lebenslange agentische Systeme erfordern. In dieser Übersichtsarbeit bieten wir eine umfassende Betrachtung bestehender Techniken für selbst-evolvierende agentische Systeme. Insbesondere führen wir zunächst ein einheitliches konzeptionelles Framework ein, das die Feedback-Schleife abstrahiert, die dem Design selbst-evolvierender agentischer Systeme zugrunde liegt. Das Framework hebt vier Schlüsselkomponenten hervor: Systemeingaben, Agentensystem, Umwelt und Optimierer, die als Grundlage für das Verständnis und den Vergleich verschiedener Strategien dienen. Basierend auf diesem Framework untersuchen wir systematisch eine breite Palette von selbst-evolvierenden Techniken, die verschiedene Komponenten des Agentensystems ansprechen. Wir untersuchen auch domänenspezifische Evolutionsstrategien, die für spezialisierte Bereiche wie Biomedizin, Programmierung und Finanzen entwickelt wurden, in denen Optimierungsziele eng mit Domänenbeschränkungen verknüpft sind. Darüber hinaus bieten wir eine spezielle Diskussion über die Bewertung, Sicherheit und ethischen Überlegungen für selbst-evolvierende agentische Systeme, die entscheidend sind, um deren Wirksamkeit und Zuverlässigkeit sicherzustellen. Diese Übersichtsarbeit zielt darauf ab, Forschern und Praktikern ein systematisches Verständnis selbst-evolvierender KI-Agenten zu vermitteln und die Grundlage für die Entwicklung adaptiverer, autonomerer und lebenslanger agentischer Systeme zu legen.
Visuelle Effekte (VFX) sind wesentliche visuelle Verbesserungen, die für die moderne Filmproduktion grundlegend sind. Obwohl Videogenerierungsmodelle kosteneffiziente Lösungen für die VFX-Produktion bieten, sind aktuelle Methoden durch das Training von LoRA pro Effekt eingeschränkt, was die Generierung auf einzelne Effekte beschränkt. Diese grundlegende Einschränkung behindert Anwendungen, die räumlich kontrollierbare zusammengesetzte Effekte erfordern, d.h. die gleichzeitige Generierung mehrerer Effekte an festgelegten Positionen. Die Integration verschiedener Effekte in ein einheitliches Framework steht jedoch vor großen Herausforderungen: Interferenzen durch Effektvariationen und räumliche Unkontrollierbarkeit während des gemeinsamen Trainings mehrerer VFX. Um diese Herausforderungen zu bewältigen, schlagen wir Omni-Effects vor, ein erstes einheitliches Framework, das in der Lage ist, prompt-gesteuerte Effekte und räumlich kontrollierbare zusammengesetzte Effekte zu generieren. Der Kern unseres Frameworks besteht aus zwei Schlüsselinnovationen: (1) LoRA-basierte Mixture of Experts (LoRA-MoE), die eine Gruppe von Experten-LoRAs einsetzt, um verschiedene Effekte in einem einheitlichen Modell zu integrieren und gleichzeitig Interferenzen zwischen den Aufgaben effektiv zu minimieren. (2) Spatial-Aware Prompt (SAP) integriert räumliche Maskeninformationen in den Text-Token und ermöglicht so eine präzise räumliche Steuerung. Darüber hinaus führen wir ein Independent-Information Flow (IIF)-Modul ein, das in das SAP integriert ist und die Steuersignale für einzelne Effekte isoliert, um unerwünschte Vermischungen zu verhindern. Um diese Forschung zu unterstützen, erstellen wir einen umfassenden VFX-Datensatz Omni-VFX über eine neuartige Datenerfassungspipeline, die Bildbearbeitung und First-Last Frame-to-Video (FLF2V)-Synthese kombiniert, und führen ein spezielles VFX-Bewertungsframework ein, um die Modellleistung zu validieren. Umfangreiche Experimente zeigen, dass Omni-Effects eine präzise räumliche Kontrolle und die Generierung vielfältiger Effekte ermöglicht, wodurch Benutzer sowohl die Kategorie als auch den Ort der gewünschten Effekte spezifizieren können.
Deep-Research-Agenten, die große Sprachmodelle (LLMs) mit Suchwerkzeugen kombinieren, haben sich als erfolgreich erwiesen, um die Effektivität bei der Bearbeitung komplexer Anfragen zu steigern, die iterative Suchplanung und Schlussfolgerungen über Suchergebnisse erfordern. Evaluierungen auf aktuellen Benchmarks wie BrowseComp, die auf Blackbox-Live-Web-Such-APIs basieren, weisen jedoch erhebliche Einschränkungen auf: (1) Fairness: Dynamische und undurchsichtige Web-APIs behindern faire Vergleiche und die Reproduzierbarkeit von Deep-Research-Methoden; (2) Transparenz: Der Mangel an Kontrolle über das Dokumentenkorpus erschwert die Isolierung der Beiträge des Retrievers. Mit anderen Worten: Die aktuellen Evaluierungen vergleichen zwar ein vollständiges Deep-Research-System zu einem bestimmten Zeitpunkt, ermöglichen jedoch keine gut kontrollierten Experimente, um Einblicke in die Fähigkeiten der zugrunde liegenden Deep-Research-LLMs zu gewähren. Um diese Herausforderungen zu bewältigen, führen wir BrowseComp-Plus ein, einen Benchmark, der auf BrowseComp basiert und ein festes, sorgfältig kuratiertes Korpus verwendet. Jede Anfrage in BrowseComp-Plus enthält von Menschen verifizierte unterstützende Dokumente und herausfordernde, extrahierte Negative, was kontrollierte Experimente ermöglicht. Der Benchmark hat sich als effektiv erwiesen, um die Leistung von Deep-Research-Systemen zu unterscheiden. Beispielsweise erreicht das Open-Source-Modell Search-R1 in Kombination mit dem BM25-Retriever eine Genauigkeit von 3,86 %, während GPT-5 55,9 % erreicht. Die Integration von GPT-5 mit dem Qwen3-Embedding-8B-Retriever steigert die Genauigkeit weiter auf 70,1 % bei weniger Suchanfragen. Dieser Benchmark ermöglicht eine umfassende Evaluierung und entkoppelte Analyse von Deep-Research-Agenten und Retrieval-Methoden, wodurch Einblicke in die Effektivität des Retrievals, die Zitiergenauigkeit und das Kontext-Engineering in Deep-Research-Systemen gefördert werden.
Das logische Denken ist zentral für zielgerichtetes Handeln, doch die meisten robotischen Basismodelle bilden Wahrnehmung und Anweisungen direkt auf Steuerung ab, was die Anpassungsfähigkeit, Generalisierung und semantische Verankerung einschränkt. Wir stellen Action Reasoning Models (ARMs) vor, eine Klasse von Vision-Sprache-Handlungs-Modellen, die Wahrnehmung, Planung und Steuerung durch eine strukturierte dreistufige Pipeline integrieren. Unser Modell, MolmoAct, kodiert Beobachtungen und Anweisungen in tiefenbewusste Wahrnehmungstoken, erzeugt mittelgroße räumliche Pläne als editierbare Trajektorienspuren und sagt präzise niedrigstufige Aktionen voraus, wodurch erklärbares und lenkbares Verhalten ermöglicht wird. MolmoAct-7B-D erzielt starke Leistungen in Simulationen und realen Umgebungen: 70,5 % Zero-Shot-Genauigkeit bei SimplerEnv Visual Matching-Aufgaben, womit es die Closed-Source-Modelle Pi-0 und GR00T N1 übertrifft; 86,6 % durchschnittlicher Erfolg bei LIBERO, einschließlich eines zusätzlichen Zuwachses von 6,3 % gegenüber ThinkAct bei langfristigen Aufgaben; und bei der Feinabstimmung in der realen Welt eine zusätzliche Steigerung von 10 % (Einarm) und 22,7 % (Zweiarm) im Aufgabenfortschritt gegenüber Pi-0-FAST. Es übertrifft auch die Baselines um zusätzliche 23,3 % bei der Generalisierung außerhalb der Verteilung und erreicht die besten menschlichen Präferenzwerte für offene Anweisungsbefolgung und Trajektorienlenkung. Darüber hinaus veröffentlichen wir erstmals den MolmoAct-Datensatz – einen mittleren Trainingsdatensatz für Roboter, der über 10.000 hochwertige Roboter-Trajektorien in verschiedenen Szenarien und Aufgaben umfasst. Das Training mit diesem Datensatz führt zu einer durchschnittlichen Verbesserung der allgemeinen Leistung um 5,5 % gegenüber dem Basismodell. Wir veröffentlichen alle Modellgewichte, Trainingscode, unseren gesammelten Datensatz und unseren Action Reasoning-Datensatz und etablieren MolmoAct sowohl als modernstes robotisches Basismodell als auch als offene Blaupause für den Aufbau von ARMs, die Wahrnehmung durch strukturiertes Denken in zielgerichtetes Handeln umwandeln. Blogpost: https://allenai.org/blog/molmoact
Wir stellen Klear-Reasoner vor, ein Modell mit langen Fähigkeiten zur logischen Schlussfolgerung, das sorgfältige Überlegungen während der Problemlösung demonstriert und herausragende Leistungen über mehrere Benchmarks hinweg erzielt. Obwohl es in der aktuellen Community bereits viele exzellente Arbeiten im Zusammenhang mit Inferenzmodellen gibt, bestehen weiterhin viele Probleme bei der Reproduktion von Hochleistungs-Inferenzmodellen aufgrund unvollständiger Offenlegung von Trainingsdetails. Dieser Bericht bietet eine detaillierte Analyse des Schlussfolgerungsmodells und deckt den gesamten Post-Training-Workflow ab, von der Datenvorbereitung und dem langen Chain-of-Thought-supervised Fine-Tuning (langem CoT SFT) bis hin zum Reinforcement Learning (RL), zusammen mit detaillierten Ablationsstudien für jede experimentelle Komponente. Für SFT-Daten zeigen unsere Experimente, dass eine kleine Anzahl hochwertiger Datenquellen effektiver ist als eine große Anzahl diverser Datenquellen und dass schwierige Proben ohne Genauigkeitsfilterung bessere Ergebnisse erzielen können. Darüber hinaus untersuchen wir zwei Schlüsselprobleme bei den aktuellen Clipping-Mechanismen in RL: Clipping unterdrückt kritische Explorationssignale und ignoriert suboptimale Trajektorien. Um diese Herausforderungen zu bewältigen, schlagen wir Gradient-Preserving Clipping Policy Optimization (GPPO) vor, das Gradienten von beschnittenen Tokens sanft zurückpropagiert. GPPO verbessert nicht nur die Explorationsfähigkeit des Modells, sondern steigert auch dessen Effizienz beim Lernen aus negativen Beispielen. Klear-Reasoner zeigt außergewöhnliche Fähigkeiten in Mathematik und Programmierung und erzielt 90,5 % auf AIME 2024, 83,2 % auf AIME 2025, 66,0 % auf LiveCodeBench V5 und 58,1 % auf LiveCodeBench V6.
Das kürzlich vorgeschlagene Large Concept Model (LCM) erzeugt Text, indem es eine Sequenz von Satz-Embeddings vorhersagt und entweder mit dem mittleren quadratischen Fehler oder mit Diffusionszielen trainiert wird. Wir präsentieren SONAR-LLM, einen ausschließlich dekodierenden Transformer, der im selben kontinuierlichen SONAR-Embedding-Raum „denkt“, jedoch durch Token-Level-Cross-Entropy überwacht wird, die über den eingefrorenen SONAR-Decoder propagiert wird. Dieses hybride Ziel behält die semantische Abstraktion des LCM bei, eliminiert jedoch dessen Diffusionssampler und stellt ein wahrscheinlichkeitsbasiertes Trainingssignal wieder her. Über Modellgrößen von 39M bis 1,3B Parametern hinweg erreicht SONAR-LLM eine wettbewerbsfähige Generierungsqualität. Wir berichten über Skalierungstrends, Ablationen, Benchmark-Ergebnisse und veröffentlichen den vollständigen Trainingscode sowie alle vortrainierten Checkpoints, um Reproduzierbarkeit und zukünftige Forschung zu fördern.
Agenten, die auf Large Language Models (LLMs) basieren, haben beeindruckende Fortschritte im Bereich des logischen Denkens und der Werkzeugnutzung gemacht, was es ihnen ermöglicht, komplexe Aufgaben zu lösen. Ihre Fähigkeit, proaktiv mit Benutzern zusammenzuarbeiten, insbesondere wenn Ziele vage, sich entwickelnd oder indirekt formuliert sind, bleibt jedoch weitgehend unerforscht. Um diese Lücke zu schließen, stellen wir UserBench vor, einen benutzerzentrierten Benchmark, der entwickelt wurde, um Agenten in mehrstufigen, präferenzgesteuerten Interaktionen zu bewerten. UserBench umfasst simulierte Benutzer, die mit unspezifischen Zielen beginnen und ihre Präferenzen schrittweise offenbaren, wodurch die Agenten gezwungen sind, proaktiv Absichten zu klären und fundierte Entscheidungen mit Werkzeugen zu treffen. Unsere Bewertung führender Open-Source- und Closed-Source-LLMs zeigt eine erhebliche Diskrepanz zwischen der Aufgabenbewältigung und der Benutzerausrichtung. Beispielsweise liefern die Modelle nur in durchschnittlich 20 % der Fälle Antworten, die vollständig mit allen Benutzerabsichten übereinstimmen, und selbst die fortschrittlichsten Modelle decken durch aktive Interaktion weniger als 30 % aller Benutzerpräferenzen auf. Diese Ergebnisse unterstreichen die Herausforderungen beim Aufbau von Agenten, die nicht nur fähige Aufgabenausführer, sondern echte Kooperationspartner sind. UserBench bietet eine interaktive Umgebung, um diese kritische Fähigkeit zu messen und weiterzuentwickeln.
Reinforcement Learning (RL) für das Reasoning von Large Language Models (LLMs) hat sich schnell zu einem bedeutenden Forschungsgebiet entwickelt, das durch einen deutlichen Anstieg verwandter Studien sowohl im Bereich algorithmischer Innovationen als auch praktischer Anwendungen gekennzeichnet ist. Trotz dieser Fortschritte bleiben mehrere kritische Herausforderungen bestehen, darunter das Fehlen standardisierter Richtlinien für den Einsatz von RL-Techniken und ein fragmentiertes Verständnis ihrer zugrunde liegenden Mechanismen. Darüber hinaus haben inkonsistente experimentelle Rahmenbedingungen, Variationen in den Trainingsdaten und Unterschiede in der Modellinitialisierung zu widersprüchlichen Schlussfolgerungen geführt, die die wesentlichen Merkmale dieser Techniken verschleiern und bei Praktikern Verwirrung bei der Auswahl geeigneter Methoden stiften. Diese Arbeit systematisiert weit verbreitete RL-Techniken durch rigorose Reproduktionen und isolierte Bewertungen innerhalb eines einheitlichen Open-Source-Frameworks. Wir analysieren die internen Mechanismen, anwendbaren Szenarien und Kernprinzipien jeder Technik durch feingranulierte Experimente, einschließlich Datensätzen mit unterschiedlichem Schwierigkeitsgrad, Modellgrößen und Architekturen. Basierend auf diesen Erkenntnissen präsentieren wir klare Richtlinien für die Auswahl von RL-Techniken, die auf spezifische Anforderungen zugeschnitten sind, und bieten Praktikern eine verlässliche Roadmap für die Navigation im RL-Bereich für LLMs. Schließlich zeigen wir, dass eine minimalistisch kombinierte Anwendung zweier Techniken die Lernfähigkeit von kritikfreien Policies unter Verwendung des einfachen PPO-Loss freisetzen kann. Die Ergebnisse demonstrieren, dass unsere einfache Kombination die Leistung konsistent verbessert und Strategien wie GRPO und DAPO übertrifft.
Jüngste Fortschritte an der Schnittstelle von bestärkendem Lernen (Reinforcement Learning, RL) und visueller Intelligenz haben Agenten ermöglicht, die nicht nur komplexe visuelle Szenen wahrnehmen, sondern auch darin schlussfolgern, generieren und handeln können. Dieser Überblick bietet eine kritische und aktuelle Synthese des Forschungsfeldes. Zunächst formalisieren wir visuelle RL-Probleme und verfolgen die Entwicklung von Strategien zur Politikoptimierung von RLHF bis hin zu verifizierbaren Belohnungsparadigmen sowie von Proximal Policy Optimization zu Group Relative Policy Optimization. Anschließend ordnen wir mehr als 200 repräsentative Arbeiten in vier thematische Säulen ein: multimodale große Sprachmodelle, visuelle Generierung, vereinheitlichte Modellframeworks und Vision-Language-Action-Modelle. Für jede Säule untersuchen wir algorithmisches Design, Belohnungsgestaltung, Fortschritte bei Benchmarks und destillieren Trends wie curriculumgesteuertes Training, präferenzausgerichtete Diffusion und vereinheitlichte Belohnungsmodellierung. Schließlich überprüfen wir Evaluierungsprotokolle, die setbasierte Treue, probenbasierte Präferenz und zustandsbasierte Stabilität umfassen, und identifizieren offene Herausforderungen wie Probeneffizienz, Generalisierung und sichere Bereitstellung. Unser Ziel ist es, Forschern und Praktikern eine kohärente Karte der sich schnell ausdehnenden Landschaft des visuellen RL zu bieten und vielversprechende Richtungen für zukünftige Untersuchungen hervorzuheben. Ressourcen sind verfügbar unter: https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning.
Große Sprachmodelle (LLMs) haben eine verbesserte Generierungsleistung durch retrievergestützte Generierung (RAG) nach dem Retriever-Reader-Paradigma gezeigt, das die Modelleingaben mit extern abgerufenem Wissen ergänzt. Bisherige Arbeiten bewerten RAG jedoch oft ganzheitlich, indem sie Retriever und Reader gemeinsam beurteilen, was es schwierig macht, den tatsächlichen Beitrag des Retrievals zu isolieren, insbesondere angesichts der Prompt-Sensitivität der als Reader verwendeten LLMs. Wir führen den Spectrum Projection Score (SPS) ein, eine leichtgewichtige, aufsichtsfreie Metrik, die es dem Reader ermöglicht, die semantische Ausrichtung einer abgerufenen Zusammenfassung mit ihrer verborgenen Repräsentation zu bewerten, indem die Fläche verglichen wird, die von den generierten Tokens der Zusammenfassung gebildet wird, und die Hauptrichtungen des Unterraums im Reader, um die Relevanz zu messen. Aufbauend auf SPS präsentieren wir xCompress, ein Framework zur Inferenzzeitsteuerung, das dynamisch abgerufene Zusammenfassungskandidaten sampelt, bewertet und komprimiert. Umfangreiche Experimente auf fünf QA-Benchmarks mit vier Open-Source-LLMs zeigen, dass SPS nicht nur die Leistung über eine Reihe von Aufgaben hinweg verbessert, sondern auch eine prinzipielle Perspektive auf die Interaktion zwischen Retrieval und Generierung bietet.
Die Mixture of Experts (MoE)-Architektur ist ein Eckpfeiler moderner, state-of-the-art (SOTA) großer Sprachmodelle (LLMs). MoE-Modelle ermöglichen Skalierbarkeit durch spärliche Parameteraktivierung. Traditionelle MoE-Architekturen verwenden jedoch homogene Experten einheitlicher Größe, die eine feste Anzahl von Parametern unabhängig von der Eingabekomplexität aktivieren, was die Recheneffizienz einschränkt. Um diese Einschränkung zu überwinden, führen wir Grove MoE ein, eine neuartige Architektur, die Experten unterschiedlicher Größe integriert, inspiriert von der heterogenen big.LITTLE-CPU-Architektur. Diese Architektur verfügt über neuartige adjugierte Experten mit einem dynamischen Aktivierungsmechanismus, der eine Erweiterung der Modellkapazität bei gleichzeitig überschaubarem Rechenaufwand ermöglicht. Aufbauend auf dieser Architektur präsentieren wir GroveMoE-Base und GroveMoE-Inst, 33B-Parameter-LLMs, die durch eine Upcycling-Strategie auf das Qwen3-30B-A3B-Base-Modell während des mittleren und nachträglichen Trainings entwickelt wurden. GroveMoE-Modelle aktivieren dynamisch 3,14–3,28 Milliarden Parameter basierend auf der Token-Komplexität und erreichen eine Leistung, die mit SOTA Open-Source-Modellen ähnlicher oder sogar größerer Größe vergleichbar ist.
Große Sprachmodelle zeichnen sich durch abstraktes Denken aus, doch ihre Fähigkeit zur verkörperten Agentenlogik bleibt weitgehend unerforscht. Wir stellen OmniEAR vor, ein umfassendes Framework zur Bewertung, wie Sprachmodelle physische Interaktionen, Werkzeugnutzung und Multi-Agenten-Koordination in verkörperten Aufgaben verarbeiten. Im Gegensatz zu bestehenden Benchmarks, die vordefinierte Werkzeugsätze oder explizite Kooperationsanweisungen bereitstellen, erfordert OmniEAR, dass Agenten Fähigkeiten dynamisch erwerben und Koordinationsstrategien autonom auf Basis der Aufgabenanforderungen bestimmen. Durch textbasierte Umgebungsdarstellung modellieren wir kontinuierliche physikalische Eigenschaften und komplexe räumliche Beziehungen in 1.500 Szenarien aus Haushalts- und Industriebereichen. Unsere systematische Auswertung zeigt eine erhebliche Leistungsverschlechterung, wenn Modelle aus Einschränkungen schlussfolgern müssen: Während sie bei expliziten Anweisungen 85-96 % Erfolg erzielen, sinkt die Leistung auf 56-85 % bei der Werkzeuglogik und 63-85 % bei impliziter Zusammenarbeit, wobei zusammengesetzte Aufgaben über 50 % Fehlerraten aufweisen. Überraschenderweise verschlechtert vollständige Umgebungsinformation die Koordinationsleistung, was darauf hindeutet, dass Modelle aufgabenrelevante Einschränkungen nicht filtern können. Feinabstimmung verbessert Einzelagentenaufgaben dramatisch (0,6 % auf 76,3 %), bringt jedoch nur minimale Multi-Agenten-Fortschritte (1,5 % auf 5,5 %), was grundlegende architektonische Grenzen offenbart. Diese Erkenntnisse zeigen, dass verkörperte Logik grundlegend andere Herausforderungen stellt, als aktuelle Modelle bewältigen können, und etablieren OmniEAR als rigorosen Benchmark zur Bewertung und Weiterentwicklung verkörperter KI-Systeme. Unser Code und unsere Daten sind in den ergänzenden Materialien enthalten und werden nach Annahme open-source veröffentlicht.
Self-Rewarding Language Models schlagen eine Architektur vor, in der große Sprachmodelle (LLMs) sowohl Antworten generieren als auch ihre eigenen Ausgaben über LLM-as-a-Judge-Prompting bewerten und so ihre generativen Fähigkeiten durch iterative Direct Preference Optimization (DPO) dynamisch verbessern. Unsere Analyse zeigt jedoch eine kritische Einschränkung in bestehenden Self-Rewarding-Paradigmen: Die synchronisierte Verbesserung von ausgewählten und abgelehnten Antworten verringert schrittweise den repräsentativen Unterschied zwischen kontrastierenden Beispielen, was effektives Präferenzlernen untergräbt. Wir schlagen Temporale Self-Rewarding Language Models vor, die strategisch vergangene, gegenwärtige und zukünftige Modellgenerationen koordinieren, um Lernsignale aufrechtzuerhalten. Unser zweiphasiges Framework führt ein: (1) Anchored Rejection – das Fixieren abgelehnter Antworten mithilfe der Ausgaben des anfänglichen Modells aus der Vergangenheit und (2) Future-Guided Chosen – das dynamische Kuratieren ausgewählter Beispiele mithilfe von Vorhersagen des nächsten Modellgenerationsschritts. Umfangreiche Experimente über drei Modellfamilien (Llama, Qwen, Mistral) und verschiedene Modellgrößen (Llama3B/8B/70B) zeigen signifikante Verbesserungen, wenn mit unserer Methode trainiert wird, im Vergleich zu Self-Rewarding unter Verwendung der gleichen Rechenressourcen. Beispielsweise erreicht Llama3.1-8B mit unserer Methode eine Win Rate von 29,44 auf AlpacaEval 2.0 und übertrifft damit die Self-Rewarding-Baseline (19,69) um 9,75. Bemerkenswerterweise zeigt unsere Methode auch eine überlegene Out-of-Distribution-Generalisierung über mathematisches Denken (GSM8K), wissensbasierte Frage-Antwort-Systeme (ARC, TruthfulQA) und Code-Generierung (HumanEval) hinweg, obwohl wir keine spezifischen Trainingsdaten für diese Bereiche sammeln.
Große Reasoning-Modelle erzielen eine starke Leistung durch Skalierung zur Testzeit, verursachen jedoch erheblichen Rechenaufwand, insbesondere durch übermäßige Token-Generierung bei der Verarbeitung kurzer Eingabeaufforderungen. Während spärliche Aufmerksamkeitsmechanismen Latenz und Speicherverbrauch reduzieren können, leiden bestehende Ansätze unter erheblicher Genauigkeitseinbuße aufgrund von akkumulierten Fehlern während langwieriger Reasoning-Generierung. Diese Methoden erfordern in der Regel entweder hohe Token-Retentionsraten oder kostspieliges Retraining. Wir stellen LessIsMore vor, einen trainingsfreien spärlichen Aufmerksamkeitsmechanismus für Reasoning-Aufgaben, der globale Aufmerksamkeitsmuster nutzt, anstatt sich auf traditionelle kopf-spezifische lokale Optimierungen zu verlassen. LessIsMore aggregiert Token-Auswahlen aus lokalen Aufmerksamkeitsköpfen mit aktuellen Kontextinformationen, wodurch eine einheitliche kopfübergreifende Token-Rangfolge für zukünftige Decodierungsschichten ermöglicht wird. Diese einheitliche Auswahl verbessert die Generalisierung und Effizienz, indem die Notwendigkeit entfällt, separate Token-Teilmengen pro Kopf zu pflegen. Die Bewertung über verschiedene Reasoning-Aufgaben und Benchmarks zeigt, dass LessIsMore die Genauigkeit bewahrt – und in einigen Fällen sogar verbessert – während es im Durchschnitt eine 1,1-fache Decodierungsbeschleunigung im Vergleich zur vollständigen Aufmerksamkeit erreicht. Darüber hinaus berücksichtigt LessIsMore 2-mal weniger Token ohne Genauigkeitsverlust und erzielt eine 1,13-fache End-to-End-Beschleunigung im Vergleich zu bestehenden spärlichen Aufmerksamkeitsmethoden.
Generalisierte Roboterrichtlinien, die auf umfangreichen Datensätzen wie Open X-Embodiment (OXE) trainiert werden, zeigen eine starke Leistung über eine breite Palette von Aufgaben hinweg. Allerdings haben sie oft Schwierigkeiten, über die Verteilung ihrer Trainingsdaten hinaus zu generalisieren. In dieser Arbeit untersuchen wir die zugrunde liegende Ursache für diese begrenzte Generalisierungsfähigkeit. Wir identifizieren das sogenannte Shortcut-Lernen – die Abhängigkeit von aufgabenirrelevanten Merkmalen – als ein zentrales Hindernis für die Generalisierung. Durch umfassende theoretische und empirische Analysen decken wir zwei Hauptursachen für Shortcut-Lernen auf: (1) begrenzte Diversität innerhalb einzelner Unterdatensätze und (2) signifikante verteilungsbezogene Unterschiede zwischen Unterdatensätzen, die zu einer Fragmentierung des Datensatzes führen. Diese Probleme ergeben sich aus der inhärenten Struktur großer Datensätze wie OXE, die typischerweise aus mehreren Unterdatensätzen bestehen, die unabhängig voneinander in verschiedenen Umgebungen und mit unterschiedlichen Embodiments gesammelt wurden. Unsere Erkenntnisse liefern wichtige Einblicke in Datensammlungsstrategien, die Shortcut-Lernen reduzieren und die Generalisierungsfähigkeit generalisierter Roboterrichtlinien verbessern können. Darüber hinaus zeigen wir in Szenarien, in denen die Beschaffung neuer großflächiger Daten unpraktisch ist, dass sorgfältig ausgewählte Strategien zur Roboter-Datenaugmentierung Shortcut-Lernen in bestehenden Offline-Datensätzen effektiv reduzieren können, wodurch die Generalisierungsfähigkeiten generalisierter Roboterrichtlinien, z. B. π₀, sowohl in Simulations- als auch in realen Umgebungen verbessert werden. Weitere Informationen finden Sie unter https://lucky-light-sun.github.io/proj/shortcut-learning-in-grps/.
Während aktuelle flow-basierte Bildbearbeitungsmodelle allgemeine Fähigkeiten über diverse Aufgaben hinweg demonstrieren, haben sie oft Schwierigkeiten, sich auf anspruchsvolle Szenarien zu spezialisieren – insbesondere solche, die großflächige Formtransformationen beinhalten. Bei der Durchführung solcher strukturellen Bearbeitungen erreichen diese Methoden entweder nicht die beabsichtigte Formänderung oder verändern unbeabsichtigte Bereiche, was zu einer Verschlechterung der Hintergrundqualität führt. Wir schlagen Follow-Your-Shape vor, ein trainingsfreies und maskenfreies Framework, das eine präzise und kontrollierbare Bearbeitung von Objektformen unterstützt, während nicht betroffene Inhalte strikt erhalten bleiben. Motiviert durch die Divergenz zwischen Inversions- und Bearbeitungspfaden berechnen wir eine Trajectory Divergence Map (TDM), indem wir tokenweise Geschwindigkeitsunterschiede zwischen den Inversions- und Denoising-Pfaden vergleichen. Die TDM ermöglicht eine präzise Lokalisierung der bearbeitbaren Regionen und steuert einen Scheduled KV Injection-Mechanismus, der eine stabile und treue Bearbeitung gewährleistet. Um eine rigorose Bewertung zu ermöglichen, führen wir ReShapeBench ein, einen neuen Benchmark, der 120 neue Bilder und angereicherte Prompt-Paare umfasst, die speziell für formbewusste Bearbeitungen kuratiert wurden. Experimente zeigen, dass unsere Methode eine überlegene Bearbeitbarkeit und visuelle Treue erreicht, insbesondere bei Aufgaben, die großflächige Formersetzungen erfordern.
Die Mixture-of-Experts (MoE)-Architektur hat sich zu einem vorherrschenden Paradigma für die Skalierung großer Sprachmodelle (LLMs) entwickelt. Obwohl sie eine hohe Leistung und Recheneffizienz bietet, stellen große MoE-basierte LLMs wie DeepSeek-V3-0324 und Kimi-K2-Instruct aufgrund des erheblichen Speicherbedarfs bei der Bereitstellung ernsthafte Herausforderungen dar. Während neuere Arbeiten die MoE-Kompression zur Lösung dieses Problems untersucht haben, leiden bestehende Methoden oft unter erheblichen Genauigkeitseinbußen (z. B. 7–14 % relativ) selbst bei moderaten Kompressionsraten. Dieses Papier stellt eine neuartige Mixture-of-Basis-Experts (MoBE)-Methode vor, die eine Modellkompression ermöglicht, während nur minimale Genauigkeitseinbußen auftreten. Konkret wird jede Up/Gate-Matrix in einem Experten durch eine Rang-Zerlegung als W = AB dekomponiert, wobei die Matrix A für jeden Experten einzigartig ist. Die relativ größere Matrix B wird weiter als eine lineare Kombination von Basis-Matrizen {Bi} reparametrisiert, die über alle Experten innerhalb einer bestimmten MoE-Schicht geteilt werden. Die Faktorisierung wird durch die Minimierung des Rekonstruktionsfehlers relativ zu den ursprünglichen Gewichtsmatrizen erlernt. Experimente zeigen, dass MoBE im Vergleich zu früheren Arbeiten deutlich geringere Genauigkeitseinbußen aufweist. Beispielsweise kann MoBE die Parameteranzahl von Qwen3-235B-A22B-2507, DeepSeek-V3-0324 (671B) und Kimi-K2-Instruct (1T) um 24–30 % reduzieren, wobei nur 1–2 % Genauigkeitseinbußen auftreten (etwa 2 % Einbußen relativ gemessen).
Die Klassifizierung ist eine der am weitesten verbreiteten Aufgaben in KI-Anwendungen und dient häufig als erster Schritt bei der Filterung, Sortierung und Kategorisierung von Daten. Da moderne KI-Systeme große Mengen an Eingabedaten verarbeiten müssen und Fehler in frühen Pipeline-Stufen sich nachteilig auf nachfolgende Schritte auswirken können, ist das Erreichen hoher Effizienz und Genauigkeit entscheidend. Darüber hinaus können sich die Anforderungen an die Klassifizierung dynamisch basierend auf den Benutzerbedürfnissen ändern, was Modelle mit starken Zero-Shot-Fähigkeiten erfordert. Während generative LLMs aufgrund ihrer Vielseitigkeit zum Mainstream für die Zero-Shot-Klassifizierung geworden sind, leiden sie unter inkonsistentem Befolgen von Anweisungen und rechnerischer Ineffizienz. Cross-Encoder, die häufig als Reranker in RAG-Pipelines eingesetzt werden, stehen vor einem anderen Engpass: Sie müssen Text-Label-Paare sequenziell verarbeiten, was die Effizienz bei großen Labelmengen erheblich reduziert. Embedding-basierte Ansätze bieten eine gute Effizienz, haben jedoch Schwierigkeiten mit komplexen Szenarien, die logische und semantische Einschränkungen beinhalten. Wir stellen GLiClass vor, eine neuartige Methode, die die GLiNER-Architektur für Sequenzklassifizierungsaufgaben anpasst. Unser Ansatz erreicht eine hohe Genauigkeit und Effizienz, die mit embedding-basierten Methoden vergleichbar ist, und behält gleichzeitig die Flexibilität bei, die für Zero-Shot- und Few-Shot-Lernszenarien erforderlich ist. Zusätzlich haben wir das Proximale Policy Optimization (PPO) für die Multi-Label-Textklassifizierung adaptiert, wodurch das Training von Klassifikatoren unter datenarmen Bedingungen oder basierend auf menschlichem Feedback ermöglicht wird.
Die meisten organisatorischen Daten in dieser Welt werden als Dokumente gespeichert, und die visuelle Extraktion spielt eine entscheidende Rolle bei der Erschließung der kollektiven Intelligenz aus all diesen Dokumenten. Bisherige Benchmarks konzentrieren sich jedoch entweder auf die Dokumentenextraktion ausschließlich in englischer Sprache oder berücksichtigen nur mehrsprachige Frage-Antwort-Systeme auf Einzelseitenbildern. Um diese Lücke zu schließen, stellen wir VisR-Bench vor, einen mehrsprachigen Benchmark, der für die fragengesteuerte multimodale Extraktion in langen Dokumenten entwickelt wurde. Unser Benchmark umfasst über 35.000 hochwertige Frage-Antwort-Paare aus 1.200 Dokumenten und ermöglicht eine detaillierte Bewertung der multimodalen Extraktion. VisR-Bench deckt sechzehn Sprachen mit drei Fragetypen (Abbildungen, Text und Tabellen) ab und bietet eine vielfältige linguistische und Fragendeckung. Im Gegensatz zu früheren Datensätzen beinhalten wir Anfragen ohne explizite Antworten, um zu verhindern, dass Modelle sich auf oberflächliche Schlüsselwortabgleiche verlassen. Wir bewerten verschiedene Extraktionsmodelle, darunter textbasierte Methoden, multimodale Encoder und MLLMs, und liefern Einblicke in deren Stärken und Schwächen. Unsere Ergebnisse zeigen, dass MLLMs zwar textbasierte und multimodale Encoder-Modelle deutlich übertreffen, sie jedoch weiterhin Schwierigkeiten mit strukturierten Tabellen und ressourcenarmen Sprachen haben, was zentrale Herausforderungen in der mehrsprachigen visuellen Extraktion verdeutlicht.
Große Sprachmodelle (LLMs), die Chain-of-Thought (CoT)-Prompting verwenden, zeichnen sich durch komplexes logisches Denken aus, erzeugen jedoch ausführliche Denkprozesse mit erheblicher Redundanz, was zu erhöhten Inferenzkosten und reduzierter Effizienz führt. Wir stellen ein neuartiges CoT-Kompressionsframework vor, das auf der Schrittentropie basiert, einer Metrik, die den Informationsbeitrag einzelner Denkschritte quantifiziert, um Redundanz zu identifizieren. Durch theoretische Analysen und umfangreiche empirische Validierung auf mathematischen Denkbenchmarks zeigen wir, dass Schritte mit niedriger Entropie tatsächlich stark redundant sind. Unsere Experimente offenbaren, dass erstaunliche 80 % der Zwischenschritte mit niedriger Entropie entfernt werden können, ohne die Genauigkeit der Endergebnisse bei DeepSeek-R1-7B, 14B und Qwen3-8B wesentlich zu beeinträchtigen. Diese Erkenntnis steht in starkem Kontrast zu zufälliger oder hoch-entropischer Reduktion, die die Denkleistung erheblich verschlechtert. Aufbauend darauf schlagen wir eine neuartige zweistufige Trainingsstrategie vor, die Supervised Fine-Tuning (SFT) und Group Relative Policy Optimization (GRPO)-Reinforcement Learning kombiniert. Dieser Ansatz ermöglicht es LLMs, autonom zu lernen, komprimierte COTs während der Inferenz zu generieren, indem strategisch [SKIP]-Tokens eingefügt werden. Unsere Methode verbessert die Inferenzeffizienz von LLMs signifikant, während die Genauigkeit rigoros erhalten bleibt, und bietet tiefgreifende Implikationen für die praktische Anwendung von LLMs sowie ein besseres Verständnis von Denkstrukturen.
Es gibt ein zunehmendes Interesse daran, hochwertige visuelle Synthesefähigkeiten in große Sprachmodelle (LLMs) zu integrieren, ohne deren starke Fähigkeiten zur logischen Schlussfolgerung zu beeinträchtigen. Bestehende Methoden, die LLMs direkt trainieren oder LLMs mit Diffusionsmodellen verbinden, leiden oft unter kostspieligem Training, da die zugrunde liegenden LLMs während des Vortrainings keine Bildrepräsentationen gesehen haben. Wir stellen Bifrost-1 vor, ein einheitliches Framework, das vortrainierte multimodale LLMs (MLLMs) und Diffusionsmodelle mithilfe von patch-basierten CLIP-Bild-Einbettungen als latente Variablen verbindet, die nativ mit dem CLIP-Visual-Encoder des MLLMs ausgerichtet sind. Diese patch-basierten Bild-Einbettungen werden in das Diffusionsmodell integriert, indem dessen ControlNet leicht angepasst wird. Um die ursprünglichen multimodalen Schlussfolgerungsfähigkeiten der MLLMs zu erhalten, statten wir den MLLM mit einem visuellen Generierungszweig aus, der mit den ursprünglichen MLLM-Parametern initialisiert wird, wenn die patch-basierten Bild-Einbettungen vorhergesagt werden. Durch die nahtlose Integration von vortrainierten MLLMs und Diffusionsmodellen mit patch-basierten CLIP-Latents ermöglicht unser Framework eine hochwertige, kontrollierbare Bildgenerierung mit erheblicher Trainings-Effizienz. Unsere Experimente zeigen, dass Bifrost-1 eine vergleichbare oder bessere Leistung als bisherige Methoden in Bezug auf visuelle Qualität und multimodales Verständnis erreicht, bei deutlich geringerem Rechenaufwand während des Trainings. Wir präsentieren auch umfassende Ablationsstudien, die die Wirksamkeit unserer Designentscheidungen belegen.
Open-Weight-AI-Systeme bieten einzigartige Vorteile, darunter erhöhte Transparenz, offene Forschung und dezentralen Zugang. Sie sind jedoch anfällig für Manipulationsangriffe, die durch die Modifikation von Gewichten oder Aktivitäten effizient schädliche Verhaltensweisen hervorrufen können. Derzeit gibt es noch keine robuste Wissenschaft des Risikomanagements für Open-Weight-Modelle. Bestehende Sicherheits-Fine-Tuning-Methoden und andere Post-Training-Techniken haben Schwierigkeiten, LLMs gegen mehr als ein paar Dutzend Schritte von adversarischem Fine-Tuning resistent zu machen. In diesem Artikel untersuchen wir, ob das Filtern von Texten über Dual-Use-Themen aus den Trainingsdaten unerwünschte Fähigkeiten verhindern und als manipulationsresistenter Schutzmechanismus dienen kann. Wir stellen eine mehrstufige Pipeline für skalierbares Datenfiltering vor und zeigen, dass sie eine praktikable und effektive Methode zur Minimierung von Biothreat-Proxy-Wissen in LLMs bietet. Wir pretrainieren mehrere 6,9-Milliarden-Parameter-Modelle von Grund auf und stellen fest, dass sie eine erhebliche Resistenz gegen adversarische Fine-Tuning-Angriffe bei bis zu 10.000 Schritten und 300 Millionen Tokens von biothreat-bezogenem Text aufweisen – und damit bestehende Post-Training-Baselines um mehr als eine Größenordnung übertreffen – ohne beobachtbare Verschlechterung bei unabhängigen Fähigkeiten. Während gefilterte Modelle jedoch kein internalisiertes gefährliches Wissen besitzen, stellen wir fest, dass sie solche Informationen dennoch nutzen können, wenn sie im Kontext bereitgestellt werden (z. B. über eine Suchtool-Erweiterung), was die Notwendigkeit eines Defense-in-Depth-Ansatzes verdeutlicht. Insgesamt tragen diese Erkenntnisse dazu bei, die Kuratierung von Pretraining-Daten als vielversprechende Verteidigungsschicht für Open-Weight-AI-Systeme zu etablieren.
State-of-the-art Faktenprüfungssysteme bekämpfen Fehlinformationen im großen Maßstab, indem sie autonome, auf großen Sprachmodellen (LLM) basierende Agenten einsetzen, um komplexe Behauptungen in kleinere Teilbehauptungen zu zerlegen, jede Teilbehauptung einzeln zu überprüfen und die Teilergebnisse zu aggregieren, um Urteile mit Begründungen (erklärende Rationale für die Urteile) zu erzeugen. Die Sicherheit dieser Systeme ist von entscheidender Bedeutung, da kompromittierte Faktenprüfer, die tendenziell leicht unerforscht bleiben, Fehlinformationen verstärken können. Diese Arbeit stellt Fact2Fiction vor, das erste Vergiftungsangriff-Framework, das solche agentenbasierten Faktenprüfungssysteme ins Visier nimmt. Fact2Fiction spiegelt die Zerlegungsstrategie wider und nutzt systemgenerierte Begründungen, um maßgeschneiderte bösartige Beweise zu erstellen, die die Überprüfung von Teilbehauptungen kompromittieren. Umfangreiche Experimente zeigen, dass Fact2Fiction im Vergleich zu state-of-the-art Angriffen über verschiedene Vergiftungsbudgets hinweg 8,9\%--21,2\% höhere Angriffserfolgsraten erzielt. Fact2Fiction deckt Sicherheitsschwächen in aktuellen Faktenprüfungssystemen auf und unterstreicht die Notwendigkeit defensiver Gegenmaßnahmen.
Die Umwandlung gesprochener mathematischer Ausdrücke ist eine anspruchsvolle Aufgabe, bei der Sprache in eine streng strukturierte symbolische Darstellung transkribiert wird, während die inhärente Mehrdeutigkeit bei der Aussprache von Gleichungen berücksichtigt wird. Obwohl bedeutende Fortschritte in der automatischen Spracherkennung (ASR) und bei Sprachmodellen (LM) erzielt wurden, bleibt die Umwandlung gesprochener Mathematik in LaTeX ein wenig erforschtes Problem. Diese Aufgabe ist direkt auf Bildungs- und Forschungsbereiche anwendbar, wie beispielsweise die Transkription von Vorlesungen oder die Erstellung von Notizen. Basierend auf der ASR-Nachkorrektur erfordert frühere Arbeit zwei Transkriptionen, konzentriert sich nur auf isolierte Gleichungen, verfügt über einen begrenzten Testdatensatz und bietet weder Trainingsdaten noch mehrsprachige Abdeckung. Um diese Probleme zu adressieren, präsentieren wir den ersten vollständig quelloffenen, groß angelegten Datensatz, der über 66.000 von Menschen annotierte Audioaufnahmen mathematischer Gleichungen und Sätze in Englisch und Russisch umfasst, die aus verschiedenen wissenschaftlichen Domänen stammen. Neben den ASR-Nachkorrekturmodellen und Few-Shot-Prompting wenden wir Audio-Sprachmodelle an und zeigen vergleichbare Ergebnisse bei der Zeichenfehlerrate (CER) auf dem MathSpeech-Benchmark (28 % vs. 30 %) für die Gleichungsumwandlung. Im Gegensatz dazu übertreffen unsere Modelle auf dem vorgeschlagenen S2L-Gleichungen-Benchmark das MathSpeech-Modell mit einem erheblichen Vorsprung von mehr als 40 Prozentpunkten, selbst nach Berücksichtigung von LaTeX-Formatierungsartefakten (27 % vs. 64 %). Wir etablieren den ersten Benchmark für die Erkennung mathematischer Sätze (S2L-Sätze) und erreichen eine Gleichungs-CER von 40 %. Diese Arbeit legt den Grundstein für zukünftige Fortschritte in der multimodalen KI, mit einem besonderen Fokus auf der Erkennung mathematischer Inhalte.
Viele haben beobachtet, dass die Entwicklung und Bereitstellung von generativem maschinellem Lernen (ML) und künstlicher Intelligenz (KI) einem charakteristischen Muster folgt, bei dem vortrainierte Modelle für spezifische Downstream-Aufgaben angepasst und feinabgestimmt werden. Es gibt jedoch nur begrenzte empirische Arbeiten, die die Struktur dieser Interaktionen untersuchen. Diese Arbeit analysiert 1,86 Millionen Modelle auf Hugging Face, einer führenden Plattform für die gemeinschaftliche Entwicklung von Modellen. Unsere Studie von Modell-Stammbäumen – Netzwerken, die feinabgestimmte Modelle mit ihren Basis- oder Elternmodellen verbinden – zeigt weitläufige Feinabstimmungslinien, die stark in Größe und Struktur variieren. Unter Verwendung einer evolutionären Biologie-Perspektive zur Untersuchung von ML-Modellen nutzen wir Modell-Metadaten und Modellkarten, um die genetische Ähnlichkeit und die Mutation von Merkmalen über Modellfamilien hinweg zu messen. Wir stellen fest, dass Modelle tendenziell eine Familienähnlichkeit aufweisen, was bedeutet, dass ihre genetischen Marker und Merkmale mehr Überschneidungen zeigen, wenn sie derselben Modellfamilie angehören. Diese Ähnlichkeiten weichen jedoch in bestimmten Aspekten von Standardmodellen der asexuellen Fortpflanzung ab, da Mutationen schnell und gerichtet sind, sodass zwei „Geschwister“-Modelle tendenziell mehr Ähnlichkeit aufweisen als Eltern/Kind-Paare. Eine weitere Analyse der Richtungsdrifts dieser Mutationen liefert qualitative Einblicke in das offene Ökosystem des maschinellen Lernens: Lizenzen entwickeln sich kontraintuitiv von restriktiven, kommerziellen Lizenzen hin zu freizügigen oder Copyleft-Lizenzen, oft in Verletzung der Bedingungen der Upstream-Lizenzen; Modelle entwickeln sich von mehrsprachiger Kompatibilität hin zu ausschließlich englischer Kompatibilität; und Modellkarten werden kürzer und standardisieren sich, indem sie häufiger auf Vorlagen und automatisch generierten Text zurückgreifen. Insgesamt leistet diese Arbeit einen Schritt hin zu einem empirisch fundierten Verständnis der Feinabstimmung von Modellen und legt nahe, dass ökologische Modelle und Methoden neue wissenschaftliche Erkenntnisse liefern können.
Da große Sprachmodelle zunehmend in den Alltag integriert werden, hat sich Audio als eine zentrale Schnittstelle für die Mensch-KI-Interaktion etabliert. Diese Bequemlichkeit bringt jedoch auch neue Schwachstellen mit sich, wodurch Audio zu einer potenziellen Angriffsfläche für Gegner wird. Unsere Forschung stellt WhisperInject vor, ein zweistufiges Framework für adversarische Audioangriffe, das in der Lage ist, modernste Audio-Sprachmodelle zu manipulieren, um schädliche Inhalte zu generieren. Unsere Methode nutzt unmerkliche Störungen in Audioeingaben, die für menschliche Zuhörer harmlos bleiben. Die erste Stufe verwendet eine neuartige belohnungsbasierte Optimierungsmethode, Reinforcement Learning with Projected Gradient Descent (RL-PGD), um das Zielmodell dazu zu bringen, seine eigenen Sicherheitsprotokolle zu umgehen und schädliche native Antworten zu generieren. Diese native schädliche Antwort dient dann als Ziel für die zweite Stufe, Payload Injection, bei der wir Projected Gradient Descent (PGD) verwenden, um subtile Störungen zu optimieren, die in harmlose Audio-Träger wie Wetteranfragen oder Begrüßungsnachrichten eingebettet werden. Validiert unter dem strengen StrongREJECT-, LlamaGuard- sowie Human Evaluation-Sicherheitsbewertungsrahmen zeigen unsere Experimente eine Erfolgsrate von über 86 % bei Qwen2.5-Omni-3B, Qwen2.5-Omni-7B und Phi-4-Multimodal. Unsere Arbeit demonstriert eine neue Klasse praktischer, audio-nativer Bedrohungen, die über theoretische Exploits hinausgeht und eine praktikable und verdeckte Methode zur Manipulation von KI-Verhalten aufzeigt.
Die Bewertung von KI-Agenten in komplexen, interaktiven Umgebungen, die reale Herausforderungen widerspiegeln, ist entscheidend, um deren praktische Fähigkeiten zu verstehen. Während bestehende Benchmarks für Agenten effektiv Fähigkeiten wie Werkzeugnutzung oder Leistung bei strukturierten Aufgaben bewerten, erfassen sie oft nicht vollständig die Fähigkeit eines Agenten, in explorativen Umgebungen autonom zu agieren, die anhaltendes, selbstgesteuertes Denken über einen langen und wachsenden Kontext erfordern. Um die Entwicklung von Agenten zu fördern, die zu robusterem intrinsischem Denken über lange Zeiträume fähig sind, stellen wir TextQuests vor, einen Benchmark, der auf der Infocom-Suite von interaktiven Fiction-Spielen basiert. Diese textbasierten Abenteuer, die menschliche Spieler über 30 Stunden in Anspruch nehmen und Hunderte von präzisen Aktionen zur Lösung erfordern, dienen als effektiver Stellvertreter für die Bewertung von KI-Agenten bei fokussierten, zustandsbehafteten Aufgaben. Der Benchmark ist speziell darauf ausgelegt, die Fähigkeit eines LLM-Agenten zur eigenständigen Problemlösung zu bewerten, indem die Nutzung externer Werkzeuge ausgeschlossen wird, wodurch die intrinsischen Fähigkeiten zum langfristigen Kontextverständnis in einer explorativen Umgebung betont werden, die durch die Notwendigkeit von Versuch-und-Irrtum-Lernen und anhaltender Problemlösung innerhalb einer einzigen interaktiven Sitzung gekennzeichnet ist. Wir veröffentlichen TextQuests unter https://textquests.ai.