Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Videogenerierungstechniken haben bemerkenswerte Fortschritte gemacht und versprechen, die Grundlage für die interaktive Erkundung von Welten zu sein. Allerdings sind bestehende Videogenerierungsdatensätze nicht gut für das Training zur Welterkundung geeignet, da sie unter einigen Einschränkungen leiden: begrenzte Orte, kurze Dauer, statische Szenen und ein Mangel an Annotationen zur Erkundung und der Welt. In diesem Artikel stellen wir Sekai (was auf Japanisch „Welt“ bedeutet) vor, einen hochwertigen First-Person-View-Weltvideodatensatz mit umfangreichen Annotationen zur Welterkundung. Er besteht aus über 5.000 Stunden an Geh- oder Drohnenansichtsvideos (FPV und UVA) aus über 100 Ländern und Regionen in 750 Städten. Wir entwickeln ein effizientes und effektives Toolset, um Videos mit Standort, Szene, Wetter, Menschendichte, Beschreibungen und Kameratrajektorien zu sammeln, vorzuverarbeiten und zu annotieren. Experimente demonstrieren die Qualität des Datensatzes. Und wir verwenden eine Teilmenge, um ein interaktives Videowelterkundungsmodell namens YUME (was auf Japanisch „Traum“ bedeutet) zu trainieren. Wir glauben, dass Sekai den Bereich der Videogenerierung und Welterkundung bereichern und wertvolle Anwendungen motivieren wird.
Jüngste Fortschritte in Vision-Sprach-Modellen (VLMs) haben große Sprachmodelle (LLMs) genutzt, um Leistungen auf Augenhöhe mit geschlossenen Systemen wie GPT-4V zu erzielen. Die Bereitstellung dieser Modelle in realen Anwendungen, insbesondere auf ressourcenbeschränkten Geräten, bleibt jedoch aufgrund ihres erheblichen Rechenbedarfs eine Herausforderung. Dies hat das Interesse an der Wissensdestillation aus großen VLMs in kleinere, effizientere Gegenstücke geweckt. Eine zentrale Herausforderung ergibt sich hier aus der Vielfalt der VLM-Architekturen, die auf verschiedenen LLMs basieren und unterschiedliche Token-Typen verwenden – mit Unterschieden in der Vokabulargröße, Token-Aufteilungen und der Reihenfolge der Token-Indizes. Um diese Herausforderung der Beschränkung auf einen spezifischen VLM-Typ zu bewältigen, präsentieren wir Generation after Recalibration (GenRecal), ein neuartiges, allgemeines Destillationsframework für VLMs. GenRecal integriert einen Recalibrator, der Feature-Repräsentationen zwischen heterogenen VLMs ausrichtet und anpasst, wodurch ein effektiver Wissenstransfer über verschiedene VLM-Typen hinweg ermöglicht wird. Durch umfangreiche Experimente auf mehreren anspruchsvollen Benchmarks zeigen wir, dass GenRecal die Baseline-Leistungen signifikant verbessert und schließlich groß angelegte Open- und Closed-Source-VLMs übertrifft.
Das Training von LLMs auf dezentralen und leistungsschwachen Rechenknoten, z.B. mehreren lokalen Instanzen, senkt die Trainingskosten und ermöglicht die Demokratisierung von Modellen. Die unvermeidliche Herausforderung hierbei ist der Ausfall von Knoten aufgrund von Fehlern und den Planungsrichtlinien des Betreibers, was zum Verlust einer Stufe – eines Teils des Modells – führt. Die herkömmlichen Ansätze zur Fehlerbehebung bestehen entweder in der Verwendung von Checkpointing, bei dem periodisch eine Kopie des gesamten Modells an einen zusätzlichen Speicher gesendet wird, oder in redundanter Berechnung. Diese Ansätze verursachen erheblichen Kommunikations- und/oder Berechnungsaufwand, selbst in fehlerfreien Fällen, und skalieren schlecht in Umgebungen mit großen Modellen. In diesem Artikel schlagen wir CheckFree vor, eine effiziente Methode zur Fehlerbehebung, bei der eine fehlerhafte Stufe durch einen gewichteten Durchschnitt der nächstgelegenen benachbarten Stufen ersetzt wird. Im Gegensatz zum Stand der Technik erfordert CheckFree keine zusätzliche Berechnung oder Speicherung. Aufgrund der Natur der Durchschnittsbildung benachbarter Stufen kann es jedoch nur Fehler in Zwischenstufen beheben. Wir erweitern unsere Methode weiter zu CheckFree+ mit einer Out-of-Order-Pipeline-Ausführung, um Abstürze der ersten und letzten Stufen zu tolerieren. Dank der Out-of-Order-Pipeline wird das Verhalten dieser Stufen von ihren benachbarten Stufen nachgeahmt, was es CheckFree+ ermöglicht, sie durch einfaches Kopieren der Gewichte vom unmittelbaren Nachbarn wiederherzustellen. Um die (De-)Embedding-Schichten wiederherstellen zu können, kopiert CheckFree+ diese Schichten in die benachbarten Stufen, was einen relativ geringen Speichermehraufwand erfordert. Wir evaluieren unsere Methode ausführlich an LLaMa-Modellen mit Modellgrößen von 124M bis 1,5B bei variierenden Fehlerhäufigkeiten. Im Falle von niedrigen und mittleren Fehlerraten (5-10%) übertreffen CheckFree und CheckFree+ sowohl Checkpointing als auch redundante Berechnung in Bezug auf die Konvergenz in der Echtzeit um über 12%. Beide unserer Vorschläge können über unseren Code ausgeführt werden, der unter https://github.com/gensyn-ai/CheckFree verfügbar ist.
Jüngste Fortschritte bei Large Reasoning Models (LRMs), die mit Long Chain-of-Thought (Long CoT)-Reasoning trainiert wurden, haben bemerkenswerte Fähigkeiten zur domänenübergreifenden Generalisierung gezeigt. Die zugrunde liegenden Mechanismen, die einen solchen Transfer unterstützen, sind jedoch noch weitgehend unverstanden. Wir stellen die Hypothese auf, dass die domänenübergreifende Generalisierung auf gemeinsamen abstrakten Reasoning-Prototypen beruht – grundlegenden Denkmustern, die das Wesen von Problemen über verschiedene Domänen hinweg erfassen. Diese Prototypen minimieren die Nuancen der Darstellung und zeigen, dass scheinbar unterschiedliche Aufgaben auf gemeinsamen Reasoning-Strukturen basieren. Basierend auf dieser Hypothese schlagen wir ProtoReasoning vor, ein Framework, das die Reasoning-Fähigkeit von LLMs verbessert, indem es skalierbare und verifizierbare prototypische Darstellungen nutzt (Prolog für logisches Reasoning, PDDL für Planung). ProtoReasoning umfasst: (1) eine automatisierte Pipeline zur Prototypkonstruktion, die Probleme in entsprechende Prototypdarstellungen transformiert; (2) ein umfassendes Verifikationssystem, das zuverlässiges Feedback durch Prolog/PDDL-Interpreter bereitstellt; (3) die Skalierbarkeit, um Probleme beliebig innerhalb des Prototypraums zu synthetisieren und dabei die Korrektheit sicherzustellen. Umfangreiche Experimente zeigen, dass ProtoReasoning eine Verbesserung von 4,7 % gegenüber Baseline-Modellen beim logischen Reasoning (Enigmata-Eval), 6,3 % bei Planungsaufgaben, 4,0 % beim allgemeinen Reasoning (MMLU) und 1,0 % in der Mathematik (AIME24) erzielt. Insbesondere bestätigen unsere Ablationsstudien, dass das Lernen im Prototypraum auch eine verbesserte Generalisierung auf strukturell ähnliche Probleme im Vergleich zum Training ausschließlich auf natürlichen Sprachdarstellungen zeigt. Dies bestätigt unsere Hypothese, dass Reasoning-Prototypen die Grundlage für generalisierbares Reasoning in großen Sprachmodellen darstellen.
KI-Agenten sind heute größtenteils isoliert – sie verarbeiten entweder umfangreiche digitale Informationen und Wissen, die online abgerufen werden, oder interagieren durch verkörperte Wahrnehmung, Planung und Handlung mit der physischen Welt – jedoch selten beides. Diese Trennung schränkt ihre Fähigkeit ein, Aufgaben zu lösen, die eine integrierte physische und digitale Intelligenz erfordern, wie das Kochen nach Online-Rezepten, die Navigation mit dynamischen Kartendaten oder die Interpretation realer Wahrzeichen mithilfe von Webwissen. Wir stellen „Embodied Web Agents“ vor, ein neuartiges Paradigma für KI-Agenten, das Verkörperung und webbasiertes Denken nahtlos verbindet. Um dieses Konzept umzusetzen, entwickeln wir zunächst die „Embodied Web Agents“-Aufgabenumgebungen, eine einheitliche Simulationsplattform, die realistische 3D-Innen- und Außenumgebungen mit funktionalen Web-Schnittstellen eng integriert. Aufbauend auf dieser Plattform erstellen und veröffentlichen wir den „Embodied Web Agents Benchmark“, der eine vielfältige Reihe von Aufgaben umfasst, darunter Kochen, Navigation, Einkaufen, Tourismus und Geolokalisierung – allesamt Aufgaben, die koordiniertes Denken über physische und digitale Bereiche hinweg erfordern, um die domänenübergreifende Intelligenz systematisch zu bewerten. Experimentelle Ergebnisse zeigen erhebliche Leistungslücken zwischen modernsten KI-Systemen und menschlichen Fähigkeiten auf und verdeutlichen sowohl Herausforderungen als auch Chancen an der Schnittstelle von verkörperter Kognition und dem Zugang zu webbasiertem Wissen. Alle Datensätze, Codes und Websites sind auf unserer Projektseite https://embodied-web-agent.github.io/ öffentlich verfügbar.
Wir präsentieren ein Zwei-Sprecher-Automatic-Speech-Recognition (ASR)-System, das DiCoW – eine diarization-konditionierte Variante von Whisper – mit DiariZen, einer auf Pyannote basierenden Diarization-Pipeline, kombiniert. Zunächst evaluieren wir beide Systeme in out-of-domain (OOD) mehrsprachigen Szenarien ohne jegliches Fine-Tuning. In diesem Szenario übertrifft DiariZen durchweg das Baseline-Pyannote-Diarization-Modell und zeigt eine starke Generalisierungsfähigkeit. Obwohl DiCoW ausschließlich auf englischen Daten für Target-Speaker-ASR feinabgestimmt wurde, behält es eine solide mehrsprachige Leistung bei, was darauf hindeutet, dass die Encoder-Modifikationen die mehrsprachigen Fähigkeiten von Whisper bewahren. Anschließend passen wir sowohl DiCoW als auch DiariZen an die Daten der MLC-SLM-Challenge an. Das feinabgestimmte DiariZen übertrifft weiterhin das feinabgestimmte Pyannote-Baseline-Modell, während DiCoW zusätzliche Verbesserungen durch die Domänenanpassung erzielt. Unser finales System erreicht einen Mikro-Durchschnitt von tcpWER/CER von 16,75 % und belegt den zweiten Platz in Aufgabe 2 der MLC-SLM-Challenge. Schließlich identifizieren wir mehrere Inkonsistenzen in den Trainingsdaten – wie fehlende Sprachsegmente und falsche Stille-Annotationen –, die das Fine-Tuning der Diarization behindern können. Wir schlagen einfache Strategien zur Minderung dieser Probleme vor, um die Robustheit des Systems zu verbessern.
Wir stellen SciVer vor, den ersten Benchmark, der speziell entwickelt wurde, um die Fähigkeit von Foundation-Modellen zur Überprüfung von Behauptungen in einem multimodalen wissenschaftlichen Kontext zu bewerten. SciVer besteht aus 3.000 von Experten annotierten Beispielen aus 1.113 wissenschaftlichen Arbeiten, die vier Teilmengen abdecken, von denen jede einen gängigen Argumentationstyp in der multimodalen wissenschaftlichen Behauptungsüberprüfung repräsentiert. Um eine detaillierte Bewertung zu ermöglichen, enthält jedes Beispiel von Experten annotierte unterstützende Belege. Wir bewerten die Leistung von 21 state-of-the-art multimodalen Foundation-Modellen, darunter o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision und Qwen2.5-VL. Unser Experiment zeigt eine erhebliche Leistungslücke zwischen diesen Modellen und menschlichen Experten bei SciVer. Durch eine detaillierte Analyse von Retrieval-Augmented Generation (RAG) und von Menschen durchgeführten Fehlerbewertungen identifizieren wir kritische Einschränkungen in aktuellen Open-Source-Modellen und bieten wichtige Erkenntnisse, um das Verständnis und die Argumentationsfähigkeit von Modellen in Aufgaben der multimodalen wissenschaftlichen Literatur voranzutreiben.
Die Bewertung von offener, langformiger Generierung ist eine Herausforderung, da es schwierig ist, klar zu definieren, was gute von schlechten Ergebnissen unterscheidet. Bestehende Methoden übersehen oft Schlüsselaspekte wie Kohärenz, Stil oder Relevanz oder werden durch die Vortrainingsdaten verzerrt, was die Bewertung von offener, langformiger Generierung zu einem wenig erforschten Problem macht. Um diese Lücke zu schließen, schlagen wir PrefBERT vor, ein Bewertungsmodell zur Evaluierung von offener, langformiger Generierung in GRPO und zur Steuerung des Trainings mit unterschiedlichen Belohnungen für gute und schlechte Ergebnisse. PrefBERT, das auf zwei Datensätzen zur Bewertung von Antworten mit verschiedenen langformigen Stilen und Likert-bewerteter Qualität trainiert wurde, unterstützt GRPO effektiv, indem es besseres semantisches Feedback zur Belohnung bietet als traditionelle Metriken wie ROUGE-L und BERTScore. Durch umfassende Evaluierungen, einschließlich LLM-as-a-Judge, menschliche Bewertungen und qualitative Analysen, zeigen wir, dass PrefBERT, das auf mehrsätzigen und absatzlangen Antworten trainiert wurde, zuverlässig über verschiedene lange Passagen hinweg bleibt und gut mit den überprüfbaren Belohnungen übereinstimmt, die GRPO benötigt. Menschliche Bewertungen bestätigen, dass die Verwendung von PrefBERT als Belohnungssignal zur Schulung von Policy-Modellen Antworten liefert, die besser mit menschlichen Präferenzen übereinstimmen als solche, die mit traditionellen Metriken trainiert wurden. Unser Code ist verfügbar unter https://github.com/zli12321/long_form_rl.
Der rasante Fortschritt bei Large Language Models hat agentenbasierte Systeme in den Bereichen Entscheidungsfindung, Koordination und Aufgabenausführung vorangetrieben. Dennoch mangelt es bestehenden Frameworks zur Erzeugung agentenbasierter Systeme an vollständiger Autonomie, da sie die Erstellung von Agenten von Grund auf, die Selbstoptimierung von Agentenfunktionalitäten und die Zusammenarbeit nicht unterstützen, was die Anpassungsfähigkeit und Skalierbarkeit einschränkt. Wir stellen SwarmAgentic vor, ein Framework zur vollständig automatisierten Erzeugung agentenbasierter Systeme, das solche Systeme von Grund auf konstruiert und die Funktionalität der Agenten sowie ihre Zusammenarbeit als interdependente Komponenten durch sprachgesteuerte Exploration gemeinsam optimiert. Um eine effiziente Suche über systemweite Strukturen zu ermöglichen, verwaltet SwarmAgentic eine Population von Kandidatensystemen und entwickelt diese durch feedbackgesteuerte Aktualisierungen weiter, inspiriert von Particle Swarm Optimization (PSO). Wir evaluieren unsere Methode anhand von sechs realen, offenen und explorativen Aufgaben, die hochrangige Planung, systemweite Koordination und kreatives Denken erfordern. Mit nur einer Aufgabenbeschreibung und einer Zielfunktion übertrifft SwarmAgentic alle Vergleichsmethoden und erzielt eine relative Verbesserung von +261,8 % gegenüber ADAS im TravelPlanner-Benchmark, was die Wirksamkeit vollständiger Automatisierung bei strukturell unbegrenzten Aufgaben unterstreicht. Dieses Framework markiert einen bedeutenden Schritt hin zu skalierbarem und autonomem Design agentenbasierter Systeme und verbindet Schwarmintelligenz mit vollständig automatisierter Multi-Agenten-Generierung. Unser Code ist öffentlich unter https://yaoz720.github.io/SwarmAgentic/ verfügbar.
Kürzlich haben testzeit-skalierte Large Language Models (LLMs) außergewöhnliche Fähigkeiten im logischen Denken bei wissenschaftlichen und professionellen Aufgaben durch die Generierung langer Gedankenketten (Chains-of-Thought, CoT) gezeigt. Als entscheidende Komponente für die Entwicklung dieser Denkmodelle ermöglicht das Reinforcement Learning (RL), verkörpert durch Proximal Policy Optimization (PPO) und dessen Varianten, den Modellen das Lernen durch Versuch und Irrtum. Allerdings kann PPO aufgrund seines inhärenten On-Policy-Charakters zeitaufwendig sein, was durch zunehmende Antwortlängen weiter verschärft wird. In dieser Arbeit schlagen wir Truncated Proximal Policy Optimization (T-PPO) vor, eine neuartige Erweiterung von PPO, die die Trainings effizienz durch die Straffung von Policy-Updates und die Längenbegrenzung der Antwortgenerierung verbessert. T-PPO mildert das Problem der geringen Hardware-Auslastung, einen inhärenten Nachteil vollständig synchronisierter Langgenerierungsverfahren, bei denen Ressourcen oft während der Wartezeiten auf vollständige Rollouts inaktiv sind. Unsere Beiträge sind zweifach. Erstens schlagen wir Extended Generalized Advantage Estimation (EGAE) für die Vorteilsschätzung aus unvollständigen Antworten vor, während die Integrität des Policy-Lernens gewahrt bleibt. Zweitens entwickeln wir einen rechnerisch optimierten Mechanismus, der die unabhängige Optimierung der Policy- und Wertmodelle ermöglicht. Durch selektives Filtern von Prompt- und abgeschnittenen Tokens reduziert dieser Mechanismus redundante Berechnungen und beschleunigt den Trainingsprozess, ohne die Konvergenzleistung zu beeinträchtigen. Wir demonstrieren die Wirksamkeit und Effizienz von T-PPO auf AIME 2024 mit einem 32B-Basismodell. Die experimentellen Ergebnisse zeigen, dass T-PPO die Trainings effizienz von logisch denkenden LLMs um bis zu 2,5x verbessert und seine bestehenden Konkurrenten übertrifft.
Große multimodale Mixture-of-Experts (MoEs) skalieren die Modellgröße effektiv, um die Leistung zu steigern, während die aktiven Parameter konstant gehalten werden. Bisherige Arbeiten nutzten jedoch hauptsächlich volle Präzision der Experten während des sparsamen Up-Cyclings. Obwohl sie eine überlegene Leistung bei Endaufgaben zeigen, führt die große Anzahl von Experten zu einem höheren Speicherbedarf, was erhebliche Herausforderungen für die Bereitstellung auf Edge-Geräten darstellt. In dieser Arbeit schlagen wir MoTE vor, einen skalierbaren und speichereffizienten Ansatz zur Schulung von Mixture-of-Ternary-Experts-Modellen aus einem dichten Checkpoint. Anstatt weniger hochpräzise Experten zu trainieren, schlagen wir vor, mehr niedrigpräzise Experten während des Up-Cyclings zu trainieren. Konkret verwenden wir das vortrainierte FFN als gemeinsamen Experten und trainieren ternäre geroutete Experten mit Parametern in {-1, 0, 1}. Umfangreiche Experimente zeigen, dass unser Ansatz eine vielversprechende Skalierungstendenz entlang der Modellgröße aufweist. MoTE erreicht eine vergleichbare Leistung wie der volle Präzisions-Baseline MoE-LLaVA, bietet jedoch einen geringeren Speicherbedarf. Darüber hinaus ist unser Ansatz kompatibel mit Post-Training-Quantisierungsmethoden, und der Vorteil verstärkt sich weiter, wenn die Speicherbeschränkung geringer wird. Bei einem identischen Speicherbedarf der Experten von 3,4 GB und in Kombination mit Post-Training-Quantisierung übertrifft MoTE MoE-LLaVA mit einem Gewinn von 4,3 % durchschnittlicher Genauigkeit bei Endaufgaben, was seine Effektivität und sein Potenzial für speicherbeschränkte Geräte demonstriert.
Die automatische Erstellung von 3D-Szenen für immersive VR-Präsenz ist seit Jahrzehnten ein bedeutender Forschungsschwerpunkt. Bisherige Methoden basieren jedoch oft entweder auf der Modellierung von hochpolygonalen Netzen mit nachträglicher Vereinfachung oder auf massiven 3D-Gaußschen, was zu komplexen Pipelines oder begrenzter visueller Realität führt. In diesem Artikel zeigen wir, dass eine derart umfassende Modellierung nicht notwendig ist, um ein überzeugendes immersives Erlebnis zu erreichen. Wir stellen ImmerseGen vor, ein neuartiges, agentengesteuertes Framework für kompakte und fotorealistische Weltmodellierung. ImmerseGen repräsentiert Szenen als hierarchische Kompositionen von leichtgewichtigen geometrischen Proxies, d.h. vereinfachten Gelände- und Billboard-Netzen, und erzeugt fotorealistische Darstellungen durch die Synthese von RGBA-Texturen auf diesen Proxies. Konkret schlagen wir eine geländebedingte Texturierung für die benutzerzentrierte Basissynthese der Welt sowie RGBA-Asset-Texturierung für Mittel- und Vordergrundszenarien vor. Diese Neuformulierung bietet mehrere Vorteile: (i) Sie vereinfacht die Modellierung, indem sie Agenten ermöglicht, generative Modelle bei der Erzeugung kohärenter Texturen zu steuern, die nahtlos in die Szene integriert werden; (ii) sie umgeht die komplexe Geometrieerstellung und -reduzierung, indem sie direkt fotorealistische Texturen auf Proxies synthetisiert und dabei die visuelle Qualität ohne Verschlechterung bewahrt; (iii) sie ermöglicht kompakte Darstellungen, die sich für Echtzeit-Rendering auf mobilen VR-Headsets eignen. Um die Szenenerstellung aus Textanweisungen zu automatisieren, führen wir VLM-basierte Modellierungsagenten ein, die durch semantische rasterbasierte Analysen verbessert werden, um räumliches Denken und präzise Asset-Platzierung zu verbessern. ImmerseGen bereichert Szenen weiterhin mit dynamischen Effekten und Ambient-Audio, um multisensorische Immersion zu unterstützen. Experimente zur Szenengenerierung und Live-VR-Demonstrationen zeigen, dass ImmerseGen im Vergleich zu früheren Methoden eine überlegene Fotorealität, räumliche Kohärenz und Rendering-Effizienz erreicht. Projektwebseite: https://immersegen.github.io.
Der Aufbau von Bildklassifizierungsmodellen bleibt in datenarmen Domänen mühsam, wo das Sammeln großer annotierter Datensätze unpraktisch ist. In-Context-Lernen (ICL) hat sich als vielversprechendes Paradigma für Few-Shot-Bildklassifizierung (FSIC) herausgestellt, das es Modellen ermöglicht, domänenübergreifend zu generalisieren, ohne auf gradientenbasierte Anpassung angewiesen zu sein. Bisherige Arbeiten haben jedoch eine kritische Komponente von ICL-basierten FSIC-Pipelines weitgehend übersehen: die Rolle von Bild-Einbettungen. In dieser Arbeit stellen wir PictSure vor, ein ICL-Framework, das das Einbettungsmodell – seine Architektur, das Vortraining und die Trainingsdynamik – in den Mittelpunkt der Analyse stellt. Wir untersuchen systematisch die Auswirkungen verschiedener Typen von visuellen Encodern, Vortrainingszielen und Feinabstimmungsstrategien auf die nachgelagerte FSIC-Leistung. Unsere Experimente zeigen, dass der Trainingserfolg und die Out-of-Domain-Leistung stark davon abhängen, wie die Einbettungsmodelle vortrainiert werden. Folglich gelingt es PictSure, bestehende ICL-basierte FSIC-Modelle auf Out-of-Domain-Benchmarks, die sich signifikant von der Trainingsverteilung unterscheiden, zu übertreffen, während vergleichbare Ergebnisse bei In-Domain-Aufgaben beibehalten werden. Der Code ist unter https://github.com/PictSure/pictsure-library verfügbar.
Multimodale Large Language Models (MLLMs) zeichnen sich durch hervorragende Leistungen in Aufgaben wie multimodalem Denken und cross-modaler Suche aus, stoßen jedoch bei der Bereitstellung in realen Szenarien auf Herausforderungen aufgrund verteilter multimodaler Daten und strenger Datenschutzanforderungen. Federated Learning (FL) bietet eine Lösung, indem es die gemeinsame Modellschulung ermöglicht, ohne Daten zu zentralisieren. Die Umsetzung von FL für MLLMs birgt jedoch erhebliche Herausforderungen, darunter hohe Rechenanforderungen, begrenzte Client-Kapazitäten, erhebliche Kommunikationskosten und heterogene Client-Daten. Bisherige FL-Methoden gehen davon aus, dass vollständige Modelle auf der Client-Seite bereitgestellt werden, eine Annahme, die bei großskaligen MLLMs aufgrund ihrer enormen Größe und Kommunikationsanforderungen nicht haltbar ist. Um diese Einschränkungen zu überwinden, schlagen wir FedNano vor, das erste FL-Framework, das das LLM auf dem Server zentralisiert, während es NanoEdge, ein leichtgewichtiges Modul für client-spezifische Anpassungen, einführt. NanoEdge verwendet modalitätsspezifische Encoder, Konnektoren und trainierbare NanoAdapter mit Low-Rank-Adaptation. Dieser Entwurf eliminiert die Notwendigkeit, das LLM auf den Clients zu installieren, reduziert den Speicherbedarf auf der Client-Seite um 95 % und begrenzt den Kommunikationsaufwand auf nur 0,01 % der Modellparameter. Durch die Übertragung nur kompakter NanoAdapter-Updates bewältigt FedNano heterogene Client-Daten und Ressourcenbeschränkungen, während der Datenschutz gewahrt bleibt. Experimente zeigen, dass FedNano bisherige FL-Baselines übertrifft, die Lücke zwischen der Skalierbarkeit von MLLMs und der Machbarkeit von FL schließt und skalierbare, dezentralisierte multimodale KI-Systeme ermöglicht.
Jüngste Fortschritte bei großen visuell-sprachlichen Modellen, die auf großen Sprachmodellen basieren, haben die Ausrichtung visueller Merkmale an den Repräsentationen von Sprachmodellen als dominantes Paradigma etabliert. Allerdings führen die übernommenen architektonischen Designs der Sprachmodelle zu suboptimalen Eigenschaften für die multimodale Verarbeitung. Erstens zeigen große visuell-sprachliche Modelle eine bimodale Verteilung in der Aufmerksamkeitszuweisung, was zu einer zunehmenden Vernachlässigung mittlerer visueller Inhalte führt, wenn der Kontext erweitert wird. Zweitens scheitern konventionelle Positionskodierungsschemata daran, wichtige 2D-Strukturbeziehungen bei der Verarbeitung dynamischer hochauflösender Bilder zu bewahren. Um diese Einschränkungen zu überwinden, schlagen wir CoMemo vor – eine Dual-Path-Architektur, die einen Kontextbildpfad mit einem Bildspeicherpfad für die visuelle Verarbeitung kombiniert und so die Vernachlässigung visueller Informationen effektiv reduziert. Zusätzlich führen wir RoPE-DHR ein, einen neuartigen Positionskodierungsmechanismus, der eine thumbnail-basierte Positionsaggregation verwendet, um das 2D-Raumbewusstsein zu erhalten und gleichzeitig den Fernzerfall in langen Sequenzen zu mildern. Bewertungen über sieben Benchmarks, einschließlich Langzeitkontextverständnis, Multi-Bild-Schlussfolgerung und visueller Fragebeantwortung, demonstrieren die überlegene Leistung von CoMemo im Vergleich zu konventionellen Architekturen großer visuell-sprachlicher Modelle. Die Projektseite ist verfügbar unter https://lalbj.github.io/projects/CoMemo/.
Computer-Use-Agenten sind LLM-basierte Agenten, die direkt mit einer grafischen Benutzeroberfläche interagieren können, indem sie Screenshots oder Barrierefreiheitsbäume verarbeiten. Obwohl diese Systeme zunehmend an Popularität gewinnen, wurde ihre Sicherheit weitgehend vernachlässigt, obwohl die Bewertung und das Verständnis ihres Potenzials für schädliches Verhalten für eine breite Akzeptanz entscheidend ist. Um diese Lücke zu schließen, stellen wir OS-Harm vor, einen neuen Benchmark zur Messung der Sicherheit von Computer-Use-Agenten. OS-Harm basiert auf der OSWorld-Umgebung und zielt darauf ab, Modelle in drei Kategorien von Schäden zu testen: vorsätzlicher Missbrauch durch Benutzer, Prompt-Injection-Angriffe und Fehlverhalten des Modells. Um diese Fälle abzudecken, erstellen wir 150 Aufgaben, die verschiedene Arten von Sicherheitsverletzungen (Belästigung, Urheberrechtsverletzung, Desinformation, Datenexfiltration usw.) umfassen und den Agenten dazu auffordern, mit einer Vielzahl von Betriebssystemanwendungen (E-Mail-Client, Code-Editor, Browser usw.) zu interagieren. Darüber hinaus schlagen wir einen automatisierten Richter vor, der sowohl die Genauigkeit als auch die Sicherheit der Agenten bewertet und eine hohe Übereinstimmung mit menschlichen Annotationen erreicht (0,76 und 0,79 F1-Score). Wir bewerten Computer-Use-Agenten basierend auf einer Reihe von Frontier-Modellen – wie o4-mini, Claude 3.7 Sonnet, Gemini 2.5 Pro – und geben Einblicke in deren Sicherheit. Insbesondere neigen alle Modelle dazu, vielen vorsätzlichen Missbrauchsanfragen direkt nachzukommen, sind relativ anfällig für statische Prompt-Injections und führen gelegentlich unsichere Aktionen aus. Der OS-Harm-Benchmark ist unter https://github.com/tml-epfl/os-harm verfügbar.
Aktuelle Benchmarks haben die faktische Konsistenz und rhetorische Robustheit von Large Language Models (LLMs) untersucht. Es besteht jedoch eine Wissenslücke darüber, wie die gerichtete Rahmung von faktisch wahren Aussagen die Zustimmung des Modells beeinflusst, ein häufiges Szenario für LLM-Nutzer. AssertBench adressiert dies, indem es evidenzgestützte Fakten aus FEVEROUS, einem Datensatz zur Faktenüberprüfung, entnimmt. Für jeden (evidenzbasierten) Fakt konstruieren wir zwei Rahmungsaufforderungen: eine, bei der der Nutzer behauptet, die Aussage sei faktisch korrekt, und eine andere, bei der der Nutzer behauptet, sie sei inkorrekt. Anschließend erfassen wir die Zustimmung und Begründung des Modells. Das gewünschte Ergebnis ist, dass das Modell selbstbewusst bleibt und eine konsistente Wahrheitsbewertung über beide Rahmungen hinweg beibehält, anstatt seine Bewertung zu ändern, um dem Nutzer zuzustimmen. AssertBench isoliert die durch Rahmung induzierte Variabilität vom zugrunde liegenden Faktenwissen des Modells, indem es die Ergebnisse basierend auf der Genauigkeit des Modells bei denselben Behauptungen bei neutraler Präsentation stratifiziert. Auf diese Weise zielt dieser Benchmark darauf ab, die Fähigkeit eines LLMs zu messen, „bei seiner Meinung zu bleiben“, wenn es mit widersprüchlichen Nutzerbehauptungen über denselben Fakt konfrontiert wird. Der vollständige Quellcode ist unter https://github.com/achowd32/assert-bench verfügbar.
Die Fähigkeit, allgemeine Ganzkörperbewegungen in der realen Welt zu verfolgen, ist eine nützliche Methode, um universell einsetzbare humanoide Roboter zu entwickeln. Die Umsetzung dieser Fähigkeit kann jedoch aufgrund der zeitlichen und kinematischen Vielfalt der Bewegungen, der Leistungsfähigkeit der Steuerungspolitik und der Schwierigkeit der Koordination von Ober- und Unterkörper herausfordernd sein. Um diese Probleme zu lösen, schlagen wir GMT vor, ein allgemeines und skalierbares Framework zur Bewegungserfassung, das eine einzige, vereinheitlichte Steuerungspolitik trainiert, um humanoide Roboter in die Lage zu versetzen, diverse Bewegungen in der realen Welt zu verfolgen. GMT basiert auf zwei Kernkomponenten: einer adaptiven Sampling-Strategie und einer Motion Mixture-of-Experts (MoE)-Architektur. Die adaptive Sampling-Strategie gleicht während des Trainings automatisch einfache und schwierige Bewegungen aus. Die MoE-Architektur gewährleistet eine bessere Spezialisierung verschiedener Bereiche des Bewegungsmanifolds. Wir zeigen durch umfangreiche Experimente sowohl in der Simulation als auch in der realen Welt die Wirksamkeit von GMT, das mit einer einheitlichen, allgemeinen Steuerungspolitik Spitzenleistungen über ein breites Spektrum von Bewegungen erzielt. Videos und weitere Informationen sind unter https://gmt-humanoid.github.io verfügbar.
Diffusionsbasierte Bildgenerierungsmodelle zeichnen sich durch die Erzeugung hochwertiger synthetischer Inhalte aus, leiden jedoch unter langsamer und rechenintensiver Inferenz. Frühere Arbeiten haben versucht, dies durch das Zwischenspeichern und Wiederverwenden von Merkmalen innerhalb von Diffusionstransformatoren über verschiedene Inferenzschritte hinweg zu mildern. Diese Methoden stützen sich jedoch oft auf starre Heuristiken, die zu begrenzter Beschleunigung oder schlechter Generalisierung über verschiedene Architekturen hinweg führen. Wir schlagen Evolutionary Caching to Accelerate Diffusion models (ECAD) vor, einen genetischen Algorithmus, der effiziente, modellspezifische Caching-Pläne lernt, die eine Pareto-Front bilden, und dies unter Verwendung nur einer kleinen Menge von Kalibrierungsaufforderungen. ECAD erfordert keine Änderungen an Netzwerkparametern oder Referenzbildern. Es bietet signifikante Beschleunigungen der Inferenz, ermöglicht eine fein abgestimmte Kontrolle über den Kompromiss zwischen Qualität und Latenz und passt sich nahtlos verschiedenen Diffusionsmodellen an. Bemerkenswerterweise können die von ECAD erlernten Pläne effektiv auf Auflösungen und Modellvarianten generalisieren, die während der Kalibrierung nicht gesehen wurden. Wir evaluieren ECAD anhand von PixArt-alpha, PixArt-Sigma und FLUX-1.dev unter Verwendung mehrerer Metriken (FID, CLIP, Image Reward) über diverse Benchmarks hinweg (COCO, MJHQ-30k, PartiPrompts) und zeigen konsistente Verbesserungen gegenüber früheren Ansätzen. Bei PixArt-alpha identifiziert ECAD einen Plan, der die bisherige state-of-the-art Methode um 4,47 COCO FID übertrifft, während die Inferenzbeschleunigung von 2,35x auf 2,58x erhöht wird. Unsere Ergebnisse etablieren ECAD als einen skalierbaren und generalisierbaren Ansatz zur Beschleunigung der Diffusionsinferenz. Unsere Projektwebsite ist unter https://aniaggarwal.github.io/ecad verfügbar und unser Code unter https://github.com/aniaggarwal/ecad.