Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat vielversprechende Ansätze gezeigt, um die Fähigkeiten großer Sprachmodelle im Bereich des logischen Denkens zu verbessern, indem direkt aus ergebnisbasierten Belohnungen gelernt wird. Aktuelle RLVR-Arbeiten, die im Null-Setting operieren, verzichten auf eine Überwachung bei der Beschriftung des Denkprozesses, sind jedoch weiterhin auf manuell kuratierte Sammlungen von Fragen und Antworten für das Training angewiesen. Die Knappheit hochwertiger, von Menschen erstellter Beispiele wirft Bedenken hinsichtlich der langfristigen Skalierbarkeit der Abhängigkeit von menschlicher Überwachung auf, eine Herausforderung, die bereits im Bereich des Vortrainierens von Sprachmodellen erkennbar ist. Darüber hinaus könnte in einer hypothetischen Zukunft, in der KI die menschliche Intelligenz übertrifft, die Bereitstellung von Aufgaben durch Menschen nur begrenztes Lernpotenzial für ein superintelligentes System bieten. Um diese Bedenken zu adressieren, schlagen wir ein neues RLVR-Paradigma namens Absolute Zero vor, bei dem ein einzelnes Modell lernt, Aufgaben vorzuschlagen, die seinen eigenen Lernfortschritt maximieren, und seine Denkfähigkeiten verbessert, indem es diese Aufgaben löst, ohne auf externe Daten angewiesen zu sein. Im Rahmen dieses Paradigmas führen wir den Absolute Zero Reasoner (AZR) ein, ein System, das sein Trainingscurriculum und seine Denkfähigkeiten selbst weiterentwickelt, indem es einen Code-Executor verwendet, um sowohl vorgeschlagene Code-Denkaufgaben zu validieren als auch Antworten zu verifizieren, und somit als einheitliche Quelle verifizierbarer Belohnung dient, um offenes und dennoch fundiertes Lernen zu leiten. Obwohl AZR vollständig ohne externe Daten trainiert wurde, erreicht es insgesamt state-of-the-art (SOTA) Leistungen bei Aufgaben zum Programmieren und mathematischen Denken und übertrifft bestehende Null-Setting-Modelle, die auf Zehntausende von domänenspezifischen, von Menschen kuratierten Beispielen angewiesen sind. Darüber hinaus zeigen wir, dass AZR effektiv auf verschiedene Modellgrößen angewendet werden kann und mit verschiedenen Modellklassen kompatibel ist.
Jüngste Fortschritte bei multimodalen Belohnungsmodellen (Reward Models, RMs) haben großes Potenzial gezeigt, Belohnungssignale zu liefern, um Vision-Modelle mit menschlichen Präferenzen in Einklang zu bringen. Allerdings sind aktuelle RMs in der Regel darauf beschränkt, direkte Antworten zu geben oder oberflächliche Denkprozesse mit begrenzter Tiefe zu durchlaufen, was oft zu ungenauen Belohnungssignalen führt. Wir vertreten die Ansicht, dass die Einbindung expliziter langer Gedankenketten (Chains of Thought, CoT) in den Belohnungsprozess deren Zuverlässigkeit und Robustheit erheblich stärken kann. Darüber hinaus glauben wir, dass RMs, sobald sie CoT-Denken verinnerlicht haben, auch die Genauigkeit ihrer direkten Antworten durch implizite Denkfähigkeiten verbessern können. Zu diesem Zweck schlägt dieses Papier UnifiedReward-Think vor, das erste einheitliche multimodale CoT-basierte Belohnungsmodell, das in der Lage ist, mehrdimensionale, schrittweise lange Denkketten sowohl für Aufgaben der visuellen Verständnis- als auch der Generierungsbelohnung durchzuführen. Konkret verwenden wir einen explorationsgetriebenen Ansatz zur Verstärkungsfeinabstimmung, um die latenten komplexen Denkfähigkeiten des Modells zu fördern und zu aktivieren: (1) Zunächst nutzen wir eine kleine Menge von Präferenzdaten zur Bildgenerierung, um den Denkprozess von GPT-4o zu destillieren, der dann für den Kaltstart des Modells verwendet wird, um das Format und die Struktur von CoT-Denken zu erlernen. (2) Anschließend nutzen wir das Vorwissen und die Generalisierungsfähigkeiten des Modells, um groß angelegte einheitliche multimodale Präferenzdaten zu erstellen, die den Denkprozess des Modells über verschiedene Vision-Aufgaben hinweg aktivieren. In dieser Phase werden korrekte Denkausgaben für die Ablehnungsstichprobe beibehalten, um das Modell zu verfeinern (3), während falsch vorhergesagte Proben schließlich für die verstärkungsbasierte Feinabstimmung mittels Group Relative Policy Optimization (GRPO) verwendet werden, um das Modell zu befähigen, diverse Denkpfade zu erkunden und korrekte sowie robuste Lösungen zu optimieren. Umfangreiche Experimente über verschiedene Vision-Belohnungsaufgaben hinweg demonstrieren die Überlegenheit unseres Modells.
Wir präsentieren Rapid Attention Distillation to Linear Attention Decoders at Scale (RADLADS), ein Protokoll zur schnellen Umwandlung von Softmax-Attention-Transformern in Linear-Attention-Decoder-Modelle, zusammen mit zwei neuen RWKV-Varianten-Architekturen und Modellen, die aus beliebten Qwen2.5 Open-Source-Modellen in den Größen 7B, 32B und 72B konvertiert wurden. Unser Konvertierungsprozess erfordert lediglich 350-700M Tokens, weniger als 0,005 % der Token-Anzahl, die zum Trainieren der ursprünglichen Lehrer-Modelle verwendet wurde. Die Umwandlung in unser 72B Linear-Attention-Modell kostet weniger als 2.000 USD zu heutigen Preisen, während die Qualität bei der Inferenz nahe am ursprünglichen Transformer bleibt. Diese Modelle erzielen state-of-the-art Downstream-Leistungen über eine Reihe von Standard-Benchmarks für Linear-Attention-Modelle ihrer Größe. Wir veröffentlichen alle unsere Modelle auf HuggingFace unter der Apache-2.0-Lizenz, mit Ausnahme unserer 72B-Modelle, die auch durch das Qwen-Lizenzabkommen geregelt sind. Modelle unter https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102 Trainingscode unter https://github.com/recursal/RADLADS-paper
Die Anpassung von Aktionen beinhaltet die Erzeugung von Videos, in denen das Subjekt Handlungen ausführt, die durch Eingabesteuersignale vorgegeben werden. Aktuelle Methoden verwenden pose-gesteuerte oder globale Bewegungsanpassungen, sind jedoch durch strenge Einschränkungen in Bezug auf die räumliche Struktur, wie Layout, Skelett und Blickwinkelkonsistenz, begrenzt, was die Anpassungsfähigkeit über verschiedene Subjekte und Szenarien hinweg reduziert. Um diese Einschränkungen zu überwinden, schlagen wir FlexiAct vor, das Aktionen aus einem Referenzvideo auf ein beliebiges Zielbild überträgt. Im Gegensatz zu bestehenden Methoden ermöglicht FlexiAct Variationen in Layout, Blickwinkel und Skelettstruktur zwischen dem Subjekt des Referenzvideos und dem Zielbild, während die Identitätskonsistenz gewahrt bleibt. Um dies zu erreichen, sind präzise Aktionssteuerung, Anpassung der räumlichen Struktur und Konsistenzbewahrung erforderlich. Zu diesem Zweck führen wir RefAdapter ein, einen leichten, bildgesteuerten Adapter, der sich durch hervorragende räumliche Anpassung und Konsistenzbewahrung auszeichnet und bestehende Methoden in der Balance zwischen Erscheinungskonsistenz und struktureller Flexibilität übertrifft. Zusätzlich haben wir beobachtet, dass der Denoising-Prozess zu verschiedenen Zeitpunkten unterschiedliche Aufmerksamkeitsniveaus auf Bewegung (niedrige Frequenz) und Erscheinungsdetails (hohe Frequenz) zeigt. Daher schlagen wir FAE (Frequency-aware Action Extraction) vor, das im Gegensatz zu bestehenden Methoden, die auf getrennte räumlich-zeitliche Architekturen angewiesen sind, die Aktionsextraktion direkt während des Denoising-Prozesses erreicht. Experimente zeigen, dass unsere Methode Aktionen effektiv auf Subjekte mit unterschiedlichen Layouts, Skeletten und Blickwinkeln überträgt. Wir veröffentlichen unseren Code und Modellgewichte, um weitere Forschungen zu unterstützen, unter https://shiyi-zh0408.github.io/projectpages/FlexiAct/.
Die zunehmenden Kontextlängen großer Sprachmodelle (LLMs) stellen erhebliche Herausforderungen für effizientes Inferencing dar, hauptsächlich aufgrund von GPU-Speicher- und Bandbreitenbeschränkungen. Wir präsentieren RetroInfer, ein neuartiges System, das den Schlüssel-Wert (KV)-Cache als ein Vektorspeichersystem neu konzipiert, das die inhärente Aufmerksamkeitssparsität nutzt, um die Inferenz von LLMs mit langem Kontext zu beschleunigen. Kernstück ist der Wave Index, ein Attention-aWare VEctor Index, der effiziente und präzise Abfragen kritischer Tokens durch Techniken wie tripartite Aufmerksamkeitsapproximation, genauigkeitsbegrenzte Aufmerksamkeitsschätzung und segmentierte Clusterbildung ermöglicht. Ergänzt wird dies durch den Wave Buffer, der die Platzierung des KV-Caches koordiniert und Berechnung und Datentransfer zwischen GPU und CPU überlappt, um einen hohen Durchsatz zu gewährleisten. Im Gegensatz zu früheren sparsitätsbasierten Methoden, die mit Token-Auswahl und Hardware-Koordination kämpfen, liefert RetroInfer robuste Leistungen, ohne die Modellgenauigkeit zu beeinträchtigen. Experimente auf Benchmarks mit langem Kontext zeigen eine Beschleunigung von bis zu 4,5X gegenüber vollständiger Aufmerksamkeit innerhalb der GPU-Speichergrenzen und bis zu 10,5X gegenüber sparsen Aufmerksamkeits-Baselines, wenn der KV-Cache auf den CPU-Speicher erweitert wird, wobei die Genauigkeit auf dem Niveau der vollständigen Aufmerksamkeit erhalten bleibt.
Die Qwen-Serie hat sich als führende Familie von Open-Source-Large-Language-Modellen (LLMs) etabliert und zeigt bemerkenswerte Fähigkeiten in Aufgaben des natürlichen Sprachverständnisses. Mit der kürzlichen Veröffentlichung von Qwen3, das überlegene Leistungen in diversen Benchmarks demonstriert, wächst das Interesse daran, diese Modelle effizient in ressourcenbeschränkten Umgebungen einzusetzen. Low-Bit-Quantisierung bietet eine vielversprechende Lösung, doch ihre Auswirkungen auf die Leistung von Qwen3 sind noch unzureichend erforscht. Diese Studie führt eine systematische Bewertung der Robustheit von Qwen3 unter verschiedenen Quantisierungseinstellungen durch, um sowohl Chancen als auch Herausforderungen bei der Komprimierung dieses state-of-the-art Modells aufzudecken. Wir bewerten rigoros fünf bestehende klassische Post-Training-Quantisierungstechniken, die auf Qwen3 angewendet werden, mit Bit-Breiten von 1 bis 8 Bits, und bewerten ihre Wirksamkeit über mehrere Datensätze hinweg. Unsere Ergebnisse zeigen, dass Qwen3 bei moderaten Bit-Breiten wettbewerbsfähige Leistungen beibehält, jedoch bei ultra-niedriger Präzision eine deutliche Verschlechterung in linguistischen Aufgaben erfährt, was die anhaltenden Hürden bei der LLM-Komprimierung unterstreicht. Diese Ergebnisse betonen die Notwendigkeit weiterer Forschung, um Leistungsverluste in extremen Quantisierungsszenarien zu mindern. Wir gehen davon aus, dass diese empirische Analyse praktische Erkenntnisse liefern wird, um Quantisierungsmethoden zu verbessern, die speziell auf Qwen3 und zukünftige LLMs zugeschnitten sind, und letztendlich deren Praktikabilität zu steigern, ohne die Genauigkeit zu beeinträchtigen. Unser Projekt ist auf https://github.com/Efficient-ML/Qwen3-Quantization und https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b veröffentlicht.
Jüngste Fortschritte im Bereich der KI-gestützten Fußballanalyse haben rasante Entwicklungen gezeigt, doch konzentriert sich die bestehende Forschung überwiegend auf isolierte oder eng gefasste Aufgaben. Um diese Lücke zu schließen, schlagen wir ein umfassendes Framework für ein ganzheitliches Fußballverständnis vor. Konkret leisten wir in diesem Beitrag folgende Beiträge: (i) Wir erstellen SoccerWiki, die erste groß angelegte multimodale Wissensdatenbank für Fußball, die umfangreiches Domänenwissen über Spieler, Teams, Schiedsrichter und Spielstätten integriert, um wissensgestütztes Schließen zu ermöglichen; (ii) wir präsentieren SoccerBench, den größten und umfassendsten fußballspezifischen Benchmark, der rund 10.000 standardisierte multimodale (Text, Bild, Video) Multiple-Choice-Frage-Antwort-Paare über 13 verschiedene Verständnisaufgaben umfasst, die durch automatisierte Pipelines und manuelle Überprüfung kuratiert wurden; (iii) wir stellen SoccerAgent vor, ein neuartiges Multi-Agenten-System, das komplexe Fußballfragen durch kollaboratives Schließen zerlegt, Domänenexpertise aus SoccerWiki nutzt und robuste Leistung erzielt; (iv) umfangreiche Evaluierungen und Ablationen, die state-of-the-art MLLMs auf SoccerBench benchmarken und die Überlegenheit unseres vorgeschlagenen agentenbasierten Systems hervorheben. Alle Daten und Codes sind öffentlich verfügbar unter: https://jyrao.github.io/SoccerAgent/.
Beim Lesen haben wir oft spezifische Informationen, die uns in einem Text interessieren. Zum Beispiel könnten Sie dieses Papier lesen, weil Sie neugierig auf LLMs für Augenbewegungen beim Lesen sind, auf das experimentelle Design oder vielleicht interessiert Sie nur die Frage „funktioniert es überhaupt?“. Allgemeiner betrachtet gehen Menschen im Alltag mit einer Vielzahl von textspezifischen Zielen an Texte heran, die ihr Leseverhalten lenken. In dieser Arbeit stellen wir erstmals die Frage, ob offene Leseziele automatisch aus Augenbewegungen beim Lesen decodiert werden können. Um diese Frage zu beantworten, führen wir Aufgaben zur Zielklassifikation und Zielrekonstruktion sowie entsprechende Evaluierungsrahmen ein und verwenden groß angelegte Eye-Tracking-Daten für englische Texte mit hunderten von textspezifischen Informationssuchaufgaben. Wir entwickeln und vergleichen mehrere diskriminative und generative multimodale LLMs, die Augenbewegungen und Text für die Zielklassifikation und Zielrekonstruktion kombinieren. Unsere Experimente zeigen beträchtliche Erfolge bei beiden Aufgaben, was darauf hindeutet, dass LLMs wertvolle Informationen über die textspezifischen Ziele der Leser aus den Augenbewegungen extrahieren können.
Die rasante Weiterentwicklung von Diffusionsmodellen verspricht, die Anwendung von VR- und AR-Technologien zu revolutionieren, die typischerweise Szenen-basierte 4D-Assets für das Nutzererlebnis benötigen. Dennoch konzentrieren sich bestehende Diffusionsmodelle hauptsächlich auf die Modellierung statischer 3D-Szenen oder Objekt-basierter Dynamiken, was ihre Fähigkeit einschränkt, wirklich immersive Erlebnisse zu bieten. Um dieses Problem zu adressieren, schlagen wir HoloTime vor, ein Framework, das Video-Diffusionsmodelle integriert, um Panoramavideos aus einem einzigen Prompt oder Referenzbild zu generieren, sowie eine 360-Grad-4D-Szenenrekonstruktionsmethode, die das generierte Panoramavideo nahtlos in 4D-Assets umwandelt und so ein vollständig immersives 4D-Erlebnis für Nutzer ermöglicht. Konkret führen wir, um Video-Diffusionsmodelle für die Generierung hochwertiger Panoramavideos zu optimieren, das 360World-Dataset ein, die erste umfassende Sammlung von Panoramavideos, die sich für nachgelagerte 4D-Szenenrekonstruktionsaufgaben eignet. Mit diesem kuratierten Dataset schlagen wir Panoramic Animator vor, ein zweistufiges Bild-zu-Video-Diffusionsmodell, das Panoramabilder in hochwertige Panoramavideos umwandeln kann. Darauf aufbauend präsentieren wir Panoramic Space-Time Reconstruction, das eine Raum-Zeit-Tiefenschätzmethode nutzt, um die generierten Panoramavideos in 4D-Punktwolken zu transformieren und so die Optimierung einer ganzheitlichen 4D-Gaussian-Splatting-Darstellung zu ermöglichen, um räumlich und zeitlich konsistente 4D-Szenen zu rekonstruieren. Um die Wirksamkeit unserer Methode zu validieren, führten wir eine vergleichende Analyse mit bestehenden Ansätzen durch, die ihre Überlegenheit sowohl bei der Panoramavideogenerierung als auch bei der 4D-Szenenrekonstruktion zeigt. Dies demonstriert die Fähigkeit unserer Methode, ansprechendere und realistischere immersive Umgebungen zu schaffen und damit das Nutzererlebnis in VR- und AR-Anwendungen zu verbessern.
Trotz der jüngsten Fortschritte bei Sprachmodellen (LMs) für die Softwareentwicklung bleibt die Sammlung von Trainingsdaten ein erhebliches Problem. Bestehende Datensätze sind klein, mit höchstens einigen tausend Trainingsinstanzen aus 11 oder weniger GitHub-Repositories. Die Verfahren zur Erstellung solcher Datensätze sind oft komplex und erfordern Hunderte von Stunden menschlicher Arbeit; begleitende Ausführungsumgebungen beanspruchen ebenfalls mehrere Terabyte Speicherplatz, was ihre Skalierbarkeit und Nutzbarkeit erheblich einschränkt. Um dieses Problem zu lösen, stellen wir SWE-smith vor, eine neuartige Pipeline zur Generierung von Trainingsdaten für die Softwareentwicklung in großem Maßstab. Für jedes Python-Codebasis erstellt SWE-smith eine entsprechende Ausführungsumgebung und synthetisiert automatisch Hunderte bis Tausende von Aufgabeninstanzen, die bestehende Tests im Codebasis brechen. Mit SWE-smith haben wir einen Datensatz von 50.000 Instanzen aus 128 GitHub-Repositories erstellt, der um eine Größenordnung größer ist als alle bisherigen Arbeiten. Wir trainieren SWE-agent-LM-32B und erreichen eine Pass@1-Auflösungsrate von 40,2 % auf dem SWE-bench Verified Benchmark, was den Stand der Technik unter den Open-Source-Modellen darstellt. Wir stellen SWE-smith (Sammelverfahren, Aufgabeninstanzen, Trajektorien, Modelle) als Open Source zur Verfügung, um die Einstiegshürde für die Forschung in LM-Systemen für die automatisierte Softwareentwicklung zu senken. Alle Assets sind unter https://swesmith.com verfügbar.
Große Sprachmodelle (LLMs) haben beispiellose Fähigkeiten in verschiedenen Aufgaben der natürlichen Sprachverarbeitung demonstriert. Ihre Fähigkeit, brauchbaren Text und Code zu verarbeiten und zu generieren, hat sie in vielen Bereichen allgegenwärtig gemacht, während ihr Einsatz als Wissensdatenbanken und „Denkwerkzeuge“ weiterhin ein Gebiet der laufenden Forschung bleibt. In der Geographie konzentriert sich eine wachsende Literatur darauf, das geographische Wissen von LLMs und ihre Fähigkeit zur räumlichen Schlussfolgerung zu bewerten. Dennoch ist noch sehr wenig über die interne Funktionsweise dieser Modelle bekannt, insbesondere darüber, wie sie geographische Informationen verarbeiten. In diesem Kapitel entwickeln wir einen neuartigen Rahmen für die Untersuchung der georäumlichen mechanistischen Interpretierbarkeit – die Nutzung räumlicher Analysen, um zu rekonstruieren, wie LLMs geographische Informationen verarbeiten. Unser Ziel ist es, das Verständnis der internen Repräsentationen zu vertiefen, die diese komplexen Modelle bei der Verarbeitung geographischer Informationen erzeugen – was man, ohne unangemessene Anthropomorphisierung, als „wie LLMs über geographische Informationen denken“ bezeichnen könnte. Zunächst skizzieren wir den Einsatz von Probing, um interne Strukturen innerhalb von LLMs aufzudecken. Anschließend führen wir das Feld der mechanistischen Interpretierbarkeit ein, diskutieren die Superpositionshypothese und die Rolle spärlicher Autoencoder bei der Entflechtung polysemantischer interner Repräsentationen von LLMs in interpretierbarere, monosemantische Merkmale. In unseren Experimenten verwenden wir räumliche Autokorrelation, um zu zeigen, wie Merkmale, die für Ortsnamen gewonnen wurden, räumliche Muster aufweisen, die mit ihrer geographischen Lage zusammenhängen, und somit georäumlich interpretiert werden können. Dies liefert Einblicke in die Art und Weise, wie diese Modelle geographische Informationen verarbeiten. Abschließend diskutieren wir, wie unser Rahmen die Erforschung und Nutzung von Foundation-Modellen in der Geographie prägen kann.
Mit der zunehmenden Nachfrage nach natürlicher Mensch-Computer-Interaktion erhalten sprachbasierte Systeme immer mehr Aufmerksamkeit, da Sprache eine der häufigsten Formen der täglichen Kommunikation ist. Allerdings weisen bestehende Sprachmodelle immer noch eine hohe Latenz bei der Erzeugung des ersten Audio-Tokens während des Streamings auf, was eine erhebliche Hürde für die Bereitstellung darstellt. Um dieses Problem zu lösen, schlagen wir VITA-Audio vor, ein end-to-end großes Sprachmodell mit schneller Audio-Text-Token-Generierung. Konkret führen wir ein leichtgewichtiges Multiple Cross-modal Token Prediction (MCTP)-Modul ein, das effizient mehrere Audio-Tokens innerhalb eines einzigen Modell-Durchlaufs generiert, was nicht nur die Inferenz beschleunigt, sondern auch die Latenz bei der Erzeugung des ersten Audios in Streaming-Szenarien erheblich reduziert. Darüber hinaus wird eine vierstufige progressive Trainingsstrategie untersucht, um eine Modellbeschleunigung mit minimalem Verlust der Sprachqualität zu erreichen. Nach unserem Wissen ist VITA-Audio das erste multimodale Large Language Model, das in der Lage ist, während des ersten Durchlaufs Audio-Ausgaben zu generieren, wodurch Echtzeit-Konversationsfähigkeiten mit minimaler Latenz ermöglicht werden. VITA-Audio ist vollständig reproduzierbar und wird ausschließlich auf Open-Source-Daten trainiert. Experimentelle Ergebnisse zeigen, dass unser Modell eine Beschleunigung der Inferenz um das 3- bis 5-fache bei 7B Parametern erreicht, aber auch Open-Source-Modelle ähnlicher Größe auf mehreren Benchmarks für automatische Spracherkennung (ASR), Text-zu-Sprache (TTS) und gesprochene Frage-Antwort-Systeme (SQA) deutlich übertrifft.
Die Fehlerzuweisung in Multi-Agenten-Systemen mit großen Sprachmodellen (LLM) – die Identifizierung des verantwortlichen Agenten und Schritts bei Aufgabenfehlern – liefert entscheidende Hinweise für das Debugging von Systemen, bleibt jedoch weitgehend unerforscht und arbeitsintensiv. In diesem Artikel schlagen wir ein neues Forschungsgebiet vor und formulieren es: die automatisierte Fehlerzuweisung für LLM-Multi-Agenten-Systeme. Um diese Initiative zu unterstützen, führen wir den Who&When-Datensatz ein, der umfangreiche Fehlerprotokolle aus 127 LLM-Multi-Agenten-Systemen mit detaillierten Annotationen enthält, die Fehler mit spezifischen Agenten und entscheidenden Fehlerschritten verknüpfen. Mit Who&When entwickeln und evaluieren wir drei automatisierte Methoden zur Fehlerzuweisung und fassen deren jeweilige Vor- und Nachteile zusammen. Die beste Methode erreicht eine Genauigkeit von 53,5 % bei der Identifizierung der für Fehler verantwortlichen Agenten, jedoch nur 14,2 % bei der Bestimmung der Fehlerschritte, wobei einige Methoden unterhalb des Zufallsniveaus liegen. Selbst State-of-the-Art-Reasoning-Modelle wie OpenAI o1 und DeepSeek R1 erreichen keine praktische Nutzbarkeit. Diese Ergebnisse unterstreichen die Komplexität der Aufgabe und den Bedarf an weiterer Forschung in diesem Bereich. Code und Datensatz sind verfügbar unter https://github.com/mingyin1/Agents_Failure_Attribution.
Die Synthese interaktiver 3D-Szenen aus Text ist entscheidend für Gaming, Virtual Reality und verkörperte KI. Allerdings stehen bestehende Methoden vor mehreren Herausforderungen. Lernbasierte Ansätze stützen sich auf kleinräumige Indoor-Datensätze, was die Szenenvielfalt und Layoutkomplexität einschränkt. Während große Sprachmodelle (LLMs) vielfältiges Wissen aus dem Textbereich nutzen können, haben sie Schwierigkeiten mit räumlicher Realität und erzeugen oft unnatürliche Objektplatzierungen, die dem gesunden Menschenverstand widersprechen. Unsere zentrale Erkenntnis ist, dass visuelle Wahrnehmung diese Lücke schließen kann, indem sie realistische räumliche Anleitung bietet, die LLMs fehlt. Zu diesem Zweck führen wir Scenethesis ein, ein trainingsfreies agentenbasiertes Framework, das LLM-basierte Szenenplanung mit visuell gesteuerter Layoutverfeinerung kombiniert. Bei einem Textprompt verwendet Scenethesis zunächst ein LLM, um ein grobes Layout zu entwerfen. Ein Vision-Modul verfeinert dies dann, indem es eine Bildanleitung generiert und die Szenenstruktur extrahiert, um die Beziehungen zwischen Objekten zu erfassen. Anschließend erzwingt ein Optimierungsmodul iterativ eine genaue Pose-Ausrichtung und physikalische Plausibilität, um Artefakte wie Objektdurchdringung und Instabilität zu verhindern. Schließlich überprüft ein Bewertungsmodul die räumliche Kohärenz. Umfassende Experimente zeigen, dass Scenethesis vielfältige, realistische und physikalisch plausible 3D-interaktive Szenen erzeugt, was es wertvoll für die Erstellung virtueller Inhalte, Simulationsumgebungen und die Forschung zu verkörperter KI macht.
Traditionelle Datenpräsentationen trennen typischerweise den Präsentator und die Visualisierung in zwei separate Räume – die 3D-Welt und einen 2D-Bildschirm – und erzählen dadurch visualisierungszentrierte Geschichten. Um ein menschenzentrierteres Betrachtungserlebnis zu schaffen, etablieren wir mit unseren InfoVids eine ausgewogenere Beziehung zwischen der Visualisierung und dem Präsentator. Diese von Infografiken inspirierten Informationsvideos sind darauf ausgelegt, die Beziehungen zwischen dem Präsentator und den Visualisierungen neu zu definieren. Bei der Gestaltung von InfoVids untersuchen wir, wie der Einsatz von Layout, Form und Interaktionen das Betrachtererlebnis beeinflusst. Wir vergleichen InfoVids mit ihren 2D-`Folien`-Gegenstücken anhand von 9 Metriken mit 30 Teilnehmern und liefern praktische, langfristige Einblicke aus einer autobiografischen Perspektive. Unsere Mixed-Methods-Analysen zeigen, dass dieses Paradigma die Aufmerksamkeitsteilung der Betrachter verringerte, den Fokus von der Visualisierung auf den Präsentator verlagerte und zu interaktiveren, natürlicheren und ansprechenderen Ganzkörper-Datenperformances für die Betrachter führte. Letztendlich halfen InfoVids den Betrachtern, die traditionellen Dynamiken zwischen dem Präsentator und den Visualisierungen neu zu denken.
Entwickler von Sprachmodellen filtern typischerweise hochriskante Inhalte – wie toxische oder urheberrechtlich geschützte Texte – aus ihren Vortrainingsdaten heraus, um zu verhindern, dass Modelle ähnliche Ausgaben generieren. Die vollständige Entfernung solcher Daten schränkt jedoch die Fähigkeit der Modelle ein, schädliche oder sensible Inhalte zu erkennen und angemessen darauf zu reagieren. In diesem Artikel stellen wir Selective Loss to Understand but Not Generate (SLUNG) vor, ein Vortrainingsparadigma, bei dem Modelle lernen, hochriskante Daten zu verstehen, ohne sie zu generieren. Anstatt den Next-Token-Prediction-Verlust einheitlich anzuwenden, vermeidet SLUNG selektiv die Anreize zur Generierung hochriskante Tokens, stellt jedoch sicher, dass sie im Kontextfenster des Modells verbleiben. Da das Modell lernt, risikoarme Tokens vorherzusagen, die auf hochriskante folgen, wird es gezwungen, die hochriskanten Inhalte zu verstehen. Durch unsere Experimente zeigen wir, dass SLUNG das Verständnis von hochriskanten Daten (z. B. die Fähigkeit, toxische Inhalte zu erkennen) durch Modelle konsequent verbessert, ohne deren Generierung (z. B. die Toxizität der Modellantworten) zu erhöhen. Insgesamt ermöglicht unser SLUNG-Paradigma Modellen, von hochriskanten Texten zu profitieren, die ansonsten herausgefiltert würden.
Das kollaborative Paradigma von großen und kleinen Sprachmodellen (LMs) balanciert effektiv Leistung und Kosten, doch die zentrale Herausforderung liegt darin, den genauen Zeitpunkt der Aktivierung zu bestimmen, wenn Halluzinationen in kleinen LMs auftreten. Bisherige Optimierungsbemühungen konzentrierten sich hauptsächlich auf Nachbearbeitungstechniken, die vom Denkprozess der LMs getrennt waren, was zu hohen Rechenkosten und begrenzter Effektivität führte. In diesem Artikel schlagen wir ein praktisches Bewertungsmaß für die Aktivierung vor, genannt AttenHScore, das die Akkumulation und Ausbreitung von Halluzinationen während des Generierungsprozesses kleiner LMs berechnet und potenzielle Denkfehler kontinuierlich verstärkt. Durch die dynamische Anpassung des Detektionsschwellenwerts erreichen wir eine präzisere Echtzeitaktivierung großer LMs. Zusätzlich nutzen wir, unter Berücksichtigung der begrenzten Denkfähigkeit kleiner LMs, unsicherheitsbewusste Wissensreorganisation, um ihnen zu helfen, kritische Informationen aus verschiedenen Textabschnitten besser zu erfassen. Umfangreiche Experimente zeigen, dass unser AttenHScore die meisten Basismethoden in der Verbesserung der Echtzeit-Halluzinationserkennung über mehrere QA-Datensätze hinweg übertrifft, insbesondere bei der Bearbeitung komplexer Anfragen. Darüber hinaus eliminieren unsere Strategien die Notwendigkeit zusätzlicher Modelltrainings und zeigen Flexibilität bei der Anpassung an verschiedene transformerbasierte LMs.
In den letzten Jahren haben Multi-Agenten-Frameworks, die auf großen Sprachmodellen (LLMs) basieren, rasante Fortschritte gemacht. Trotz dieser Fortschritte gibt es noch einen bemerkenswerten Mangel an Benchmark-Datensätzen, die speziell zur Bewertung ihrer Leistung entwickelt wurden. Um diese Lücke zu schließen, stellen wir Auto-SLURP vor, einen Benchmark-Datensatz, der darauf abzielt, LLM-basierte Multi-Agenten-Frameworks im Kontext intelligenter persönlicher Assistenten zu evaluieren. Auto-SLURP erweitert den ursprünglichen SLURP-Datensatz – der zunächst für Aufgaben des natürlichen Sprachverständnisses entwickelt wurde – durch die Neukennzeichnung der Daten und die Integration simulierter Server und externer Dienste. Diese Erweiterung ermöglicht eine umfassende End-to-End-Evaluationspipeline, die Sprachverständnis, Aufgabenausführung und Antwortgenerierung abdeckt. Unsere Experimente zeigen, dass Auto-SLURP eine erhebliche Herausforderung für aktuelle state-of-the-art Frameworks darstellt, und verdeutlichen, dass wirklich zuverlässige und intelligente Multi-Agenten-Persönliche Assistenten noch in der Entwicklung sind. Der Datensatz und der zugehörige Code sind unter https://github.com/lorashen/Auto-SLURP/ verfügbar.
Diese Studie präsentiert einen neuartigen Benchmark zur Bewertung von Large Language Models (LLMs) anhand von Herausforderungen, die aus den Excel-Wettbewerben der Financial Modeling World Cup (FMWC) abgeleitet wurden. Wir führen eine Methodik ein, um 113 bestehende FMWC-Herausforderungen in programmatisch auswertbare JSON-Formate zu konvertieren, und verwenden diesen Datensatz, um die Leistung mehrerer führender LLMs zu vergleichen. Unsere Ergebnisse zeigen signifikante Leistungsunterschiede in verschiedenen Herausforderungskategorien, wobei Modelle spezifische Stärken bei Mustererkennungsaufgaben aufweisen, jedoch mit komplexem numerischem Denken zu kämpfen haben. Der Benchmark bietet einen standardisierten Rahmen zur Bewertung der Fähigkeiten von LLMs in realistischen, geschäftsorientierten Aufgaben anstelle von abstrakten akademischen Problemen. Diese Forschung trägt zum wachsenden Feld der KI-Benchmarking bei, indem sie die Kompetenz der 1,5 Milliarden Menschen, die täglich Microsoft Excel verwenden, als aussagekräftiges Bewertungskriterium etabliert, das die Lücke zwischen akademischen KI-Benchmarks und praktischen Geschäftsanwendungen schließt.