papers.description
Unter streng kontrollierten Vortrainingsbedingungen beobachten wir ein Crossover-Phänomen: Wenn die Menge an einzigartigen Daten begrenzt ist, übertreffen Diffusions-Sprachmodelle (DLMs) autoregressive (AR) Modelle konsistent, indem sie über mehr Epochen trainiert werden. Der Crossover-Punkt verschiebt sich nach hinten, wenn mehr oder qualitativ hochwertigere Daten verfügbar sind, und nach vorne bei größeren Modellen; das Phänomen bleibt über dichte und sparse Architekturen hinweg bestehen. Wir führen die Gewinne auf drei sich verstärkende Faktoren zurück: (1) Any-Order-Modellierung, (2) Super-Dense-Compute durch iteratives bidirektionales Entrauschen und (3) integrierte Monte-Carlo-Augmentierung; Rauschen in den Eingaben oder Parametern verbessert AR-Modelle bei Datenknappheit, kann die Lücke jedoch nicht schließen. In großem Maßstab übertrifft ein 1,7B-DLM, das mit einem Compute-Budget von ~1,5B Token auf 10B einzigartigen Python-Tokens trainiert wurde, einen AR-Coder, der unter streng identischen Bedingungen trainiert wurde. Zusätzlich erreicht ein DLM mit 1B Parametern eine Genauigkeit von >56 % auf HellaSwag und >33 % auf MMLU unter Verwendung von nur 1B Tokens, ohne spezielle Tricks, allein durch die Wiederholung standardmäßiger Vortrainingsdaten. Wir zeigen auch, dass ein ansteigendes Kreuzentropie-Validierungsloss in diesem Regime keine Verschlechterung der Downstream-Leistung impliziert.
Aufgrund mangelnder effektiver cross-modaler Modellierung weisen bestehende Open-Source-Audio-Video-Generierungsmethoden häufig beeinträchtigte Lippensynchronisation und unzureichende semantische Konsistenz auf. Um diese Nachteile zu mildern, schlagen wir UniAVGen vor, einen vereinheitlichten Rahmen für die gemeinsame Audio- und Videogenerierung. UniAVGen basiert auf einer Dual-Branch-Joint-Synthesis-Architektur, die zwei parallele Diffusion Transformer (DiTs) integriert, um einen kohäsiven cross-modalen latenten Raum aufzubauen. Im Kern liegt ein asymmetrischer cross-modaler Interaktionsmechanismus, der bidirektionale, zeitlich ausgerichtete Cross-Attention ermöglicht und so präzise raumzeitliche Synchronisation und semantische Konsistenz gewährleistet. Darüber hinaus wird diese cross-modale Interaktion durch ein Face-Aware-Modulation-Modul erweitert, das dynamisch salienten Regionen im Interaktionsprozess Priorität einräumt. Um die generative Qualität während der Inferenz zu steigern, führen wir zusätzlich Modality-Aware Classifier-Free Guidance ein, eine neuartige Strategie, die cross-modale Korrelationssignale explizit verstärkt. Bemerkenswerterweise ermöglicht UniAVGens robustes Joint-Synthesis-Design die nahtlose Vereinheitlichung zentraler Audio-Video-Aufgaben innerhalb eines einzelnen Modells, wie gemeinsame Audio-Video-Generierung und -Fortsetzung, Video-to-Audio-Synchronisation und audiogesteuerte Videosynthese. Umfassende Experimente bestätigen, dass UniAVGen mit deutlich weniger Trainingsdaten (1,3 Mio. vs. 30,1 Mio.) insgesamt Vorteile in Bezug auf Audio-Video-Synchronisation, Klangfarbenkonsistenz und Emotionskonsistenz bietet.
Trotz jüngster Fortschritte bei der Verwendung großer Sprachmodelle (LLMs) zur automatischen Generierung von 3D-Szenen mangelt es generierten Szenen oft an realistischen räumlichen Anordnungen und Objektattributen, wie sie in realen Umgebungen vorkommen. Da dieses Problem auf unzureichend detaillierte, grobgranulare Anweisungen zurückzuführen ist, wird die Weiterentwicklung der 3D-Szenensynthese, die durch detailliertere, feingranulare Anweisungen geleitet wird, welche reale Umgebungen widerspiegeln, entscheidend. Ohne solche realistischen Szenen können in unrealistischen Umgebungen trainierte embodied Agents Prioritäten erlernen, die erheblich von der realen Physik und Semantik abweichen, was ihre Leistung beim Einsatz beeinträchtigt. Daher ist die Überprüfung der Übereinstimmung zwischen der feingranularen Anweisung und der generierten Szene für effektives Lernen unerlässlich. Aktuelle Bewertungsmethoden wie CLIPScore und Vision-Language-Models (VLMs) scheitern jedoch häufig daran, diese Übereinstimmung zuverlässig zu bewerten. Diese Schwäche resultiert hauptsächlich aus ihrem oberflächlichen Verständnis von 3D-Szenen, was oft zu unzureichend fundierten Szenenkomponenten führt. Um dies zu adressieren, stellen wir LEGO-Eval vor, ein Bewertungsframework, das mit diversen Werkzeugen ausgestattet ist, die explizit darauf ausgelegt sind, Szenenkomponenten zu verankern und so genauere Übereinstimmungsbewertungen zu ermöglichen. Wir präsentieren zudem LEGO-Bench, einen Benchmark mit detaillierten Anweisungen, die komplexe Anordnungen und Attribute realer Umgebungen spezifizieren. Experimente zeigen, dass LEGO-Eval bei der Bewertung der Szenen-Anweisungs-Übereinstimmung VLM-as-a-judge um einen F1-Score von 0,41 übertrifft. Benchmarking mit LEGO-Bench deckt erhebliche Einschränkungen aktueller Generierungsmethoden auf. Über alle evaluierten Ansätze hinweg erreichten die Erfolgsquoten maximal 10% bei der Generierung von Szenen, die vollständig mit den feingranularen Anweisungen übereinstimmen.
Aktuelle Bewertungen von Agenten auf Basis großer Sprachmodelle (LLM) konzentrieren sich primär auf die Aufgabenerfüllung und vernachlässigen häufig Ressourceneffizienz und Anpassungsfähigkeit. Dadurch wird eine entscheidende Fähigkeit übersehen: die Fähigkeit der Agenten, kosteneffiziente Pläne zu entwerfen und an sich verändernde Umgebungen anzupassen. Um diese Lücke zu schließen, stellen wir CostBench vor, einen skalierbaren, kostenzentrierten Benchmark, der entwickelt wurde, um das ökonomische Denkvermögen und die Neuplanungsfähigkeiten von Agenten zu bewerten. Angesiedelt im Bereich der Reiseplanung umfasst CostBench Aufgaben, die durch mehrere Abfolgen von atomaren und zusammengesetzten Tools mit unterschiedlichen, anpassbaren Kosten lösbar sind. Es unterstützt zudem vier Arten von dynamischen Blockierereignissen, wie Tool-Ausfälle und Kostenänderungen, um reale Unvorhersehbarkeit zu simulieren und Agenten zu Echtzeitanpassungen zu zwingen. Die Auswertung führender open-source und proprietärer Modelle mit CostBench offenbart eine erhebliche Lücke im kostensensiblen Planen: Agenten scheitern häufig daran, kosteneffiziente Lösungen in statischen Szenarien zu identifizieren, wobei selbst GPT-5 bei den schwierigsten Aufgaben eine Exakt-Trefferquote von unter 75% erreicht. Unter dynamischen Bedingungen sinkt die Leistung weiter um etwa 40%. Durch die Diagnose dieser Schwächen legt CostBench den Grundstein für die Entwicklung zukünftiger Agenten, die sowohl ökonomisch rational als auch robust sind.
Tabellendaten sind nach wie vor das vorherrschende Format für reale Anwendungen. Die Entwicklung effektiver neuronaler Modelle für tabellarische Daten bleibt jedoch aufgrund heterogener Merkmalstypen und komplexer Wechselwirkungen auf mehreren Skalen eine Herausforderung. Jüngste Fortschritte beim In-Context-Learning (ICL) für Tabellendaten, wie z.B. TabPFN und TabICL, haben eine state-of-the-art Leistung erzielt, die mit gradientenverstärkten Bäumen (GBTs) vergleichbar ist, ohne aufgabenspezifisches Fine-Tuning. Allerdings weisen aktuelle Architekturen wesentliche Einschränkungen auf: (1) Einzel-Skalen-Merkmalverarbeitung, die hierarchische Abhängigkeiten übersieht, (2) dichte Aufmerksamkeitsmechanismen mit quadratischer Skalierung in der Tabellenbreite und (3) streng sequentielle Komponentenverarbeitung, die iterative Repräsentationsverfeinerung und komponentenübergreifende Kommunikation verhindert. Um diese Herausforderungen zu adressieren, stellen wir Orion-MSP vor, eine tabellarische ICL-Architektur mit drei wichtigen Innovationen: (1) Multi-Skalen-Verarbeitung zur Erfassung hierarchischer Merkmalswechselwirkungen, (2) block-sparse Aufmerksamkeit, die fensterbasierte, globale und zufällige Muster für skalierbare Effizienz und Reichweitenkonnektivität kombiniert, und (3) einen Perceiver-artigen Speicher, der sichere bidirektionale Informationsflüsse zwischen Komponenten ermöglicht. In verschiedenen Benchmarks erreicht oder übertrifft Orion-MSP die state-of-the-art Leistung, skaliert effektiv auf hochdimensionale Tabellen und setzt damit einen neuen Standard für effizientes tabellarisches In-Context-Learning. Das Modell ist öffentlich verfügbar unter https://github.com/Lexsi-Labs/Orion-MSP.
Tabular Foundation Models stellen ein wachsendes Paradigma im maschinellen Lernen mit strukturierten Daten dar, das die Vorteile groß angelegten Vorabtrainings auf tabellarische Domänen ausdehnt. Ihre Verbreitung bleibt jedoch aufgrund heterogener Vorverarbeitungspipelines, fragmentierter APIs, inkonsistenter Feinabstimmungsverfahren und des Fehlens standardisierter Evaluierung für deploymentspezifische Metriken wie Kalibrierung und Fairness eingeschränkt. Wir stellen TabTune vor, eine vereinheitlichte Bibliothek, die den kompletten Arbeitsablauf für tabellarische Foundation Models über eine einzige Schnittstelle standardisiert. TabTune bietet konsistenten Zugriff auf sieben state-of-the-art Modelle, die mehrere Anpassungsstrategien unterstützen, darunter Zero-Shot-Inferenz, Meta-Learning, überwachte Feinabstimmung (SFT) und parameter-effiziente Feinabstimmung (PEFT). Das Framework automatisiert die modellbewusste Vorverarbeitung, verwaltet architektonische Heterogenität intern und integriert Evaluierungsmodule für Leistung, Kalibrierung und Fairness. TabTune wurde für Erweiterbarkeit und Reproduzierbarkeit konzipiert und ermöglicht ein konsistentes Benchmarking von Anpassungsstrategien tabellarischer Foundation Models. Die Bibliothek ist quelloffen und verfügbar unter https://github.com/Lexsi-Labs/TabTune.
Ein tiefgreifendes Verständnis kinematischer Strukturen und beweglich gelagerter Komponenten ist entscheidend, damit Roboter Objekte manipulieren und ihre eigenen artikulierten Formen modellieren können. Ein solches Verständnis wird durch artikulierte Objekte erfasst, die für Aufgaben wie physikalische Simulation, Bewegungsplanung und Policy-Learning unerlässlich sind. Die Erstellung dieser Modelle, insbesondere für Objekte mit vielen Freiheitsgraden (Degrees of Freedom, DoF), bleibt jedoch eine große Herausforderung. Bestehende Methoden stützen sich typischerweise auf Bewegungssequenzen oder starke Annahmen aus handkuratierten Datensätzen, was die Skalierbarkeit behindert. In diesem Artikel stellen wir Kinematify vor, einen automatisierten Rahmen, der artikulierte Objekte direkt aus beliebigen RGB-Bildern oder Textbeschreibungen synthetisiert. Unser Ansatz adressiert zwei zentrale Herausforderungen: (i) das Ableiten kinematischer Topologien für Objekte mit hohen Freiheitsgraden und (ii) die Schätzung von Gelenkparametern aus statischer Geometrie. Um dies zu erreichen, kombinieren wir MCTS-Suche (Monte Carlo Tree Search) zur Strukturinferenz mit geometriegetriebener Optimierung für die Gelenkabschätzung und erzeugen so physikalisch konsistente und funktional valide Beschreibungen. Wir evaluieren Kinematify anhand verschiedener Eingaben aus synthetischen und realen Umgebungen und zeigen Verbesserungen bei der Registrierungsgenauigkeit und der Genauigkeit der kinematischen Topologie im Vergleich zu vorherigen Arbeiten.
Große Sprachmodelle (LLMs) erzielen starke Leistungen in Benchmarks – von Wissenstests und mathematischem Denken bis hin zu Web-Agenten-Aufgaben – doch diese Tests finden in statischen Umgebungen statt, denen echte Dynamik und Unsicherheit fehlen. Folglich bewerten sie isoliertes Schlussfolgern oder Problemlösen anstatt Entscheidungsfindung unter Unsicherheit. Um dies zu adressieren, führen wir LiveTradeBench ein, eine Live-Handelsumgebung zur Bewertung von LLM-Agenten in realistischen und sich entwickelnden Märkten. LiveTradeBench folgt drei Designprinzipien: (i) Live-Datenstrom von Marktpreisen und Nachrichten, der die Abhängigkeit von Offline-Backtesting eliminiert und Informationslecks verhindert, während gleichzeitig Echtzeit-Unsicherheit erfasst wird; (ii) eine Portfoliomanagement-Abstraktion, die die Kontrolle von Einzel-Asset-Aktionen auf Multi-Asset-Allokation erweitert und Risikomanagement sowie assetübergreifendes Denken integriert; und (iii) Multi-Markt-Bewertung über strukturell unterschiedliche Umgebungen – US-Aktien und Polymarket-Vorhersagemärkte – die sich in Volatilität, Liquidität und Informationsfluss unterscheiden. In jedem Schritt beobachtet ein Agent Preise, Nachrichten und sein Portfolio und gibt dann prozentuale Allokationen aus, die Risiko und Ertrag abwägen. Mit LiveTradeBench führen wir 50-tägige Live-Evaluierungen von 21 LLMs verschiedener Modellfamilien durch. Die Ergebnisse zeigen, dass (1) hohe LMArena-Scores keine überlegenen Handelsergebnisse implizieren; (2) Modelle distincte Portfolio-Stile zeigen, die Risikobereitschaft und Denkdynamik widerspiegeln; und (3) einige LLMs Live-Signale effektiv nutzen, um Entscheidungen anzupassen. Diese Ergebnisse decken eine Lücke zwischen statischer Evaluation und realer Kompetenz auf und motivieren Benchmarks, die sequenzielle Entscheidungsfindung und Konsistenz unter Live-Unsicherheit testen.
Während sich Reasoning-Modelle rasant vergrößern, tritt die essentielle Rolle der Multimodalität in der menschlichen Kognition immer deutlicher hervor, was einen wachsenden Bedarf an der Untersuchung visuell-zentrierter kognitiver Verhaltensweisen antreibt. Bisherige multimodale Benchmarks betonen jedoch entweder textbasiertes Reasoning zu stark oder erfassen visuell-zentrierte kognitive Verhaltensweisen nicht systematisch, sodass die kognitive Kapazität von MLLMs unzureichend bewertet wird. Um diese Lücke zu schließen, stellen wir MME-CC (Multi-Modal Evaluation Benchmark of Cognitive Capacity) vor, einen visuell verankerten Benchmark, der 11 repräsentative Reasoning-Aufgaben in drei grundlegende Kategorien visueller Information einteilt: räumliches, geometrisches und wissensbasiertes Reasoning. Er bietet zudem eine feingranulare Analyse der kognitiven Fähigkeiten von MLLMs in diesen Dimensionen. Auf Basis von MME-CC führen wir umfangreiche Experimente mit 16 repräsentativen MLLMs durch. Unsere Studie zeigt, dass Closed-Source-Modelle derzeit insgesamt führend sind (z.B. 42,66 für Gemini-2.5-Pro vs. 30,45 für GLM-4.5V), während räumliches und geometrisches Reasoning allgemein schwach ausgeprägt sind (≤ 30%). Wir identifizieren weiterhin häufige Fehlermuster, darunter Orientierungsfehler, fragile identitätsübergreifende Persistenz zwischen Ansichten und mangelnde Befolgung kontrafaktischer Instruktionen. Zudem beobachten wir, dass Chain-of-Thought typischerweise einem dreistufigen Prozess folgt (Extrahieren → Reasoning → Verifizieren) mit starker Abhängigkeit von der visuellen Extraktion. Wir hoffen, dass diese Arbeit einen Wandel anstößt, der die kognitive Kapazität von MLLMs sowohl in der Evaluation als auch im Modelldesign in den Mittelpunkt stellt.
Wir untersuchen erneut das Test-Time-Scaling für das Sprachmodell-Rationalität und stellen eine grundlegende Frage: Ist es bei gleichem Token-Budget und Rechenaufwand besser, mehrere unabhängige Ketten parallel auszuführen oder weniger Ketten, die sich iterativ durch sequenzielle Schritte verbessern? Durch eine umfassende Evaluierung mit 5 modernsten Open-Source-Modellen und 3 anspruchsvollen Reasoning-Benchmarks stellen wir fest, dass sequenzielles Scaling, bei dem Ketten explizit auf vorherigen Versuchen aufbauen, in 95,6 % der Konfigurationen das dominante Paradigma des parallelen Self-Consistency übertrifft, mit Genauigkeitssteigerungen von bis zu 46,7 %. Darüber hinaus führen wir die inverse-Entropie-gewichtete Abstimmung ein, eine neuartige trainingsfreie Methode, um die Genauigkeit des sequenziellen Scalings weiter zu steigern. Indem wir Antworten proportional zur inversen Entropie ihrer Reasoning-Ketten gewichten, erhöhen wir unsere Erfolgsrate gegenüber der parallelen Mehrheitsentscheidung und etablieren sie als optimale Test-Time-Scaling-Strategie. Unsere Ergebnisse stellen die vorherrschende Orthodoxie des parallelen Reasonings grundlegend in Frage, die das Test-Time-Scaling seit Wang et al.'s Self-Consistency-Decoding (Wang et al., 2022) dominiert hat, und positionieren die sequenzielle Verfeinerung als robuste Standardlösung für modernes LLM-Reasoning, was einen Paradigmenwechsel in der Herangehensweise an Inferenzzeit-Optimierung erforderlich macht.
Kollaborativer Dialog basiert darauf, dass Teilnehmer schrittweise gemeinsamen Boden (common ground) aufbauen. In asymmetrischen Settings kann es jedoch vorkommen, dass sie sich einig zu sein glauben, obwohl sie auf unterschiedliche Entitäten referieren. Wir stellen ein perspektivistisches Annotationsschema für das HCRC MapTask-Korpus (Anderson et al., 1991) vor, das für jeden Referenzausdruck die geerdeten Interpretationen (grounded interpretations) von Sprecher und Adressat separat erfasst. Dies ermöglicht es uns nachzuzeichnen, wie Verständnis entsteht, abweicht und im Zeitverlauf repariert wird. Mithilfe eines schema-basierten LLM-Annotationspipelines erhalten wir 13.000 annotierte Referenzausdrücke mit Reliabilitätsschätzungen und analysieren die resultierenden Verständniszustände. Die Ergebnisse zeigen, dass vollständige Missverständnisse selten sind, sobald lexikalische Varianten vereinheitlicht wurden, dass jedoch systematisch Diskrepanzen aufgrund von Mehrdeutigkeiten (multiplicity discrepancies) zu Abweichungen führen. Dies offenbart, wie scheinbarer Common Ground referenzielle Fehlausrichtungen maskieren kann. Unser Framework bietet sowohl eine Ressource als auch eine analytische Linse für die Erforschung geerdeter Missverständnisse und für die Evaluation der Fähigkeit von (V)LLMs, perspektivenabhängiges Grounding in kollaborativen Dialogen zu modellieren.
Die Abfrageerweiterung macht Abfragen aussagekräftiger, indem sie weitere Informationen an die Abfragen anhängt, um relevante Dokumente zu finden. Aktuelle Studien haben Embedder auf Basis von Large Language Models (LLM) vorgeschlagen, die in einem Multi-Task-Ansatz Repräsentationen für das Embedding und die Generierung zur Abfrageerweiterung lernen, indem sie die generativen Fähigkeiten von LLMs nutzen. Während der Inferenz haben diese gemeinsam trainierten Embedder eine Abfrageerweiterung gefolgt vom Embedding durchgeführt und dabei effektive Ergebnisse gezeigt. Die Erweiterung jeder Abfrage führt jedoch zu erheblicher Embedding-Latenz, und die Abfrageerweiterung kann sich bei einigen Abfragen nachteilig auf die Leistung auswirken. Zudem wurden frühere Methoden nicht in multimodalen Umgebungen untersucht. Um diese Probleme zu lösen, schlagen wir M-Solomon vor, einen universellen multimodalen Embedder, der adaptiv entscheiden kann, wann Abfragen erweitert werden müssen. Unser Ansatz unterteilt zunächst die Abfragen der Trainingsdatensätze auf Datensatzebene in zwei Gruppen: eine umfasst Abfragen, die eine Erweiterung erfordern, und die andere Abfragen, die keine benötigen. Anschließend führen wir einen Syntheseprozess ein, der geeignete Erweiterungen für Abfragen, die diese benötigen, unter Verwendung eines leistungsstarken Multimodalen LLM (MLLM) generiert. Danach stellen wir die adaptive Abfrageerweiterung vor. Durch diesen Schritt kann M-Solomon Abfragen nur bei Bedarf erweitern, indem er lernt, für Abfragen, die eine Erweiterung erfordern, synthetische Erweiterungen mit dem Präfix `/augment` zu generieren, und für andere Abfragen lediglich den einfachen String `/embed` zu erzeugen. Experimentelle Ergebnisse zeigten, dass M-Solomon nicht nur die Baseline ohne Erweiterung deutlich übertraf, sondern auch die Baseline, die immer eine Erweiterung verwendete, übertreffen konnte und dabei eine viel schnellere Embedding-Latenz bot.
Das Verständnis der aktuellen Fähigkeiten und Risiken von KI-Wissenschaftler-Systemen ist entscheidend, um vertrauenswürdigen und nachhaltigen, KI-gesteuerten wissenschaftlichen Fortschritt zu gewährleisten und gleichzeitig die Integrität des akademischen Ökosystems zu bewahren. Zu diesem Zweck entwickeln wir Jr. KI-Wissenschaftler, ein modernes autonomes KI-Wissenschaftler-System, das den Kernforschungsprozess eines Nachwuchsforschers nachahmt: Ausgehend von einem Grundlagenpapier eines menschlichen Mentors analysiert es dessen Grenzen, formuliert neuartige Verbesserungshypothesen, validiert diese durch rigorose Experimente und verfasst eine Publikation mit den Ergebnissen. Im Gegensatz zu früheren Ansätzen, die von Vollautomatisierung ausgehen oder auf kleinem Code-Maßstab operieren, folgt Jr. KI-Wissenschaftler einem klar definierten Forschungsablauf und nutzt moderne Code-Agenten, um komplexe, mehrdateienbasierte Implementierungen zu bewältigen, was zu wissenschaftlich wertvollen Beiträgen führt. Für die Evaluation führten wir automatisierte Bewertungen mit KI-Gutachtern durch, autor:innengeführte Evaluationen und Einreichungen bei Agents4Science, einer Plattform für KI-gesteuerte wissenschaftliche Beiträge. Die Ergebnisse zeigen, dass Jr. KI-Wissenschaftler Publikationen generiert, die höhere Bewertungen erhalten als bestehende vollautomatisierte Systeme. Dennoch identifizieren wir bedeutende Grenzen sowohl in der Autorenbewertung als auch in den Agents4Science-Gutachten, die auf die potenziellen Risiken der direkten Anwendung aktueller KI-Wissenschaftler-Systeme und zentrale Herausforderungen für die zukünftige Forschung hinweisen. Abschließend berichten wir umfassend über verschiedene während der Entwicklung identifizierte Risiken. Wir hoffen, dass diese Erkenntnisse das Verständnis für den aktuellen Stand und die Risiken in der Entwicklung von KI-Wissenschaftlern vertiefen.