papers.description
Wie Studierende, die schwierige Prüfungsfragen bewältigen müssen, raten große Sprachmodelle manchmal, wenn sie unsicher sind, und produzieren plausible, aber falsche Aussagen, anstatt Unsicherheit zuzugeben. Solche „Halluzinationen“ bestehen selbst in modernsten Systemen fort und untergraben das Vertrauen. Wir argumentieren, dass Sprachmodelle halluzinieren, weil die Trainings- und Evaluierungsverfahren das Raten gegenüber dem Eingeständnis von Unsicherheit belohnen, und wir analysieren die statistischen Ursachen von Halluzinationen im modernen Trainingsprozess. Halluzinationen müssen nicht mysteriös sein – sie entstehen einfach als Fehler in der binären Klassifikation. Wenn falsche Aussagen nicht von Fakten unterschieden werden können, entstehen Halluzinationen in vortrainierten Sprachmodellen durch natürlichen statistischen Druck. Wir argumentieren weiter, dass Halluzinationen aufgrund der Art und Weise fortbestehen, wie die meisten Bewertungen durchgeführt werden – Sprachmodelle werden darauf optimiert, gute Prüfungsteilnehmer zu sein, und das Raten bei Unsicherheit verbessert die Testleistung. Diese „Epidemie“ der Bestrafung unsicherer Antworten kann nur durch eine sozio-technische Minderungsmaßnahme angegangen werden: durch die Anpassung der Bewertung bestehender Benchmarks, die fehlausgerichtet sind, aber die Ranglisten dominieren, anstatt zusätzliche Halluzinationsbewertungen einzuführen. Diese Änderung könnte das Feld in Richtung vertrauenswürdigerer KI-Systeme lenken.
Autoregressive Sprachmodelle zur Vorhersage des nächsten Tokens bieten leistungsstarke Fähigkeiten, stehen jedoch bei der praktischen Anwendung vor erheblichen Herausforderungen aufgrund der hohen Rechen- und Speicherkosten während der Inferenz, insbesondere in der Dekodierungsphase. Wir stellen Set Block Decoding (SBD) vor, ein einfaches und flexibles Paradigma, das die Generierung beschleunigt, indem es die Standard-Next-Token-Prediction (NTP) und die Masked-Token-Prediction (MATP) in einer einzigen Architektur integriert. SBD ermöglicht es dem Modell, mehrere, nicht notwendigerweise aufeinanderfolgende zukünftige Tokens parallel zu samplen, was einen entscheidenden Unterschied zu bisherigen Beschleunigungsmethoden darstellt. Diese Flexibilität ermöglicht die Nutzung fortschrittlicher Solver aus der Literatur zur diskreten Diffusion und bietet erhebliche Geschwindigkeitssteigerungen ohne Genauigkeitsverluste. SBD erfordert keine architektonischen Änderungen oder zusätzliche Trainingshyperparameter, bleibt kompatibel mit exaktem KV-Caching und kann durch Feinabstimmung bestehender Next-Token-Prediction-Modelle implementiert werden. Durch die Feinabstimmung von Llama-3.1 8B und Qwen-3 8B zeigen wir, dass SBD eine 3-5-fache Reduzierung der Anzahl der für die Generierung erforderlichen Vorwärtsdurchläufe ermöglicht, während die gleiche Leistung wie beim äquivalenten NTP-Training erzielt wird.
Große Sprachmodelle (LLMs) zeichnen sich durch ihre Fähigkeit zur Programmsynthese aus, doch ihre Fähigkeit, symbolische Grafikprogramme (SGPs) zu erstellen, die in präzise visuelle Inhalte gerendert werden, ist noch wenig erforscht. Wir untersuchen die symbolische Grafikprogrammierung, bei der das Ziel darin besteht, ein SGP aus einer natürlichen Sprachbeschreibung zu generieren. Diese Aufgabe dient auch als Linse, um zu verstehen, wie LLMs die visuelle Welt interpretieren, indem sie dazu aufgefordert werden, Bilder zu generieren, die aus SGPs gerendert werden. Unter den verschiedenen SGPs konzentriert sich unser Artikel auf skalierbare Vektorgrafiken (SVGs). Wir beginnen damit, das Ausmaß zu untersuchen, in dem LLMs SGPs generieren können. Zu diesem Zweck führen wir SGP-GenBench ein, einen umfassenden Benchmark, der Objekttreue, Szenerietreue und Kompositionalität (Attributbindung, räumliche Beziehungen, Numerik) abdeckt. Auf SGP-GenBench stellen wir fest, dass führende proprietäre Modelle Open-Source-Modelle deutlich übertreffen und die Leistung gut mit den allgemeinen Programmierfähigkeiten korreliert. Motiviert durch diese Lücke, zielen wir darauf ab, die Fähigkeit von LLMs zur Generierung von SGPs zu verbessern. Wir schlagen einen Ansatz mit verstärkendem Lernen (RL) und verifizierbaren Belohnungen vor, bei dem ein Formatvaliditäts-Gate sicherstellt, dass das SVG rendbar ist, und eine cross-modale Belohnung den Text und das gerenderte Bild über starke Vision-Encoder (z.B. SigLIP für Text-Bild und DINO für Bild-Bild) ausrichtet. Angewendet auf Qwen-2.5-7B verbessert unsere Methode die Qualität und Semantik der SVG-Generierung erheblich und erreicht eine Leistung, die mit führenden Systemen vergleichbar ist. Wir analysieren weiterhin die Trainingsdynamik und zeigen, dass RL (i) eine feinere Zerlegung von Objekten in kontrollierbare Primitive und (ii) kontextuelle Details induziert, die die Kohärenz der Szene verbessern. Unsere Ergebnisse demonstrieren, dass die symbolische Grafikprogrammierung eine präzise und interpretierbare Linse für die cross-modale Verankerung bietet.
Die Schätzung der Beleuchtung einer Szene aus einem einzelnen Bild oder Video bleibt eine langjährige Herausforderung in der Computer Vision und Grafik. Lernbasierte Ansätze sind durch die Knappheit von Ground-Truth-HDR-Umgebungsmaps eingeschränkt, die teuer zu erfassen und in ihrer Vielfalt begrenzt sind. Während neuere generative Modelle starke Prioritäten für die Bildsynthese bieten, bleibt die Beleuchtungsschätzung aufgrund ihrer Abhängigkeit von indirekten visuellen Hinweisen, der Notwendigkeit, globalen (nicht-lokalen) Kontext zu inferieren, und der Wiederherstellung von High-Dynamic-Range-Ausgaben schwierig. Wir schlagen LuxDiT vor, einen neuartigen datengetriebenen Ansatz, der einen Video-Diffusion-Transformer feinabstimmt, um HDR-Umgebungsmaps basierend auf visuellen Eingaben zu generieren. Unser Modell, das auf einem großen synthetischen Datensatz mit verschiedenen Beleuchtungsbedingungen trainiert wurde, lernt, Beleuchtung aus indirekten visuellen Hinweisen zu inferieren und generalisiert effektiv auf reale Szenen. Um die semantische Ausrichtung zwischen der Eingabe und der vorhergesagten Umgebungsmap zu verbessern, führen wir eine Feinabstimmungsstrategie mit niedrigem Rang unter Verwendung eines gesammelten Datensatzes von HDR-Panoramen ein. Unsere Methode liefert präzise Beleuchtungsvorhersagen mit realistischen hochfrequenten Winkeldetails und übertrifft bestehende state-of-the-art-Techniken sowohl in quantitativen als auch in qualitativen Bewertungen.
Jüngste Fortschritte bei Multimodalen Großen Sprachmodellen (MLLMs) haben beeindruckende Fähigkeiten in verschiedenen Vision-Sprache-Aufgaben demonstriert. Ihre Fähigkeiten im Bereich des multimodalen symbolischen Musizierens bleiben jedoch weitgehend unerforscht. Wir stellen WildScore vor, den ersten Benchmark für multimodales symbolisches Musikverständnis und -analyse in realen Anwendungen, der entwickelt wurde, um die Fähigkeit von MLLMs zu bewerten, reale Musikpartituren zu interpretieren und komplexe musikologische Fragen zu beantworten. Jede Instanz in WildScore stammt aus authentischen musikalischen Kompositionen und wird von echten, von Nutzern generierten Fragen und Diskussionen begleitet, die die Feinheiten der praktischen Musikanalyse erfassen. Um eine systematische Bewertung zu ermöglichen, schlagen wir eine systematische Taxonomie vor, die sowohl hochrangige als auch feingranulare musikologische Ontologien umfasst. Darüber hinaus formulieren wir komplexes musikalisches Verständnis als Multiple-Choice-Fragen, was eine kontrollierte und skalierbare Bewertung des symbolischen Musikverständnisses von MLLMs ermöglicht. Empirische Benchmarking-Ergebnisse von state-of-the-art MLLMs auf WildScore zeigen interessante Muster in ihrem visuell-symbolischen Denken auf und decken sowohl vielversprechende Richtungen als auch anhaltende Herausforderungen für MLLMs im Bereich des symbolischen Musikverständnisses und der -analyse auf. Wir veröffentlichen den Datensatz und den Code.
Aktuelle Forschungen konzentrieren sich zunehmend auf die Entwicklung von 3D-Weltmodellen, die komplexe reale Szenarien simulieren. Weltmodelle finden breite Anwendungen in verschiedenen Bereichen, einschließlich verkörperter KI, autonomen Fahrens, Unterhaltung usw. Eine realistischere Simulation mit präziser Physik wird die Lücke zwischen Simulation und Realität effektiv verringern und es ermöglichen, umfangreiche Informationen über die reale Welt bequem zu sammeln. Während traditionelle manuelle Modellierung die Erstellung virtueller 3D-Szenen ermöglicht hat, nutzen moderne Ansätze fortschrittliche maschinelle Lernalgorithmen zur 3D-Weltgenerierung, wobei die jüngsten Fortschritte auf generativen Methoden basieren, die virtuelle Welten basierend auf Benutzeranweisungen erstellen können. Diese Arbeit untersucht eine solche Forschungsrichtung, indem sie LatticeWorld vorschlägt, ein einfaches, aber effektives 3D-Weltgenerierungsframework, das den industriellen Produktionsprozess von 3D-Umgebungen optimiert. LatticeWorld nutzt leistungsstarke LLMs (LLaMA-2-7B) in Verbindung mit einer branchenüblichen Rendering-Engine (z. B. Unreal Engine 5), um eine dynamische Umgebung zu generieren. Unser vorgeschlagenes Framework akzeptiert textuelle Beschreibungen und visuelle Anweisungen als multimodale Eingaben und erstellt großflächige 3D-interaktive Welten mit dynamischen Agenten, die sich durch wettbewerbsfähige Multi-Agenten-Interaktion, hochwertige Physiksimulation und Echtzeit-Rendering auszeichnen. Wir führen umfassende Experimente durch, um LatticeWorld zu evaluieren, und zeigen, dass es eine überlegene Genauigkeit bei der Generierung von Szenenlayouts und visueller Treue erreicht. Darüber hinaus erzielt LatticeWorld im Vergleich zu traditionellen manuellen Produktionsmethoden eine mehr als 90-fache Steigerung der industriellen Produktionseffizienz bei gleichbleibend hoher kreativer Qualität. Unser Demo-Video ist unter https://youtu.be/8VWZXpERR18 verfügbar.
Wir präsentieren WinT3R, ein Feedforward-Rekonstruktionsmodell, das in der Lage ist, präzise Kameraposen und hochwertige Punktkarten online vorherzusagen. Bisherige Methoden leiden unter einem Kompromiss zwischen Rekonstruktionsqualität und Echtzeitleistung. Um dies zu adressieren, führen wir zunächst einen Sliding-Window-Mechanismus ein, der einen ausreichenden Informationsaustausch zwischen den Frames innerhalb des Fensters gewährleistet und dadurch die Qualität der geometrischen Vorhersagen ohne großen Rechenaufwand verbessert. Zusätzlich nutzen wir eine kompakte Darstellung der Kameras und pflegen einen globalen Kameratoken-Pool, was die Zuverlässigkeit der Kameraposenschätzung erhöht, ohne die Effizienz zu beeinträchtigen. Diese Konzepte ermöglichen es WinT3R, Spitzenleistungen in Bezug auf die Online-Rekonstruktionsqualität, Kameraposenschätzung und Rekonstruktionsgeschwindigkeit zu erzielen, wie durch umfangreiche Experimente auf verschiedenen Datensätzen bestätigt wird. Code und Modell sind öffentlich unter https://github.com/LiZizun/WinT3R verfügbar.
Fortschritte in vielen Aufgabenbereichen entstehen durch wiederholte Überarbeitungen früherer Lösungsversuche. Das Training von Agenten, die zuverlässig in der Lage sind, sich über solche Sequenzen zur Inferenzzeit selbst zu verbessern, ist ein natürliches Ziel für Reinforcement Learning (RL). Der naive Ansatz geht jedoch von einer festen maximalen Iterationstiefe aus, was sowohl kostspielig als auch willkürlich sein kann. Wir stellen Exploratory Iteration (ExIt) vor, eine Familie von Autocurriculum-RL-Methoden, die die wiederkehrende Struktur von Selbstverbesserungsaufgaben direkt nutzt, um LLMs für mehrstufige Selbstverbesserung zur Inferenzzeit zu trainieren, während nur die informativsten einstufigen Iterationen verwendet werden. ExIt erweitert einen Aufgabenraum, indem es selektiv die informativsten Zwischenzustände und partiellen Verläufe, die während einer Episode auftreten, für weitere Iterationen auswählt und diese Ausgangspunkte als neue Instanzen von Selbstiterationsaufgaben behandelt, um eine Selbstverbesserungsstrategie zu trainieren. ExIt kann zudem mit expliziten Explorationsmechanismen kombiniert werden, um eine größere Aufgabenvielfalt zu erhalten. In mehreren Bereichen, darunter Wettbewerbsmathematik, mehrstufige Werkzeugnutzung und maschinelles Lernen in der Ingenieurwissenschaft, zeigen wir, dass ExIt-Strategien, ausgehend von einer einzelnen oder mehreren Aufgabeninstanzen, Strategien hervorbringen können, die eine starke Selbstverbesserung zur Inferenzzeit bei zurückgehaltenen Aufgabeninstanzen aufweisen und die Fähigkeit besitzen, über ein Schrittbudget hinaus, das die durchschnittliche Iterationstiefe während des Trainings übersteigt, zu höherer Leistung zu iterieren.
Aktuelle Benchmarks für Large Language Models (LLMs) konzentrieren sich hauptsächlich auf Leistungsmetriken und erfassen oft nicht die nuancierten Verhaltensmerkmale, die sie unterscheiden. Dieses Papier stellt ein neuartiges „Behavioral Fingerprinting“-Framework vor, das über traditionelle Evaluierungen hinausgeht, indem es ein vielschichtiges Profil der intrinsischen kognitiven und interaktiven Stile eines Modells erstellt. Mithilfe einer kuratierten Diagnostischen Prompt-Suite und einer innovativen, automatisierten Evaluierungspipeline, in der ein leistungsstarkes LLM als unparteiischer Richter fungiert, analysieren wir achtzehn Modelle über verschiedene Fähigkeitsstufen hinweg. Unsere Ergebnisse zeigen eine kritische Divergenz in der LLM-Landschaft: Während Kernfähigkeiten wie abstraktes und kausales Denken bei den Top-Modellen konvergieren, variieren ausrichtungsbezogene Verhaltensweisen wie Sykophantie und semantische Robustheit erheblich. Wir dokumentieren weiterhin eine clusterübergreifende Standard-Persona (ISTJ/ESTJ), die wahrscheinlich gemeinsame Ausrichtungsanreize widerspiegelt. Zusammengenommen deutet dies darauf hin, dass die interaktive Natur eines Modells keine emergente Eigenschaft seiner Skalierung oder Denkfähigkeit ist, sondern eine direkte Konsequenz spezifischer und stark variabler Entwicklerausrichtungsstrategien. Unser Framework bietet eine reproduzierbare und skalierbare Methodik, um diese tiefgreifenden Verhaltensunterschiede aufzudecken. Projekt: https://github.com/JarvisPei/Behavioral-Fingerprinting
Die Effektivität von Large Language Models (LLMs) wird üblicherweise anhand von Benchmarks wie MMLU, ARC-C oder HellaSwag bewertet, bei denen Fragen in ihrer ursprünglichen Formulierung und somit in einem festen, standardisierten Format präsentiert werden. In realen Anwendungen ist jedoch sprachliche Variabilität vorhanden, was erfordert, dass Modelle ihre Effektivität über verschiedene Umformulierungen derselben Frage oder Anfrage hinweg beibehalten. In dieser Studie bewerten wir systematisch die Robustheit von LLMs gegenüber umformulierten Benchmark-Fragen und untersuchen, ob Benchmark-basierte Bewertungen ein zuverlässiges Maß für die Fähigkeiten von Modellen darstellen. Wir generieren systematisch verschiedene Paraphrasen aller Fragen aus sechs verschiedenen gängigen Benchmarks und messen die daraus resultierenden Variationen in der Effektivität von 34 state-of-the-art LLMs unterschiedlicher Größe und Effektivität. Unsere Ergebnisse zeigen, dass die Rangfolge der LLMs bei umformulierten Eingaben relativ stabil bleibt, die absoluten Effektivitätswerte sich jedoch ändern und signifikant sinken. Dies deutet darauf hin, dass LLMs mit sprachlicher Variabilität zu kämpfen haben, was Bedenken hinsichtlich ihrer Generalisierungsfähigkeiten und Bewertungsmethoden aufwirft. Darüber hinaus stellt der beobachtete Leistungsabfall die Zuverlässigkeit von Benchmark-basierten Bewertungen in Frage und deutet darauf hin, dass hohe Benchmark-Werte möglicherweise nicht vollständig die Robustheit eines Modells gegenüber realen Eingabevariationen erfassen. Wir diskutieren die Implikationen dieser Erkenntnisse für die Bewertungsmethoden von LLMs und betonen die Notwendigkeit von Robustheits-orientierten Benchmarks, die praktische Einsatzszenarien besser widerspiegeln.
Radiologische Diagnosefehler – Unterlesefehler, Unaufmerksamkeitsblindheit und Kommunikationsprobleme – bleiben in der klinischen Praxis weit verbreitet. Diese Probleme resultieren häufig aus übersehenen lokalen Anomalien, begrenztem globalem Kontext und Variabilität in der Berichtssprache. Diese Herausforderungen werden in der 3D-Bildgebung noch verstärkt, wo Kliniker Hunderte von Schichten pro Scan untersuchen müssen. Um diese zu bewältigen, sind Systeme erforderlich, die eine präzise lokale Detektion, globales volumetrisches Denken und semantisch konsistente natürliche Sprachberichterstattung ermöglichen. Bisherige 3D-Vision-Language-Modelle können jedoch nicht alle drei Anforderungen gleichzeitig erfüllen, da ihnen das lokale und globale Verständnis für räumliches Denken fehlt und sie mit der Variabilität und dem Rauschen ungefilterter radiologischer Berichte kämpfen. Wir stellen MedVista3D vor, ein mehrstufiges, semantisch angereichertes Vision-Language-Pretraining-Framework für die 3D-CT-Analyse. Um eine gemeinsame Krankheitserkennung und ganzheitliche Interpretation zu ermöglichen, führt MedVista3D eine lokale und globale Bild-Text-Ausrichtung für feinkörnige Repräsentationslernprozesse im Kontext des gesamten Volumens durch. Um die Variabilität der Berichte zu bewältigen, wenden wir Sprachmodell-Rewrites an und führen eine Radiology Semantic Matching Bank für eine semantikbewusste Ausrichtung ein. MedVista3D erzielt Spitzenleistungen bei der Zero-Shot-Krankheitsklassifikation, Berichtsabfrage und medizinischen visuellen Fragebeantwortung und überträgt sich gut auf Organsegmentierung und Prognosevorhersage. Code und Datensätze werden veröffentlicht.
Wir stellen U-Arm vor, ein kostengünstiges und schnell anpassbares Leader-Follower-Teleoperationsframework, das für die Anbindung an die meisten kommerziell erhältlichen Roboterarme konzipiert ist. Unser System unterstützt die Teleoperation durch drei strukturell unterschiedliche, 3D-gedruckte Leader-Arme, die eine konsistente Steuerungslogik teilen und somit nahtlose Kompatibilität mit verschiedenen kommerziellen Roboter-Konfigurationen ermöglichen. Im Vergleich zu früheren Open-Source-Leader-Follower-Schnittstellen haben wir sowohl das mechanische Design als auch die Servo-Auswahl weiter optimiert, wodurch wir eine Materialkostenliste (BOM) von nur 50,5 € für den 6-DoF-Leader-Arm und 56,8 € für die 7-DoF-Version erreichen. Um die Benutzerfreundlichkeit zu verbessern, mildern wir die häufige Herausforderung bei der Steuerung redundanter Freiheitsgrade durch mechanische und regelungstechnische Optimierungen. Experimentelle Ergebnisse zeigen, dass U-Arm im Vergleich zu Joycon, einer weiteren kostengünstigen Teleoperationsschnittstelle, eine um 39 % höhere Datenerfassungseffizienz und vergleichbare Aufgaben-Erfolgsraten in mehreren Manipulationsszenarien erreicht. Wir haben alle CAD-Modelle der drei Konfigurationen als Open Source veröffentlicht und auch Simulationsunterstützung zur Validierung von Teleoperations-Workflows bereitgestellt. Zudem haben wir reale Manipulationsdaten, die mit U-Arm gesammelt wurden, als Open Source veröffentlicht. Die Projektwebsite ist https://github.com/MINT-SJTU/LeRobot-Anything-U-Arm.