Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Multimodale Basismodelle wie GPT-4o haben in letzter Zeit bemerkenswerte Fortschritte gemacht, aber es ist unklar, wo genau diese Modelle in Bezug auf das Verständnis von visuellen Informationen stehen. In diesem Artikel evaluieren wir die Leistung populärer multimodaler Basismodelle (GPT-4o, o4-mini, Gemini 1.5 Pro und Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2) in Standardaufgaben der Computer Vision (semantische Segmentierung, Objekterkennung, Bildklassifizierung, Tiefen- und Oberflächennormalen-Vorhersage) unter Verwendung etablierter Datensätze (z. B. COCO, ImageNet und dessen Varianten usw.). Die Hauptherausforderungen bei dieser Bewertung sind: 1) Die meisten Modelle sind darauf trainiert, Text auszugeben, und können daher vielseitige Domänen wie Segmente oder 3D-Geometrie nicht nativ darstellen, und 2) viele führende Modelle sind proprietär und nur auf API-Ebene zugänglich, d. h., es gibt keinen Zugriff auf die Gewichte, um sie anzupassen. Wir adressieren diese Herausforderungen, indem wir Standard-Vision-Aufgaben in äquivalente, textbasierte und API-kompatible Aufgaben übersetzen, indem wir Prompt-Chaining verwenden, um ein standardisiertes Benchmarking-Framework zu erstellen. Wir beobachten, dass 1) die Modelle in keiner Aufgabe an den Stand der Technik spezialisierter Modelle heranreichen. Allerdings sind 2) sie respektable Generalisten; dies ist bemerkenswert, da sie vermutlich hauptsächlich auf bild-text-basierten Aufgaben trainiert wurden. 3) Sie schneiden bei semantischen Aufgaben deutlich besser ab als bei geometrischen. 4) Während Prompt-Chaining-Techniken die Leistung beeinflussen, zeigen bessere Modelle eine geringere Empfindlichkeit gegenüber Prompt-Variationen. 5) GPT-4o schneidet unter den nicht-reasoning-Modellen am besten ab und sichert sich in 4 von 6 Aufgaben den Spitzenplatz. 6) Reasoning-Modelle, z. B. o3, zeigen Verbesserungen bei geometrischen Aufgaben, und 7) eine vorläufige Analyse von Modellen mit nativer Bildgenerierung, wie das neueste GPT-4o, zeigt, dass sie Eigenheiten wie Halluzinationen und räumliche Fehlausrichtungen aufweisen.
Die hohen Rechenkosten von Diffusionsmodellen bei der Inferenz behindern ihre Verwendung als schnelle Physik-Emulatoren. Im Kontext der Bild- und Videogenerierung wurde dieser rechnerische Nachteil dadurch angegangen, dass die Generierung im latenten Raum eines Autoencoders statt im Pixelraum erfolgt. In dieser Arbeit untersuchen wir, ob eine ähnliche Strategie effektiv auf die Emulation dynamischer Systeme angewendet werden kann und mit welchen Kosten dies verbunden ist. Wir stellen fest, dass die Genauigkeit der Emulation im latenten Raum überraschend robust gegenüber einer breiten Palette von Kompressionsraten (bis zu 1000x) ist. Wir zeigen auch, dass diffusionsbasierte Emulatoren durchweg genauer sind als nicht-generative Gegenstücke und Unsicherheiten in ihren Vorhersagen durch eine größere Vielfalt ausgleichen. Schließlich behandeln wir praktische Designentscheidungen, von Architekturen bis hin zu Optimierern, die sich als entscheidend für das Training von Emulatoren im latenten Raum erwiesen haben.
Die rasante Weiterentwicklung von Large Language Models (LLMs) hat den Bedarf an Bewertungsrahmen verstärkt, die über englischzentrierte Benchmarks hinausgehen und die Anforderungen linguistisch vielfältiger Regionen wie Indien adressieren. Wir präsentieren EKA-EVAL, einen einheitlichen und produktionsreifen Bewertungsrahmen, der über 35 Benchmarks integriert, darunter 10 indienspezifische Datensätze, die Kategorien wie logisches Denken, Mathematik, Werkzeugnutzung, Langzeitkontextverständnis und Leseverständnis abdecken. Im Vergleich zu bestehenden Bewertungstools für indische Sprachen bietet EKA-EVAL eine breitere Benchmark-Abdeckung mit integrierter Unterstützung für verteilte Inferenz, Quantisierung und Multi-GPU-Nutzung. Unsere systematische Vergleichsstudie positioniert EKA-EVAL als das erste end-to-end, erweiterbare Bewertungssystem, das sowohl für globale als auch für indische LLMs maßgeschneidert ist und die Barriere für mehrsprachige Benchmarking erheblich senkt. Das Framework ist Open-Source und öffentlich verfügbar unter https://github.com/lingo-iitgn/eka-eval und Teil der laufenden EKA-Initiative (https://eka.soket.ai), die darauf abzielt, auf über 100 Benchmarks zu skalieren und ein robustes, mehrsprachiges Bewertungsökosystem für LLMs zu etablieren.
Die Bewertung kreativer Texte, die von großen Sprachmodellen (LLMs) generiert werden, bleibt eine Herausforderung, da offene Erzählungen keine festen Bezugspunkte (Ground Truths) bieten. Ohne leistungsfähige automatisierte Bewertungsmethoden werden Standard-Sprachmodelle (off-the-shelf, OTS) als Zero-Shot-Bewerter eingesetzt, doch deren Zuverlässigkeit in diesem Kontext ist unklar. Um eine robuste Bewertung kreativer Texte zu ermöglichen, führen wir LitBench ein, den ersten standardisierten Benchmark und gepaarten Datensatz für die Überprüfung kreativer Texte. Dieser umfasst einen zurückgehaltenen Testdatensatz mit 2.480 entzerrten, von Menschen bewerteten Geschichtenvergleichen aus Reddit sowie ein Trainingskorpus mit 43.827 Paaren von menschlichen Präferenzlabels. Mit LitBench (i) benchmarken wir Zero-Shot-LLM-Bewerter, (ii) trainieren Bradley-Terry- und generative Belohnungsmodelle und (iii) führen eine Online-Studie mit menschlichen Teilnehmern durch, um die Rangfolgen der Belohnungsmodelle bei neu generierten LLM-Geschichten zu validieren. Unser Benchmark identifiziert Claude-3.7-Sonnet als den stärksten Standard-Bewerter, der eine Übereinstimmung von 73 % mit menschlichen Präferenzen erreicht; unter den trainierten Belohnungsmodellen erzielen sowohl Bradley-Terry- als auch generative Belohnungsmodelle eine Genauigkeit von 78 % und übertreffen damit alle Standard-Bewerter. Eine Online-Studie mit menschlichen Teilnehmern bestätigt weiterhin, dass unsere trainierten Belohnungsmodelle in neu generierten LLM-Geschichten konsistent mit menschlichen Präferenzen übereinstimmen. Wir veröffentlichen LitBench und die Belohnungsmodelle unter https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461 und bieten damit eine geprüfte Ressource für die zuverlässige, automatisierte Bewertung und Optimierung kreativer Schreibsysteme.