Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos InternVL 3.5, una nueva familia de modelos multimodales de código abierto que avanza significativamente en versatilidad, capacidad de razonamiento y eficiencia de inferencia dentro de la serie InternVL. Una innovación clave es el marco de Aprendizaje por Refuerzo en Cascada (Cascade RL), que mejora el razonamiento mediante un proceso de dos etapas: RL fuera de línea para una convergencia estable y RL en línea para un alineamiento refinado. Esta estrategia de entrenamiento de lo general a lo específico conduce a mejoras sustanciales en tareas de razonamiento posteriores, como MMMU y MathVista. Para optimizar la eficiencia, proponemos un Enrutador de Resolución Visual (ViR) que ajusta dinámicamente la resolución de los tokens visuales sin comprometer el rendimiento. Junto con ViR, nuestra estrategia de Despliegue Desacoplado Visión-Lenguaje (DvD) separa el codificador visual y el modelo de lenguaje en diferentes GPUs, equilibrando eficazmente la carga computacional. Estas contribuciones permiten colectivamente que InternVL3.5 logre una mejora de hasta +16.0% en el rendimiento general de razonamiento y una aceleración de 4.05 veces en la inferencia en comparación con su predecesor, es decir, InternVL3. Además, InternVL3.5 admite capacidades novedosas como la interacción con interfaces gráficas y la agencia encarnada. Cabe destacar que nuestro modelo más grande, es decir, InternVL3.5-241B-A28B, alcanza resultados de vanguardia entre los MLLMs de código abierto en tareas multimodales generales, de razonamiento, de texto y de agencia, reduciendo la brecha de rendimiento con modelos comerciales líderes como GPT-5. Todos los modelos y el código se han publicado públicamente.
A pesar del progreso prometedor de los modelos autorregresivos recientes en la generación de texto a imagen (T2I), su capacidad para manejar indicaciones con múltiples atributos y ambiguas sigue siendo limitada. Para abordar estas limitaciones, trabajos existentes han aplicado el enfoque de cadena de pensamiento (CoT) para permitir una síntesis visual consciente de las etapas y han empleado el aprendizaje por refuerzo (RL) para mejorar las capacidades de razonamiento. Sin embargo, la mayoría de los modelos proporcionan señales de recompensa únicamente al final de la etapa de generación. Esta guía monolítica y exclusivamente final dificulta la identificación de las etapas que contribuyen positivamente al resultado final y puede conducir a políticas subóptimas. Para resolver este problema, proponemos un paradigma de Cadena Visual de Guía (Visual-CoG) que consta de tres etapas: razonamiento semántico, refinamiento del proceso y evaluación del resultado, con recompensas conscientes de las etapas que proporcionan orientación inmediata a lo largo del proceso de generación de imágenes. Además, construimos un punto de referencia de cognición visual, VisCog-Bench, que comprende cuatro subtareas para evaluar la efectividad del razonamiento semántico. Evaluaciones exhaustivas en GenEval, T2I-CompBench y el propuesto VisCog-Bench muestran mejoras del 15%, 5% y 19%, respectivamente, demostrando el rendimiento superior del Visual-CoG propuesto. Pronto liberaremos todos los recursos.
Los enfoques de generación de texto a 3D han avanzado significativamente al aprovechar priores de difusión 2D preentrenados, produciendo resultados de alta calidad y consistentes en 3D. Sin embargo, a menudo fallan al generar conceptos fuera del dominio (OOD, por sus siglas en inglés) o raros, lo que resulta en inconsistencias o imprecisiones. Para abordar este problema, proponemos MV-RAG, una novedosa pipeline de texto a 3D que primero recupera imágenes 2D relevantes de una amplia base de datos de imágenes 2D en entornos naturales y luego condiciona un modelo de difusión multivista en estas imágenes para sintetizar resultados multivista consistentes y precisos. El entrenamiento de un modelo condicionado por recuperación se logra mediante una estrategia híbrida novedosa que combina datos multivista estructurados y colecciones diversas de imágenes 2D. Esto implica entrenar con datos multivista utilizando vistas de condicionamiento aumentadas que simulan la variabilidad de recuperación para la reconstrucción específica de la vista, junto con el entrenamiento en conjuntos de imágenes 2D reales recuperadas utilizando un objetivo distintivo de predicción de vista excluida: el modelo predice la vista excluida a partir de las otras vistas para inferir consistencia 3D a partir de datos 2D. Para facilitar una evaluación rigurosa de OOD, introducimos una nueva colección de indicaciones OOD desafiantes. Los experimentos comparados con los métodos más avanzados de texto a 3D, imagen a 3D y personalización muestran que nuestro enfoque mejora significativamente la consistencia 3D, el fotorrealismo y la adherencia al texto para conceptos OOD/raros, manteniendo un rendimiento competitivo en benchmarks estándar.
Proponemos T2I-ReasonBench, un punto de referencia que evalúa las capacidades de razonamiento de los modelos de texto a imagen (T2I). Consta de cuatro dimensiones: Interpretación de Modismos, Diseño de Imagen Textual, Razonamiento sobre Entidades y Razonamiento Científico. Proponemos un protocolo de evaluación en dos etapas para valorar la precisión del razonamiento y la calidad de la imagen. Evaluamos varios modelos de generación T2I y ofrecemos un análisis exhaustivo de sus desempeños.
Los avances recientes en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han destacado el potencial del Aprendizaje por Refuerzo (RL, por sus siglas en inglés) para facilitar la emergencia de capacidades de razonamiento. A pesar de los resultados alentadores, persiste un dilema fundamental, ya que la mejora del RL depende del aprendizaje a partir de muestras de alta calidad, mientras que la exploración de dichas muestras sigue limitada por las restricciones inherentes de los LLMs. Esto, en efecto, crea un ciclo indeseable en el que lo que no puede ser explorado no puede ser aprendido. En este trabajo, proponemos el Aprendizaje por Refuerzo con Andamiaje de Rúbricas (RuscaRL, por sus siglas en inglés), un novedoso marco de andamiaje instruccional diseñado para superar el cuello de botella en la exploración del razonamiento general de los LLMs. Específicamente, RuscaRL introduce rúbricas en forma de lista de verificación como (1) un andamiaje explícito para la exploración durante la generación de respuestas, donde se proporcionan diferentes rúbricas como guía externa dentro de las instrucciones de la tarea para dirigir respuestas diversas y de alta calidad. Esta guía se reduce gradualmente con el tiempo, fomentando que el modelo internalice los patrones de razonamiento subyacentes; (2) recompensas verificables para la explotación durante el entrenamiento del modelo, donde podemos obtener puntuaciones robustas de "LLM como Juez" utilizando las rúbricas como referencia, permitiendo un RL efectivo en tareas de razonamiento general. Experimentos extensos demuestran la superioridad del RuscaRL propuesto en varios puntos de referencia, expandiendo efectivamente los límites del razonamiento bajo la evaluación del mejor de N. Notablemente, RuscaRL incrementa significativamente el rendimiento de Qwen-2.5-7B-Instruct de 23.6 a 50.3 en HealthBench-500, superando a GPT-4.1. Además, nuestra variante ajustada en Qwen3-30B-A3B-Instruct alcanza 61.1 en HealthBench-500, superando a los principales LLMs, incluido OpenAI-o3.
El razonamiento es una capacidad fundamental de los modelos de lenguaje de gran escala, sin embargo, comprender cómo aprenden y realizan razonamientos de múltiples pasos sigue siendo un problema abierto. En este estudio, exploramos cómo diferentes arquitecturas y métodos de entrenamiento afectan las capacidades de razonamiento de múltiples pasos de los modelos dentro de un marco de autómatas celulares. Al entrenar con secuencias de estados generadas mediante funciones booleanas aleatorias para condiciones iniciales aleatorias, con el fin de excluir la memorización, demostramos que la mayoría de las arquitecturas neuronales aprenden a abstraer las reglas subyacentes. Aunque los modelos alcanzan una alta precisión en la predicción del siguiente estado, su rendimiento disminuye drásticamente si se requiere razonamiento de múltiples pasos. Confirmamos que aumentar la profundidad del modelo juega un papel crucial para los cálculos secuenciales. Demostramos que una extensión de la profundidad efectiva del modelo con recurrencia, memoria y escalado de cómputo en tiempo de prueba mejora sustancialmente las capacidades de razonamiento.
Los sistemas multiagente basados en grandes modelos de lenguaje (LLMs, por sus siglas en inglés) han demostrado capacidades notables para abordar tareas complejas y composicionales. En este trabajo, aplicamos este paradigma al problema de generación de pósteres a partir de artículos, un proceso práctico pero que consume mucho tiempo y que enfrentan los investigadores al prepararse para conferencias. Si bien enfoques recientes han intentado automatizar esta tarea, la mayoría descuidan principios fundamentales de diseño y estética, lo que resulta en pósteres que requieren un refinamiento manual sustancial. Para abordar estas limitaciones de diseño, proponemos PosterGen, un marco multiagente que imita el flujo de trabajo de diseñadores profesionales de pósteres. Este consta de cuatro agentes especializados que colaboran: (1) los agentes Parser y Curator extraen contenido del artículo y organizan el guion gráfico; (2) el agente Layout mapea el contenido en una disposición espacial coherente; (3) los agentes Stylist aplican elementos de diseño visual como color y tipografía; y (4) el Renderer compone el póster final. Juntos, estos agentes producen pósteres que son tanto semánticamente sólidos como visualmente atractivos. Para evaluar la calidad del diseño, introducimos una rúbrica basada en un modelo de visión y lenguaje (VLM, por sus siglas en inglés) que mide el equilibrio del diseño, la legibilidad y la coherencia estética. Los resultados experimentales muestran que PosterGen iguala consistentemente en fidelidad de contenido y supera significativamente a los métodos existentes en diseño visual, generando pósteres listos para presentación con refinamientos humanos mínimos.
Los puntos de referencia moldean el progreso en la investigación de IA. Un punto de referencia útil debe ser tanto difícil como realista: las preguntas deben desafiar a los modelos de vanguardia mientras también reflejan el uso en el mundo real. Sin embargo, los paradigmas actuales enfrentan una tensión entre dificultad y realismo: los puntos de referencia de estilo examen a menudo se hacen artificialmente difíciles con un valor limitado en el mundo real, mientras que los puntos de referencia basados en la interacción real de los usuarios tienden a inclinarse hacia problemas fáciles y de alta frecuencia. En este trabajo, exploramos un paradigma radicalmente diferente: evaluar modelos en preguntas no resueltas. En lugar de un punto de referencia estático calificado una vez, seleccionamos preguntas no resueltas y evaluamos los modelos de manera asíncrona a lo largo del tiempo con un filtrado asistido por validadores y verificación comunitaria. Presentamos UQ, un banco de pruebas de 500 preguntas desafiantes y diversas obtenidas de Stack Exchange, que abarcan temas desde teoría de la computación y matemáticas hasta ciencia ficción e historia, explorando capacidades como el razonamiento, la factualidad y la navegación. UQ es difícil y realista por diseño: las preguntas no resueltas suelen ser difíciles y surgen naturalmente cuando los humanos buscan respuestas, por lo que resolverlas ofrece un valor directo en el mundo real. Nuestras contribuciones son tres: (1) UQ-Dataset y su pipeline de recopilación que combina filtros basados en reglas, jueces de LLM y revisión humana para garantizar la calidad de las preguntas (por ejemplo, bien definidas y difíciles); (2) UQ-Validators, estrategias de validación compuestas que aprovechan la brecha entre generador y validador para proporcionar señales de evaluación y preseleccionar soluciones candidatas para revisión humana; y (3) UQ-Platform, una plataforma abierta donde los expertos verifican colectivamente preguntas y soluciones. El mejor modelo pasa la validación de UQ en solo el 15% de las preguntas, y la verificación humana preliminar ya ha identificado respuestas correctas entre las que pasaron. UQ traza un camino para evaluar modelos de vanguardia en desafíos abiertos del mundo real, donde el éxito empuja la frontera del conocimiento humano. Publicamos UQ en https://uq.stanford.edu.
Los avances recientes en los grandes modelos de visión y lenguaje (VLMs, por sus siglas en inglés) se han centrado principalmente en el inglés, con una atención limitada hacia otros idiomas. Para abordar esta brecha, presentamos MEENA (también conocido como PersianMMMU), el primer conjunto de datos diseñado para evaluar VLMs en persa en tareas de comprensión científica, razonamiento y nivel humano. Nuestro conjunto de datos incluye aproximadamente 7,500 preguntas en persa y 3,000 en inglés, abarcando una amplia gama de temas como razonamiento, matemáticas, física, diagramas, gráficos, y arte y literatura persa. Las características clave de MEENA incluyen: (1) cobertura diversa de temas que abarcan varios niveles educativos, desde la primaria hasta la secundaria superior, (2) metadatos detallados, que incluyen niveles de dificultad y respuestas descriptivas, (3) datos originales en persa que preservan matices culturales, (4) una estructura bilingüe para evaluar el rendimiento cruzado entre idiomas, y (5) una serie de experimentos diversos que evalúan diversas capacidades, incluyendo el rendimiento general, la capacidad del modelo para atender a imágenes y su tendencia a generar alucinaciones. Esperamos que este benchmark contribuya a mejorar las capacidades de los VLMs más allá del inglés.
El razonamiento visual composicional ha surgido como una frontera clave de investigación en la IA multimodal, con el objetivo de dotar a las máquinas de la capacidad humana para descomponer escenas visuales, fundamentar conceptos intermedios y realizar inferencias lógicas de múltiples pasos. Mientras que las primeras revisiones se centran en modelos monolíticos de visión y lenguaje o en el razonamiento multimodal general, aún falta una síntesis dedicada de la literatura en rápida expansión sobre el razonamiento visual composicional. Llenamos este vacío con una revisión exhaustiva que abarca de 2023 a 2025 y que revisa sistemáticamente más de 260 artículos de los principales eventos (CVPR, ICCV, NeurIPS, ICML, ACL, etc.). Primero formalizamos las definiciones centrales y describimos por qué los enfoques composicionales ofrecen ventajas en alineación cognitiva, fidelidad semántica, robustez, interpretabilidad y eficiencia de datos. A continuación, trazamos un cambio de paradigma en cinco etapas: desde pipelines centrados en el lenguaje mejorados con indicaciones, pasando por LLMs mejorados con herramientas y VLMs mejorados con herramientas, hasta el razonamiento de cadena de pensamiento recientemente acuñado y los VLMs agentes unificados, destacando sus diseños arquitectónicos, fortalezas y limitaciones. Luego, catalogamos más de 60 benchmarks y las métricas correspondientes que exploran el razonamiento visual composicional en dimensiones como la precisión de fundamentación, la fidelidad de la cadena de pensamiento y la percepción de alta resolución. Basándonos en estos análisis, destilamos ideas clave, identificamos desafíos abiertos (por ejemplo, limitaciones del razonamiento basado en LLM, alucinaciones, un sesgo hacia el razonamiento deductivo, supervisión escalable, integración de herramientas y limitaciones de los benchmarks) y esbozamos direcciones futuras, incluyendo la integración de modelos del mundo, el razonamiento colaborativo humano-IA y protocolos de evaluación más ricos. Al ofrecer una taxonomía unificada, una hoja de ruta histórica y una perspectiva crítica, esta revisión pretende servir como una referencia fundamental e inspirar la próxima generación de investigación en razonamiento visual composicional.
Los tokenizadores de voz sirven como componentes fundamentales para los modelos de lenguaje de voz, sin embargo, los diseños actuales presentan varias limitaciones, incluyendo: 1) dependencia de estructuras de cuantización vectorial residual multicapa o altas tasas de fotogramas, 2) dependencia de modelos preentrenados auxiliares para la destilación semántica, y 3) requisitos de procesos de entrenamiento complejos en dos etapas. En este trabajo, presentamos el Codec de Voz con Transformador de Difusión Consciente del Texto (TaDiCodec), un enfoque novedoso diseñado para superar estos desafíos. TaDiCodec emplea optimización de extremo a extremo para la cuantización y reconstrucción a través de un autoencoder de difusión, mientras integra guía textual en el decodificador de difusión para mejorar la calidad de la reconstrucción y lograr una compresión óptima. TaDiCodec alcanza una tasa de fotogramas extremadamente baja de 6.25 Hz y una tasa de bits correspondiente de 0.0875 kbps con un libro de códigos de una sola capa para voz de 24 kHz, manteniendo un rendimiento superior en métricas críticas de evaluación de generación de voz como la Tasa de Error de Palabras (WER), la similitud del hablante (SIM) y la calidad del habla (UTMOS). Notablemente, TaDiCodec emplea un paradigma de entrenamiento de una sola etapa y de extremo a extremo, eliminando la necesidad de modelos preentrenados auxiliares. También validamos la compatibilidad de TaDiCodec en la síntesis de voz de texto a voz basada en modelos de lenguaje con cero ejemplos, tanto con modelado autoregresivo como con modelado generativo enmascarado, demostrando su eficacia y eficiencia para el modelado de lenguaje de voz, así como una brecha de reconstrucción-generación significativamente pequeña. Publicaremos nuestro código y puntos de control del modelo. Las muestras de audio están disponibles en https://tadicodec.github.io/. Publicamos el código y los puntos de control del modelo en https://github.com/HeCheng0625/Diffusion-Speech-Tokenizer.
Las tablas semiestructuradas, ampliamente utilizadas en aplicaciones del mundo real (por ejemplo, informes financieros, registros médicos, órdenes transaccionales), suelen involucrar diseños flexibles y complejos (por ejemplo, encabezados jerárquicos y celdas fusionadas). Estas tablas generalmente dependen de analistas humanos para interpretar los diseños de las tablas y responder a preguntas relevantes en lenguaje natural, lo cual es costoso e ineficiente. Para automatizar este procedimiento, los métodos existentes enfrentan desafíos significativos. En primer lugar, métodos como NL2SQL requieren convertir tablas semiestructuradas en estructuradas, lo que a menudo provoca una pérdida sustancial de información. En segundo lugar, métodos como NL2Code y QA multimodal con LLM tienen dificultades para comprender los diseños complejos de las tablas semiestructuradas y no pueden responder con precisión a las preguntas correspondientes. Con este fin, proponemos ST-Raptor, un marco basado en árboles para la respuesta a preguntas sobre tablas semiestructuradas utilizando modelos de lenguaje grandes (LLM). En primer lugar, introducimos el Árbol Ortogonal Jerárquico (HO-Tree), un modelo estructural que captura los diseños complejos de las tablas semiestructuradas, junto con un algoritmo eficaz para construir el árbol. En segundo lugar, definimos un conjunto de operaciones básicas de árbol para guiar a los LLM en la ejecución de tareas comunes de QA. Dada una pregunta del usuario, ST-Raptor la descompone en subpreguntas más simples, genera las correspondientes tuberías de operaciones de árbol y realiza una alineación operación-tabla para una ejecución precisa de la tubería. En tercer lugar, incorporamos un mecanismo de verificación en dos etapas: la validación hacia adelante verifica la corrección de los pasos de ejecución, mientras que la validación hacia atrás evalúa la confiabilidad de las respuestas reconstruyendo consultas a partir de las respuestas predichas. Para evaluar el rendimiento, presentamos SSTQA, un conjunto de datos de 764 preguntas sobre 102 tablas semiestructuradas del mundo real. Los experimentos muestran que ST-Raptor supera a nueve líneas base en hasta un 20% en precisión de respuestas. El código está disponible en https://github.com/weAIDB/ST-Raptor.
La edición de imágenes guiada visualmente, donde las ediciones se condicionan tanto en señales visuales como en indicaciones textuales, ha surgido como un paradigma poderoso para la generación de contenido detallado y controlable. Aunque los modelos generativos recientes han demostrado capacidades notables, las evaluaciones existentes siguen siendo simples y no representan adecuadamente los desafíos de edición del mundo real. Presentamos SpotEdit, un punto de referencia integral diseñado para evaluar sistemáticamente los métodos de edición de imágenes guiada visualmente en diversos modelos generativos de difusión, autorregresivos e híbridos, revelando disparidades significativas en el rendimiento. Para abordar un desafío crítico pero poco explorado, nuestro punto de referencia incluye un componente dedicado a la alucinación, destacando cómo los modelos líderes, como GPT-4o, a menudo alucinan la existencia de una señal visual y realizan erróneamente la tarea de edición. Nuestro código y punto de referencia se han publicado públicamente en https://github.com/SaraGhazanfari/SpotEdit.
La capacidad de parafrasear textos en diferentes niveles de complejidad es esencial para crear textos accesibles que puedan adaptarse a diversos grupos de lectores. Por ello, presentamos German4All, el primer conjunto de datos a gran escala en alemán de paráfrasis alineadas y controladas por legibilidad a nivel de párrafo. Abarca cinco niveles de legibilidad y comprende más de 25,000 muestras. El conjunto de datos se sintetiza automáticamente utilizando GPT-4 y se evalúa rigurosamente mediante juicios tanto humanos como basados en modelos de lenguaje (LLM). Utilizando German4All, entrenamos un modelo de paráfrasis controlado por legibilidad de código abierto que logra un rendimiento de vanguardia en la simplificación de textos en alemán, permitiendo adaptaciones más matizadas y específicas para el lector. Publicamos tanto el conjunto de datos como el modelo para fomentar más investigaciones sobre la paráfrasis multinivel.
Este artículo investiga las limitaciones de la normalización en los mecanismos de atención. Comenzamos con un marco teórico que permite identificar la capacidad selectiva del modelo y la separación geométrica involucrada en la selección de tokens. Nuestro análisis incluye límites explícitos sobre las distancias y criterios de separación para los vectores de tokens bajo escalado softmax. A través de experimentos con el modelo GPT-2 preentrenado, validamos empíricamente nuestros resultados teóricos y analizamos comportamientos clave del mecanismo de atención. En particular, demostramos que a medida que aumenta el número de tokens seleccionados, la capacidad del modelo para distinguir tokens informativos disminuye, convergiendo frecuentemente hacia un patrón de selección uniforme. También mostramos que la sensibilidad del gradiente bajo normalización softmax presenta desafíos durante el entrenamiento, especialmente en configuraciones de baja temperatura. Estos hallazgos avanzan la comprensión actual del mecanismo de atención basado en softmax y motivan la necesidad de estrategias de normalización y selección más robustas en futuras arquitecturas de atención.
La reconstrucción de superficies ha sido ampliamente estudiada en visión por computadora y gráficos. Sin embargo, los trabajos existentes en reconstrucción de superficies tienen dificultades para recuperar la geometría precisa de la escena cuando las vistas de entrada son extremadamente escasas. Para abordar este problema, proponemos MeshSplat, un marco generalizable de reconstrucción de superficies con vistas escasas mediante Gaussian Splatting. Nuestra idea clave es aprovechar 2DGS como un puente, que conecta la síntesis de nuevas vistas con los conocimientos geométricos aprendidos y luego transfiere estos conocimientos para lograr la reconstrucción de superficies. Específicamente, incorporamos una red de avance para predecir 2DGS alineados por píxeles por vista, lo que permite a la red sintetizar imágenes de nuevas vistas y, por lo tanto, elimina la necesidad de supervisión directa con datos de verdad terrestre en 3D. Para mejorar la precisión en la predicción de la posición y orientación de 2DGS, proponemos una Pérdida de Distancia de Chamfer Ponderada para regularizar los mapas de profundidad, especialmente en áreas superpuestas de las vistas de entrada, y también una red de predicción de normales para alinear la orientación de 2DGS con los vectores normales predichos por un estimador de normales monoculares. Experimentos extensos validan la efectividad de nuestras mejoras propuestas, demostrando que nuestro método alcanza un rendimiento de vanguardia en tareas generalizables de reconstrucción de mallas con vistas escasas. Página del proyecto: https://hanzhichang.github.io/meshsplat_web
La evaluación de los sistemas de generación de lenguaje natural (NLG, por sus siglas en inglés) sigue siendo un desafío central en el procesamiento del lenguaje natural (NLP), complicado aún más por el auge de los modelos de lenguaje de gran escala (LLMs) que aspiran a ser de propósito general. Recientemente, los modelos de lenguaje de gran escala como jueces (LLJs) han surgido como una alternativa prometedora a las métricas tradicionales, pero su validez sigue siendo poco explorada. Este documento de posición argumenta que el entusiasmo actual en torno a los LLJs podría ser prematuro, ya que su adopción ha superado el escrutinio riguroso de su fiabilidad y validez como evaluadores. Basándonos en la teoría de la medición de las ciencias sociales, identificamos y evaluamos críticamente cuatro supuestos fundamentales que subyacen al uso de los LLJs: su capacidad para actuar como sustitutos del juicio humano, sus habilidades como evaluadores, su escalabilidad y su rentabilidad. Examinamos cómo cada uno de estos supuestos puede ser cuestionado por las limitaciones inherentes de los LLMs, los LLJs o las prácticas actuales en la evaluación de NLG. Para fundamentar nuestro análisis, exploramos tres aplicaciones de los LLJs: la resumenización de textos, la anotación de datos y la alineación de seguridad. Finalmente, destacamos la necesidad de prácticas de evaluación más responsables en la evaluación de los LLJs, para garantizar que su creciente papel en el campo apoye, en lugar de socavar, el progreso en la NLG.
El fotorrealismo es un aspecto importante de los videojuegos modernos, ya que puede moldear la experiencia del jugador y, al mismo tiempo, influir en la inmersión, el compromiso narrativo y la fidelidad visual. Aunque los recientes avances tecnológicos en hardware, junto con las tecnologías de renderizado de vanguardia, han mejorado significativamente el realismo visual de los videojuegos, lograr un verdadero fotorrealismo en entornos dinámicos con tasas de cuadros en tiempo real sigue siendo un gran desafío debido al equilibrio entre la calidad visual y el rendimiento. En este breve artículo, presentamos un enfoque novedoso para mejorar el fotorrealismo de los fotogramas renderizados en videojuegos utilizando redes generativas adversarias. Para ello, proponemos Real-time photorealism Enhancement in Games via a dual-stage gEnerative Network framework (REGEN), que emplea un modelo robusto de traducción de imagen a imagen no emparejada para producir fotogramas fotorrealistas semánticamente consistentes que transforman el problema en una tarea más simple de traducción de imagen a imagen emparejada. Esto permite el entrenamiento con un método ligero que puede lograr un tiempo de inferencia en tiempo real sin comprometer la calidad visual. Demostramos la efectividad de nuestro framework en Grand Theft Auto V, mostrando que el enfoque logra resultados visuales comparables a los producidos por el robusto método Im2Im no emparejado, mientras mejora la velocidad de inferencia en 32.14 veces. Nuestros hallazgos también indican que los resultados superan los fotogramas mejorados con fotorrealismo producidos al entrenar directamente un método ligero de traducción Im2Im no emparejado para traducir los fotogramas del videojuego hacia las características visuales de imágenes del mundo real. El código, modelos preentrenados y demostraciones de este trabajo están disponibles en: https://github.com/stefanos50/REGEN.
Trabajos previos han demostrado que la presuposición en preguntas generadas puede introducir suposiciones no verificadas, lo que lleva a inconsistencias en la verificación de afirmaciones. Además, la sensibilidad a los prompts sigue siendo un desafío significativo para los modelos de lenguaje de gran escala (LLMs), resultando en una variación de rendimiento de hasta un 3-6%. Aunque avances recientes han reducido esta brecha, nuestro estudio demuestra que la sensibilidad a los prompts sigue siendo un problema persistente. Para abordar esto, proponemos un marco estructurado y robusto para la verificación de afirmaciones que razona a través de preguntas descompuestas y libres de presuposición. Experimentos exhaustivos en múltiples prompts, conjuntos de datos y LLMs revelan que incluso los modelos más avanzados siguen siendo susceptibles a la variación de prompts y a la presuposición. Nuestro método mitiga consistentemente estos problemas, logrando una mejora de hasta un 2-5%.