Artículos de investigación en IA seleccionados diariamente con traducciones
Los benchmarks son herramientas importantes para seguir el rápido avance en las capacidades de los modelos de lenguaje grandes (LLM, por sus siglas en inglés). Sin embargo, los benchmarks no están manteniendo el ritmo en cuanto a dificultad: los LLMs ahora logran más del 90\% de precisión en benchmarks populares como MMLU, lo que limita la medición informada de las capacidades de vanguardia de los LLMs. En respuesta, presentamos el Examen Final de la Humanidad (HLE, por sus siglas en inglés), un benchmark multimodal en la frontera del conocimiento humano, diseñado para ser el último benchmark académico cerrado de su tipo con una amplia cobertura de temas. HLE consta de 3,000 preguntas en docenas de materias, incluyendo matemáticas, humanidades y ciencias naturales. HLE es desarrollado a nivel global por expertos en la materia y consta de preguntas de opción múltiple y respuestas cortas adecuadas para la calificación automatizada. Cada pregunta tiene una solución conocida que es inequívoca y fácilmente verificable, pero que no puede ser respondida rápidamente mediante búsqueda en internet. Los LLMs de vanguardia muestran baja precisión y calibración en HLE, resaltando una brecha significativa entre las capacidades actuales de los LLMs y la vanguardia humana experta en preguntas académicas cerradas. Para informar la investigación y la formulación de políticas con una comprensión clara de las capacidades del modelo, publicamos HLE públicamente en https://lastexam.ai.
Este documento presenta un enfoque para entrenar modelos RAG similares a o1 que recuperan y razonan sobre información relevante paso a paso antes de generar la respuesta final. Los métodos RAG convencionales suelen realizar un solo paso de recuperación antes del proceso de generación, lo que limita su efectividad para abordar consultas complejas debido a resultados de recuperación imperfectos. En contraste, nuestro método propuesto, CoRAG (Generación Aumentada con Cadena de Recuperación), permite que el modelo reformule dinámicamente la consulta basándose en el estado evolutivo. Para entrenar CoRAG de manera efectiva, utilizamos muestreo de rechazo para generar automáticamente cadenas de recuperación intermedias, aumentando así los conjuntos de datos RAG existentes que solo proporcionan la respuesta final correcta. En el momento de la prueba, proponemos varias estrategias de decodificación para escalar el cálculo del modelo en el momento de la prueba controlando la longitud y el número de cadenas de recuperación muestreadas. Los resultados experimentales en múltiples benchmarks validan la eficacia de CoRAG, especialmente en tareas de pregunta y respuesta de múltiples saltos, donde observamos una mejora de más de 10 puntos en la puntuación EM en comparación con líneas de base sólidas. En el benchmark KILT, CoRAG establece un nuevo rendimiento de vanguardia en una amplia gama de tareas intensivas en conocimiento. Además, ofrecemos análisis exhaustivos para comprender el comportamiento de escalado de CoRAG, sentando las bases para futuras investigaciones destinadas a desarrollar modelos de base factual y fundamentada.
Las críticas son importantes para mejorar el rendimiento de los Modelos de Lenguaje Grandes (LLMs), permitiendo tanto el auto-mejoramiento como la retroalimentación constructiva para otros al identificar fallos y sugerir mejoras. Sin embargo, evaluar las capacidades críticas de los LLMs presenta un desafío significativo debido a la naturaleza abierta de la tarea. En este trabajo, presentamos un nuevo punto de referencia diseñado para evaluar las capacidades críticas de los LLMs. A diferencia de los puntos de referencia existentes, que suelen funcionar de manera de circuito abierto, nuestro enfoque emplea una metodología de circuito cerrado que evalúa la calidad de las correcciones generadas a partir de las críticas. Además, el punto de referencia incorpora características como la auto-crítica, la crítica cruzada y la crítica iterativa, que son cruciales para distinguir las habilidades de los modelos de razonamiento avanzado de los más clásicos. Implementamos este punto de referencia utilizando ocho desafiantes tareas de razonamiento. Tenemos varios hallazgos interesantes. En primer lugar, a pesar de demostrar un rendimiento comparable en la generación directa de cadenas de pensamiento, los LLMs clásicos se rezagan significativamente detrás del modelo basado en razonamiento avanzado o1-mini en todos los escenarios de crítica. En segundo lugar, en configuraciones de auto-crítica y crítica iterativa, los LLMs clásicos pueden incluso rendir por debajo de sus capacidades de referencia. Esperamos que este punto de referencia sirva como un recurso valioso para orientar futuros avances. El código y los datos están disponibles en https://github.com/tangzhy/RealCritic.
Con la rápida iteración de Modelos de Lenguaje Multimodal a Gran Escala (MLLMs, por sus siglas en inglés) y las demandas en evolución del campo, el número de benchmarks producidos anualmente ha aumentado hasta alcanzar cientos. El crecimiento acelerado ha llevado inevitablemente a una redundancia significativa entre los benchmarks. Por lo tanto, es crucial dar un paso atrás y evaluar críticamente el estado actual de la redundancia, proponiendo principios específicos para la construcción de benchmarks efectivos de MLLM. En este artículo, nos enfocamos en la redundancia desde tres perspectivas clave: 1) Redundancia de las dimensiones de capacidad de los benchmarks, 2) Redundancia en el número de preguntas de prueba, y 3) Redundancia entre benchmarks dentro de dominios específicos. A través del análisis exhaustivo de cientos de rendimientos de MLLMs en más de 20 benchmarks, nuestro objetivo es medir cuantitativamente el nivel de redundancia presente en las evaluaciones de MLLM existentes, proporcionar ideas valiosas para guiar el futuro desarrollo de benchmarks de MLLM y ofrecer estrategias para refinar y abordar eficazmente los problemas de redundancia.
¿Qué pasaría si la inteligencia artificial no solo pudiera resolver problemas para los que fue entrenada, sino también aprender a enseñarse a sí misma a resolver nuevos problemas (es decir, meta-aprender)? En este estudio, demostramos que un transformer pre-entrenado, ajustado finamente con aprendizaje por refuerzo a lo largo de múltiples episodios, desarrolla la capacidad de resolver problemas que nunca ha encontrado antes, una habilidad emergente llamada Aprendizaje por Refuerzo en Contexto (ICRL). Este poderoso meta-aprendiz no solo sobresale en la resolución de entornos no vistos en distribución con una eficiencia de muestra notable, sino que también muestra un rendimiento sólido en entornos fuera de distribución. Además, demostramos que exhibe robustez ante la calidad de sus datos de entrenamiento, une sin problemas comportamientos de su contexto y se adapta a entornos no estacionarios. Estos comportamientos demuestran que un transformer entrenado con RL puede mejorar iterativamente sus propias soluciones, convirtiéndolo en un excelente solucionador de problemas de propósito general.
Proponemos Avatares Gaussianos de Códec de Cuerpo Completo Reluminables, un nuevo enfoque para modelar avatares de cuerpo completo reluminables con detalles de alta precisión, incluyendo el rostro y las manos. El desafío único al reluminar avatares de cuerpo completo radica en las grandes deformaciones causadas por la articulación del cuerpo y el impacto resultante en la apariencia causado por el transporte de luz. Los cambios en la postura del cuerpo pueden cambiar drásticamente la orientación de las superficies corporales con respecto a las luces, lo que resulta en cambios locales en la apariencia debido a cambios en las funciones locales de transporte de luz, así como cambios no locales debido a la oclusión entre las partes del cuerpo. Para abordar esto, descomponemos el transporte de luz en efectos locales y no locales. Los cambios locales en la apariencia se modelan utilizando armónicos zonales aprendibles para la transferencia de radiación difusa. A diferencia de los armónicos esféricos, los armónicos zonales son altamente eficientes para rotar bajo la articulación. Esto nos permite aprender la transferencia de radiación difusa en un marco de coordenadas local, lo que separa la transferencia de radiación local de la articulación del cuerpo. Para tener en cuenta los cambios no locales en la apariencia, introducimos una red de sombras que predice sombras dadas las irradiancias entrantes precalculadas en un mallado base. Esto facilita el aprendizaje de sombreados no locales entre las partes del cuerpo. Finalmente, utilizamos un enfoque de sombreado diferido para modelar la transferencia de radiación especular y capturar mejor reflejos y destellos como brillos en los ojos. Demostramos que nuestro enfoque modela exitosamente tanto el transporte de luz local como no local requerido para avatares de cuerpo completo reluminables, con una capacidad de generalización superior bajo condiciones de iluminación novedosas y posturas no vistas.
Los sistemas de atención médica generan continuamente vastas cantidades de registros de salud electrónicos (EHRs), comúnmente almacenados en el estándar de Recursos de Interoperabilidad Rápida de Atención Médica (FHIR). A pesar de la riqueza de información en estos registros, su complejidad y volumen dificultan a los usuarios recuperar e interpretar información crucial sobre la salud. Los avances recientes en Modelos de Lenguaje Grande (LLMs) ofrecen una solución, permitiendo la respuesta semántica a preguntas (QA) sobre datos médicos, lo que permite a los usuarios interactuar de manera más efectiva con sus registros de salud. Sin embargo, garantizar la privacidad y el cumplimiento requiere implementaciones de LLMs en entornos locales y privados. Este documento propone un enfoque novedoso para la respuesta semántica a preguntas sobre EHRs al identificar primero los recursos FHIR más relevantes para una consulta de usuario (Tarea 1) y posteriormente responder a la consulta basándose en estos recursos (Tarea 2). Exploramos el rendimiento de LLMs afinados de forma privada, evaluándolos frente a modelos de referencia como GPT-4 y GPT-4o. Nuestros resultados demuestran que los LLMs afinados, aunque 250 veces más pequeños en tamaño, superan a los modelos de la familia GPT-4 en un 0,55% en puntuación F1 en la Tarea 1 y en un 42% en la Tarea Meteor en la Tarea 2. Además, examinamos aspectos avanzados del uso de LLMs, incluido el afinamiento secuencial, la autoevaluación del modelo (evaluación narcisista) y el impacto del tamaño de los datos de entrenamiento en el rendimiento. Los modelos y conjuntos de datos están disponibles aquí: https://huggingface.co/genloop
Los avances recientes en modelos grandes multimodales (LMMs) han reconocido el enraizamiento detallado como un factor imperativo de comprensión visual y diálogo. Sin embargo, los beneficios de tal representación en LMMs están limitados al dominio de imágenes naturales, y estos modelos tienen un rendimiento deficiente para la percepción remota (RS). La vista aérea distintiva, la variación de escala y la presencia de objetos pequeños en imágenes de alta resolución de RS presentan un desafío único en la comprensión a nivel de región. Además, el desarrollo de la capacidad de conversación enraizada de LMMs dentro de RS se ve obstaculizado por la falta de datos enraizados granulares específicos del dominio de RS. Para abordar estas limitaciones, proponemos GeoPixel, el primer RS-LMM de alta resolución de extremo a extremo que admite enraizamiento a nivel de píxel. Esta capacidad permite una percepción visual detallada generando máscaras entrelazadas en la conversación. GeoPixel admite una resolución de hasta 4K HD en cualquier relación de aspecto, ideal para análisis de imágenes de RS de alta precisión. Para respaldar la generación de conversaciones enraizadas (GCG) en imágenes de RS, creamos un conjunto de datos visualmente enraizado, GeoPixelD, a través de un proceso de generación de datos semiautomatizado que utiliza indicaciones de conjuntos de marcas y prioridades espaciales adaptadas para datos de RS para controlar metódicamente el proceso de generación de datos. GeoPixel demuestra un rendimiento superior en la comprensión a nivel de píxel, superando a los LMMs existentes tanto en tareas de segmentación de un solo objetivo como de múltiples objetivos. Nuestros estudios de ablación metodológica validan la efectividad de cada componente en la arquitectura general. Nuestro código y datos se publicarán públicamente.
Los modelos de base visual, en particular la familia ViT, han revolucionado la comprensión de imágenes al proporcionar características semánticas detalladas. Sin embargo, a pesar de su éxito en la comprensión en 2D, sus capacidades para comprender las relaciones espaciales en 3D aún no están claras. En este trabajo, evaluamos y mejoramos la conciencia en 3D de los modelos basados en ViT. Comenzamos evaluando sistemáticamente su capacidad para aprender características 3D equivariantes, examinando específicamente la consistencia de las incrustaciones semánticas en diferentes puntos de vista. Nuestros hallazgos indican que una mejor equivariancia en 3D conduce a un mejor rendimiento en diversas tareas posteriores, incluyendo estimación de postura, seguimiento y transferencia semántica. Basándonos en esta idea, proponemos una estrategia de ajuste simple pero efectiva basada en correspondencias 3D, que mejora significativamente la comprensión de correspondencias 3D de los modelos de visión existentes. Sorprendentemente, incluso el ajuste en un solo objeto durante una sola iteración resulta en ganancias de rendimiento sustanciales. Todo el código y los recursos estarán disponibles públicamente para apoyar futuros avances en modelos de visión conscientes en 3D. Nuestro código está disponible en https://github.com/qq456cvb/3DCorrEnhance.
La tecnología de prueba virtual (VTON) ha llamado la atención debido a su potencial para transformar el comercio minorista en línea al permitir la visualización realista de ropa en imágenes y videos. Sin embargo, la mayoría de los métodos existentes luchan por lograr resultados de alta calidad en tareas de prueba de imagen y video, especialmente en escenarios de video largos. En este trabajo, presentamos CatV2TON, un método simple y efectivo de prueba virtual basado en visión (V2TON) que soporta tanto tareas de prueba de imagen como de video con un solo modelo de transformador de difusión. Al concatenar temporalmente las entradas de la prenda y la persona y entrenar con una combinación de conjuntos de datos de imagen y video, CatV2TON logra un rendimiento de prueba sólido en entornos estáticos y dinámicos. Para una generación eficiente de videos largos, proponemos una estrategia de inferencia basada en clips superpuestos que utiliza orientación de fotogramas secuenciales y Normalización de Clip Adaptativa (AdaCN) para mantener la consistencia temporal con una demanda de recursos reducida. También presentamos ViViD-S, un conjunto de datos refinado de prueba de video, logrado mediante la filtración de fotogramas de espalda y la aplicación de suavizado de máscara 3D para una mayor consistencia temporal. Experimentos exhaustivos demuestran que CatV2TON supera a los métodos existentes tanto en tareas de prueba de imagen como de video, ofreciendo una solución versátil y confiable para pruebas virtuales realistas en diversos escenarios.
En el proceso de adquisición de imágenes, se introducen con frecuencia diversas formas de degradación, como ruido, bruma y lluvia. Estas degradaciones suelen surgir de las limitaciones inherentes de las cámaras o condiciones ambientales desfavorables. Para recuperar imágenes limpias a partir de versiones degradadas, se han desarrollado numerosos métodos especializados de restauración, cada uno dirigido a un tipo específico de degradación. Recientemente, los algoritmos todo en uno han captado una atención significativa al abordar diferentes tipos de degradación dentro de un solo modelo sin necesidad de información previa sobre el tipo de degradación de entrada. Sin embargo, estos métodos operan puramente en el dominio espacial y no exploran las distintas variaciones de frecuencia inherentes a los diferentes tipos de degradación. Para abordar esta brecha, proponemos una red de restauración de imágenes todo en uno adaptativa basada en minería y modulación de frecuencias. Nuestro enfoque está motivado por la observación de que diferentes tipos de degradación afectan el contenido de la imagen en diferentes subbandas de frecuencia, lo que requiere tratamientos diferentes para cada tarea de restauración. Específicamente, primero extraemos información de baja y alta frecuencia de las características de entrada, guiados por los espectros adaptativamente desacoplados de la imagen degradada. Luego, las características extraídas son moduladas por un operador bidireccional para facilitar interacciones entre diferentes componentes de frecuencia. Finalmente, las características moduladas se fusionan con la entrada original para una restauración guiada de forma progresiva. Con este enfoque, el modelo logra una reconstrucción adaptativa al acentuar las subbandas de frecuencia informativas según las diferentes degradaciones de entrada. Experimentos extensos demuestran que el método propuesto logra un rendimiento de vanguardia en diferentes tareas de restauración de imágenes, incluyendo eliminación de ruido, deshazado, desrainado, desenfoque por movimiento y mejora de imágenes con poca luz. Nuestro código está disponible en https://github.com/c-yn/AdaIR.
Aunque los métodos de restauración de imágenes basados en aprendizaje han avanzado significativamente, aún enfrentan dificultades en la generalización limitada a escenarios del mundo real debido a la brecha de dominio sustancial causada por el entrenamiento en datos sintéticos. Los métodos existentes abordan este problema mejorando los flujos de síntesis de datos, estimando núcleos de degradación, empleando aprendizaje interno profundo y realizando adaptación de dominio y regularización. Los métodos previos de adaptación de dominio han buscado reducir la brecha de dominio mediante el aprendizaje de conocimientos invariables al dominio en el espacio de características o píxeles. Sin embargo, estas técnicas a menudo tienen dificultades para extenderse a tareas de visión de bajo nivel dentro de un marco estable y compacto. En este documento, mostramos que es posible realizar adaptación de dominio a través del espacio de ruido utilizando modelos de difusión. En particular, al aprovechar la propiedad única de cómo las entradas condicionales auxiliares influyen en el proceso de eliminación de ruido de múltiples pasos, derivamos una pérdida de difusión significativa que guía al modelo de restauración en alinear progresivamente tanto las salidas restauradas sintéticas como del mundo real con una distribución limpia objetivo. Nos referimos a este método como adaptación mediante eliminación de ruido. Para evitar atajos durante el entrenamiento conjunto, presentamos estrategias cruciales como la capa de reordenamiento de canales y el aprendizaje contrastivo de intercambio residual en el modelo de difusión. Estas difuminan implícitamente los límites entre datos sintéticos condicionados y reales y evitan la dependencia del modelo en características fácilmente distinguibles. Los resultados experimentales en tres tareas clásicas de restauración de imágenes, a saber, eliminación de ruido, desenfoque y eliminación de lluvia, demuestran la efectividad del método propuesto.