Artículos de investigación en IA seleccionados diariamente con traducciones
Desarrollar políticas visuomotoras robustas y corregibles para la manipulación robótica es un desafío debido a la falta de mecanismos de auto-recuperación de fallos y a las limitaciones de instrucciones de lenguaje simples para guiar las acciones del robot. Para abordar estos problemas, proponemos un flujo de generación de datos escalable que automáticamente aumenta las demostraciones de expertos con trayectorias de recuperación de fallos y anotaciones de lenguaje detalladas para el entrenamiento. Luego introducimos Rich languAge-guided failure reCovERy (RACER), un marco supervisor-actor que combina datos de recuperación de fallos con descripciones de lenguaje detalladas para mejorar el control del robot. RACER cuenta con un modelo visión-lenguaje (VLM) que actúa como supervisor en línea, proporcionando orientación de lenguaje detallada para la corrección de errores y la ejecución de tareas, y una política visuomotora condicionada por lenguaje como actor para predecir las próximas acciones. Nuestros resultados experimentales muestran que RACER supera al estado del arte Robotic View Transformer (RVT) en RLbench en varios entornos de evaluación, incluyendo tareas estándar de horizonte largo, tareas dinámicas de cambio de objetivo y tareas no vistas de cero disparos, logrando un rendimiento superior tanto en entornos simulados como en el mundo real. Los videos y el código están disponibles en: https://rich-language-failure-recovery.github.io.
Los grandes modelos de lenguaje (LLMs) han demostrado capacidades notables en diversos dominios y tareas, empujando los límites de nuestro conocimiento en aprendizaje y cognición. El último modelo, o1 de OpenAI, destaca como el primer LLM con una técnica interna de cadena de pensamiento utilizando estrategias de aprendizaje por refuerzo. Aunque ha demostrado capacidades sorprendentemente sólidas en diversas tareas generales del lenguaje, su rendimiento en campos especializados como la medicina sigue siendo desconocido. Con este fin, este informe proporciona una exploración exhaustiva de o1 en diferentes escenarios médicos, examinando 3 aspectos clave: comprensión, razonamiento y multilingüismo. Específicamente, nuestra evaluación abarca 6 tareas utilizando datos de 37 conjuntos de datos médicos, incluidas dos tareas de preguntas y respuestas (QA) recién creadas y más desafiantes basadas en cuestionarios médicos profesionales del New England Journal of Medicine (NEJM) y The Lancet. Estos conjuntos de datos ofrecen una mayor relevancia clínica en comparación con los puntos de referencia estándar de QA médica como MedQA, traduciéndose de manera más efectiva en utilidad clínica del mundo real. Nuestro análisis de o1 sugiere que la capacidad de razonamiento mejorada de los LLMs puede beneficiar significativamente su capacidad para comprender diversas instrucciones médicas y razonar a través de escenarios clínicos complejos. Notablemente, o1 supera al anterior GPT-4 en precisión en un promedio de 6.2% y 6.6% en 19 conjuntos de datos y dos escenarios de QA complejos recién creados. Sin embargo, identificamos varias debilidades tanto en la capacidad del modelo como en los protocolos de evaluación existentes, incluyendo alucinaciones, capacidad multilingüe inconsistente y métricas discrepantes para la evaluación. Publicamos nuestros datos en bruto y resultados del modelo en https://ucsc-vlaa.github.io/o1_medicine/ para futuras investigaciones.
El éxito del ajuste de instrucciones visuales ha acelerado el desarrollo de grandes modelos de lenguaje y visión (LLVMs). Siguiendo las leyes de escala de los grandes modelos de lenguaje ajustados a instrucciones (LLMs), los LLVMs han aumentado aún más sus tamaños, alcanzando 26B, 34B e incluso 80B parámetros. Si bien este aumento en el tamaño del modelo ha generado ganancias significativas en rendimiento, exige considerablemente más recursos de hardware tanto para el entrenamiento como para la inferencia. En consecuencia, existe naturalmente una fuerte necesidad de LLVMs eficientes que logren el rendimiento de modelos más grandes siendo más pequeños en tamaño. Para satisfacer esta necesidad, presentamos una nueva familia eficiente de LLVMs con tamaños de modelo de 0.5B, 1.8B, 3.8B y 7B parámetros, Phantom, que mejora significativamente las capacidades de aprendizaje dentro de estructuras limitadas. Al aumentar temporalmente la dimensión oculta latente durante la autoatención de múltiples cabezas (MHSA), hacemos que los LLVMs se preparen para analizar y comprender mucho más conocimiento de visión-lenguaje en lo latente, sin aumentar sustancialmente los tamaños físicos de los modelos. Para maximizar su ventaja, introducimos la Optimización Phantom (PO) utilizando tanto el ajuste fino supervisado autoregresivo (SFT) como un concepto similar a la optimización de preferencias directas (DPO), que sigue efectivamente respuestas correctas mientras elimina las incorrectas y ambiguas. Phantom supera a numerosos LLVMs más grandes de código abierto y cerrado, posicionándose como una solución líder en el panorama de los LLVMs eficientes.
Este documento presenta un asistente visual de imagen a imagen versátil, PixWizard, diseñado para la generación, manipulación y traducción de imágenes basado en instrucciones en lenguaje libre. Con este fin, abordamos una variedad de tareas de visión en un marco unificado de generación de imagen-texto-imagen y creamos un Conjunto de Datos de Ajuste de Instrucciones Píxel a Píxel Omni. Al construir plantillas detalladas de instrucciones en lenguaje natural, incluimos de manera exhaustiva un amplio conjunto de diversas tareas de visión como generación de texto a imagen, restauración de imagen, anclaje de imagen, predicción de imagen densa, edición de imagen, generación controlable, rellenado/reducción de imagen, y más. Además, adoptamos Transformadores de Difusión (DiT) como nuestro modelo base y ampliamos sus capacidades con un mecanismo flexible de cualquier resolución, permitiendo que el modelo procese dinámicamente imágenes según la relación de aspecto de la entrada, alineándose estrechamente con los procesos perceptuales humanos. El modelo también incorpora orientación consciente de la estructura y de la semántica para facilitar la fusión efectiva de información de la imagen de entrada. Nuestros experimentos demuestran que PixWizard no solo muestra impresionantes capacidades generativas y de comprensión para imágenes con diversas resoluciones, sino que también exhibe prometedoras capacidades de generalización con tareas no vistas e instrucciones humanas. El código y los recursos relacionados están disponibles en https://github.com/AFeng-x/PixWizard
Los Modelos de Lenguaje de Gran Tamaño (LLMs) han demostrado un potencial significativo en la transformación de aplicaciones clínicas. En este estudio, investigamos la eficacia de cuatro técnicas para adaptar los LLMs a casos de uso clínico: preentrenamiento continuo, ajuste fino instructivo, NEFTune y ingeniería de indicaciones. Aplicamos estos métodos en los modelos Mistral 7B y Mixtral 8x7B, aprovechando un conjunto de datos de preentrenamiento clínico a gran escala de 50 mil millones de tokens y un conjunto de datos de ajuste fino instructivo de 500 millones de tokens. Nuestra evaluación en diversas tareas clínicas revela el impacto de cada técnica. Mientras que el preentrenamiento continuo más allá de 250 mil millones de tokens produce mejoras marginales por sí solo, sienta una base sólida para el ajuste fino instructivo. Notablemente, NEFTune, diseñado principalmente para mejorar la calidad de generación, muestra sorprendentemente ganancias adicionales en nuestro punto de referencia. Los métodos de ingeniería de indicaciones complejas mejoran aún más el rendimiento. Estos hallazgos muestran la importancia de adaptar estrategias de ajuste fino y explorar técnicas innovadoras para optimizar el rendimiento de los LLMs en el ámbito clínico.
Abordamos el problema de generar reflejos de espejo altamente realistas y plausibles utilizando modelos generativos basados en difusión. Formulamos este problema como una tarea de rellenado de imágenes, lo que permite un mayor control por parte del usuario sobre la ubicación de los espejos durante el proceso de generación. Para habilitar esto, creamos SynMirror, un conjunto de datos a gran escala de escenas sintéticas diversas con objetos colocados frente a espejos. SynMirror contiene alrededor de 198K muestras renderizadas a partir de 66K objetos 3D únicos, junto con sus mapas de profundidad asociados, mapas normales y máscaras de segmentación por instancia, para capturar propiedades geométricas relevantes de la escena. Utilizando este conjunto de datos, proponemos un método de rellenado novedoso condicionado por la profundidad llamado MirrorFusion, que genera reflejos de espejo de alta calidad, geométricamente consistentes y fotorrealistas dado una imagen de entrada y una máscara que representa la región del espejo. MirrorFusion supera a los métodos de vanguardia en SynMirror, como se demuestra mediante un extenso análisis cuantitativo y cualitativo. Hasta donde alcanza nuestro conocimiento, somos los primeros en abordar con éxito el desafiante problema de generar reflejos de espejo controlados y fieles de un objeto en una escena utilizando modelos basados en difusión. SynMirror y MirrorFusion abren nuevas vías para la edición de imágenes y aplicaciones de realidad aumentada tanto para profesionales como para investigadores.
Trabajos recientes en renderizado inverso han demostrado promesa en el uso de imágenes multi-vista de un objeto para recuperar forma, albedo y materiales. Sin embargo, los componentes recuperados a menudo no se renderizan con precisión bajo nuevas condiciones de iluminación debido al desafío intrínseco de desentrañar las propiedades de albedo y material de las imágenes de entrada. Para abordar este desafío, presentamos MaterialFusion, una tubería de renderizado inverso 3D convencional mejorada que incorpora un prior 2D en textura y propiedades de material. Presentamos StableMaterial, un modelo de difusión 2D previo que perfecciona datos multi-iluminados para estimar el albedo y material más probable a partir de las apariencias de entrada dadas. Este modelo se entrena en datos de albedo, material e imágenes reiluminadas derivadas de un conjunto de datos curado de aproximadamente ~12K objetos sintéticos diseñados por artistas llamado BlenderVault. Incorporamos este prior de difusión con un marco de renderizado inverso donde utilizamos muestreo de destilación de puntuación (SDS) para guiar la optimización del albedo y los materiales, mejorando el rendimiento de reiluminación en comparación con trabajos anteriores. Validamos el rendimiento de reiluminación de MaterialFusion en 4 conjuntos de datos de objetos sintéticos y reales bajo diversas condiciones de iluminación, mostrando que nuestro enfoque asistido por difusión mejora significativamente la apariencia de los objetos reconstruidos bajo condiciones de iluminación novedosas. Tenemos la intención de lanzar públicamente nuestro conjunto de datos BlenderVault para apoyar futuras investigaciones en este campo.
El lanzamiento de ChatGPT en noviembre de 2022 desató un gran interés en el post-entrenamiento y una avalancha de nuevos métodos de optimización de preferencias (PO). Estos métodos afirman una alineación superior debido a una mejor correspondencia con las preferencias humanas emparejadas, a menudo medidas por jueces LLM. En este trabajo, intentamos responder a la siguiente pregunta: ¿las preferencias de los jueces LLM se traducen en avances en otras métricas más concretas de alineación, y si no, por qué no? Definimos una métrica concreta para la alineación e introducimos SOS-Bench, la meta-banca LLM estandarizada y reproducible más grande hasta la fecha. Descubrimos que (1) las decisiones de los jueces LLM no se correlacionan con medidas concretas de seguridad, conocimiento del mundo y seguimiento de instrucciones; (2) los jueces LLM tienen poderosos sesgos implícitos, priorizando el estilo sobre la factualidad y la seguridad; y (3) la etapa de ajuste fino supervisado (SFT) del post-entrenamiento, y no la etapa de PO, tiene el mayor impacto en la alineación, con la escalabilidad de datos y la diversidad de indicaciones como factores determinantes. Nuestro código y resultados completos se pueden encontrar en https://github.com/penfever/sos-bench.
En este documento, presentamos un módulo de Transferencia de Voz (VT) de cero disparos que puede integrarse fácilmente en un sistema de Texto a Voz (TTS) multilingüe para transferir la voz de un individuo entre idiomas. Nuestro módulo de VT propuesto consta de un codificador de hablante que procesa el habla de referencia, una capa de cuello de botella y adaptadores residuales, conectados a capas preexistentes de TTS. Comparamos el rendimiento de varias configuraciones de estos componentes y reportamos la Puntuación Media de Opinión (MOS) y la Similitud de Hablante entre idiomas. Utilizando un único habla de referencia en inglés por hablante, logramos una puntuación promedio de similitud de transferencia de voz del 73% en nueve idiomas objetivo. Las características vocales contribuyen significativamente a la construcción y percepción de la identidad individual. La pérdida de la voz de uno, debido a condiciones físicas o neurológicas, puede llevar a un profundo sentido de pérdida, impactando la identidad central de uno. Como estudio de caso, demostramos que nuestro enfoque no solo puede transferir habla típica, sino también restaurar las voces de individuos con disartria, incluso cuando solo se dispone de muestras de habla atípicas, una utilidad valiosa para aquellos que nunca han tenido habla típica o han grabado su voz. Muestras de audio típicas cruzadas entre idiomas, además de videos que demuestran la restauración de la voz para hablantes con disartria, están disponibles aquí (google.github.io/tacotron/publications/zero_shot_voice_transfer).
El desarrollo de un controlador único y versátil basado en la física que pueda dar vida a personajes interactivos en una amplia gama de escenarios representa una emocionante frontera en la animación de personajes. Un controlador ideal debería admitir diversas modalidades de control, como pocos fotogramas clave de destino, instrucciones de texto e información de la escena. Si bien trabajos anteriores han propuesto modelos de control simulados físicamente y conscientes de la escena, estos sistemas se han centrado principalmente en el desarrollo de controladores que se especializan en un conjunto estrecho de tareas y modalidades de control. Este trabajo presenta MaskedMimic, un enfoque novedoso que formula el control de personajes basado en la física como un problema de rellenado de movimiento general. Nuestra idea clave es entrenar un único modelo unificado para sintetizar movimientos a partir de descripciones de movimiento parciales (enmascaradas), como fotogramas clave enmascarados, objetos, descripciones de texto o cualquier combinación de estos. Esto se logra aprovechando datos de seguimiento de movimiento y diseñando un método de entrenamiento escalable que puede utilizar de manera efectiva diversas descripciones de movimiento para producir animaciones coherentes. A través de este proceso, nuestro enfoque aprende un controlador basado en la física que proporciona una interfaz de control intuitiva sin necesidad de una ingeniería de recompensas tediosa para todos los comportamientos de interés. El controlador resultante admite una amplia gama de modalidades de control y permite transiciones fluidas entre tareas dispares. Al unificar el control de personajes a través del rellenado de movimiento, MaskedMimic crea personajes virtuales versátiles. Estos personajes pueden adaptarse dinámicamente a escenas complejas y componer movimientos diversos según la demanda, lo que permite experiencias más interactivas e inmersivas.
La diabetes es una enfermedad crónica que representa una carga significativa para la salud global, y optimizar el manejo de la diabetes requiere colaboración entre múltiples partes interesadas. Los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) han mostrado promesa en varios escenarios de atención médica, pero su efectividad en una amplia gama de tareas relacionadas con la diabetes aún no ha sido comprobada. En este estudio, presentamos un marco para entrenar y validar LLMs específicos para la diabetes. En primer lugar, desarrollamos un completo proceso de procesamiento de datos que incluye la recolección, filtrado, aumento y refinamiento de datos. Este enfoque contribuye a la creación de un conjunto de datos específico para la diabetes de alta calidad, y varios puntos de referencia de evaluación completamente desde cero. Utilizando el conjunto de datos de entrenamiento recolectado, ajustamos finamente una familia de LLMs específicos para la diabetes que demostró competencia de vanguardia en la comprensión y procesamiento de diversas tareas relacionadas con la diabetes en comparación con otros LLMs. Además, estudios clínicos mostraron las posibles aplicaciones de nuestros modelos en el cuidado de la diabetes, incluida la provisión de atención médica personalizada, asistencia en la educación médica y simplificación de tareas clínicas. En conclusión, nuestro estudio presentó un marco para desarrollar y evaluar una familia de LLMs específicos para la diabetes, y destacó su potencial para mejorar la práctica clínica y proporcionar apoyo personalizado basado en datos para la diabetes al enfrentar diferentes usuarios finales. El código está disponible en GitHub en https://github.com/waltonfuture/Diabetica.
Existe un creciente interés en utilizar la IA generativa para crear espacios 3D para aplicaciones de Realidad Virtual (RV). Sin embargo, los modelos actuales producen entornos artificiales que no son suficientes para respaldar tareas colaborativas que se benefician de la incorporación del contexto físico del usuario. Para generar entornos que respalden la telepresencia en RV, presentamos SpaceBlender, un nuevo proceso que utiliza técnicas de IA generativa para mezclar los entornos físicos de los usuarios en espacios virtuales unificados. Este proceso transforma imágenes 2D proporcionadas por el usuario en entornos 3D ricos en contexto a través de un proceso iterativo que incluye estimación de profundidad, alineación de mallas y completado de espacios basado en difusión, guiado por prioridades geométricas y sugerencias de texto adaptativas. En un estudio preliminar dentro de sujetos, donde 20 participantes realizaron una tarea colaborativa de diagramación de afinidad en RV en parejas, comparamos SpaceBlender con un entorno virtual genérico y un marco de generación de escenas de última generación, evaluando su capacidad para crear espacios virtuales adecuados para la colaboración. Los participantes valoraron la mayor familiaridad y contexto proporcionados por SpaceBlender, pero también señalaron complejidades en los entornos generativos que podrían distraer del enfoque en la tarea. Basándonos en los comentarios de los participantes, proponemos direcciones para mejorar el proceso y discutimos el valor y diseño de espacios mezclados para diferentes escenarios.
Este documento presenta un estudio de caso sobre tareas de codificación realizadas por los últimos modelos de razonamiento de OpenAI, es decir, o1-preview y o1-mini, en comparación con otros modelos de vanguardia. Los modelos o1 ofrecen resultados de última generación para WebApp1K, un banco de pruebas de una sola tarea. Con este fin, presentamos WebApp1K-Duo, un banco de pruebas más exigente que duplica el número de tareas y casos de prueba. El nuevo banco de pruebas provoca una disminución significativa en el rendimiento de los modelos o1, quedando rezagados detrás de Claude 3.5. Además, consistentemente fallan al enfrentarse a casos de prueba atípicos pero correctos, una trampa que los modelos no razonadores ocasionalmente evitan. Postulamos que la variabilidad en el rendimiento se debe a la comprensión de instrucciones. Específicamente, el mecanismo de razonamiento mejora el rendimiento cuando se capturan todas las expectativas, mientras que exacerba los errores cuando se omiten expectativas clave, potencialmente afectados por la longitud de entrada. Por lo tanto, sostenemos que el éxito en la codificación de los modelos de razonamiento depende del modelo base de primera categoría y de la transformación de secuencias a fin de garantizar una adhesión meticulosa a las instrucciones.
Los sonidos del habla transmiten una gran cantidad de información sobre las escenas, lo que resulta en una variedad de efectos que van desde la reverberación hasta sonidos ambientales adicionales. En este documento, manipulamos el habla de entrada para que suene como si hubiera sido grabada en una escena diferente, dado un ejemplo condicional audiovisual grabado desde esa escena. Nuestro modelo aprende a través de auto-supervisión, aprovechando el hecho de que el video natural contiene eventos de sonido y texturas recurrentes. Extraemos un fragmento de audio de un video y aplicamos mejora del habla. Luego entrenamos un modelo de difusión latente para recuperar el habla original, utilizando otro fragmento audiovisual tomado de otro lugar en el video como pista condicional. A través de este proceso, el modelo aprende a transferir las propiedades sonoras del ejemplo condicional al habla de entrada. Mostramos que nuestro modelo puede ser entrenado con éxito utilizando videos no etiquetados en entornos naturales, y que una señal visual adicional puede mejorar sus habilidades de predicción de sonido. Por favor, consulte la página web de nuestro proyecto para ver los resultados en video: https://tinglok.netlify.app/files/avsoundscape/