Artículos de investigación en IA seleccionados diariamente con traducciones
GPT-4o es un modelo omni autoregresivo que acepta como entrada cualquier combinación de texto, audio, imagen y video, y genera cualquier combinación de salidas de texto, audio e imagen. Está entrenado de extremo a extremo a través de texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal. GPT-4o puede responder a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, lo cual es similar al tiempo de respuesta humano en una conversación. Iguala el rendimiento de GPT-4 Turbo en texto en inglés y código, con una mejora significativa en texto en idiomas no ingleses, siendo además mucho más rápido y un 50\% más económico en la API. GPT-4o es especialmente superior en comprensión de visión y audio en comparación con modelos existentes. En línea con nuestro compromiso de construir IA de manera segura y consistente con nuestros compromisos voluntarios con la Casa Blanca, compartimos la Tarjeta del Sistema de GPT-4o, que incluye nuestras evaluaciones del Marco de Preparación. En esta Tarjeta del Sistema, ofrecemos una mirada detallada a las capacidades, limitaciones y evaluaciones de seguridad de GPT-4o en múltiples categorías, centrándonos en el habla a habla mientras también evaluamos las capacidades de texto e imagen, y las medidas que hemos implementado para garantizar que el modelo sea seguro y alineado. También incluimos evaluaciones de terceros sobre capacidades peligrosas, así como discusión sobre posibles impactos sociales de las capacidades de texto y visión de GPT-4o.
Presentamos Bielik 7B v0.1, un modelo generativo de texto de 7 mil millones de parámetros para el procesamiento del lenguaje polaco. Entrenado en corpus polacos seleccionados, este modelo aborda desafíos clave en el desarrollo de modelos de lenguaje a través de técnicas innovadoras. Estas incluyen la Pérdida de Entropía Cruzada de Instrucción Ponderada, que equilibra el aprendizaje de diferentes tipos de instrucciones, y la Tasa de Aprendizaje Adaptativa, que ajusta dinámicamente la tasa de aprendizaje según el progreso del entrenamiento. Para evaluar el rendimiento, creamos el Open PL LLM Leaderboard y Polish MT-Bench, marcos novedosos que evalúan diversas tareas de PNL y habilidades conversacionales. Bielik 7B v0.1 demuestra mejoras significativas, logrando un aumento de 9 puntos porcentuales en la puntuación promedio en comparación con Mistral-7B-v0.1 en la tarea de RAG Reader. También destaca en el Polish MT-Bench, especialmente en las categorías de Razonamiento (6.15/10) e Interpretación de Roles (7.83/10). Este modelo representa un avance sustancial en la IA del lenguaje polaco, ofreciendo una herramienta poderosa para diversas aplicaciones lingüísticas y estableciendo nuevos estándares en el campo.
Los Modelos de Lenguaje Pequeños (SLMs) han adquirido una importancia creciente debido a su eficiencia y rendimiento para llevar a cabo diversas tareas lingüísticas con recursos computacionales mínimos, lo que los hace ideales para distintos entornos, incluyendo dispositivos móviles, dispositivos de borde, entre otros. En este artículo, presentamos un estudio exhaustivo sobre los SLMs, centrándonos en sus arquitecturas, técnicas de entrenamiento y técnicas de compresión de modelos. Proponemos una nueva taxonomía para categorizar los métodos utilizados para optimizar los SLMs, incluyendo técnicas de compresión, poda y cuantificación de modelos. Resumimos los conjuntos de datos de referencia que son útiles para evaluar los SLMs junto con las métricas de evaluación comúnmente utilizadas. Además, destacamos los principales desafíos abiertos que aún deben abordarse. Nuestro estudio tiene como objetivo servir como un recurso valioso para investigadores y profesionales interesados en desarrollar e implementar modelos de lenguaje pequeños pero eficientes.
Los agentes digitales capaces de automatizar tareas informáticas complejas han atraído considerable atención debido a su inmenso potencial para mejorar la interacción humano-computadora. Sin embargo, los métodos de agentes existentes presentan deficiencias en sus capacidades de generalización y especialización, especialmente en el manejo de tareas informáticas de final abierto en entornos del mundo real. Inspirados en la rica funcionalidad de la tienda de aplicaciones, presentamos AgentStore, una plataforma escalable diseñada para integrar dinámicamente agentes heterogéneos para automatizar tareas informáticas. AgentStore capacita a los usuarios para integrar agentes de terceros, permitiendo que el sistema enriquezca continuamente sus capacidades y se adapte a sistemas operativos en evolución rápida. Además, proponemos un núcleo novedoso, MetaAgente, con la estrategia AgentToken para gestionar eficientemente diversos agentes y utilizar sus habilidades especializadas y generalistas tanto para tareas específicas de dominio como para tareas a nivel de sistema. Experimentos extensos en tres desafiantes benchmarks demuestran que AgentStore supera las limitaciones de sistemas anteriores con capacidades limitadas, logrando particularmente una mejora significativa del 11.21\% al 23.85% en el benchmark OSWorld, más que duplicando los resultados previos. Resultados cuantitativos y cualitativos exhaustivos demuestran además la capacidad de AgentStore para mejorar sistemas de agentes tanto en generalización como en especialización, subrayando su potencial para desarrollar un asistente informático generalista especializado. Todos nuestros códigos estarán disponibles públicamente en https://chengyou-jia.github.io/AgentStore-Home.
El análisis de documentos es esencial para convertir documentos no estructurados y semi-estructurados, como contratos, trabajos académicos y facturas, en datos estructurados y legibles por máquina. El análisis de documentos extrae datos estructurados confiables de entradas no estructuradas, brindando una gran conveniencia para numerosas aplicaciones. Especialmente con los logros recientes en Modelos de Lenguaje Grandes, el análisis de documentos desempeña un papel indispensable tanto en la construcción de bases de conocimiento como en la generación de datos de entrenamiento. Esta encuesta presenta una revisión exhaustiva del estado actual del análisis de documentos, abarcando metodologías clave, desde sistemas de canalización modular hasta modelos de extremo a extremo impulsados por grandes modelos de visión y lenguaje. Se examinan en detalle componentes fundamentales como la detección de diseño, extracción de contenido (incluyendo texto, tablas y expresiones matemáticas) e integración de datos multimodales. Además, este documento analiza los desafíos enfrentados por los sistemas modulares de análisis de documentos y los modelos de visión y lenguaje al manejar diseños complejos, integrar múltiples módulos y reconocer texto de alta densidad. Se enfatiza la importancia de desarrollar conjuntos de datos más grandes y diversos y se esbozan las futuras direcciones de investigación.
Presentamos MarDini, una nueva familia de modelos de difusión de video que integran las ventajas de la auto-regresión enmascarada (MAR) en un marco unificado de modelo de difusión (DM). Aquí, MAR se encarga de la planificación temporal, mientras que DM se centra en la generación espacial en un diseño de red asimétrica: i) un modelo de planificación basado en MAR que contiene la mayoría de los parámetros genera señales de planificación para cada fotograma enmascarado utilizando una entrada de baja resolución; ii) un modelo de generación ligero utiliza estas señales para producir fotogramas de alta resolución a través de la desenmascaración por difusión. El MAR de MarDini permite la generación de video condicionada a cualquier número de fotogramas enmascarados en cualquier posición de fotograma: un solo modelo puede manejar la interpolación de video (por ejemplo, enmascaramiento de fotogramas intermedios), generación de imagen a video (por ejemplo, enmascaramiento desde el segundo fotograma en adelante) y expansión de video (por ejemplo, enmascaramiento de la mitad de los fotogramas). El diseño eficiente asigna la mayoría de los recursos computacionales al modelo de planificación de baja resolución, lo que hace factible a gran escala una atención espacio-temporal computacionalmente costosa pero importante. MarDini establece un nuevo estado del arte para la interpolación de video; mientras tanto, en pocos pasos de inferencia, genera videos de manera eficiente al nivel de modelos avanzados mucho más costosos de imagen a video.
El entrenamiento en FP8 ha surgido como un método prometedor para mejorar la eficiencia del entrenamiento. Los marcos existentes aceleran el entrenamiento aplicando cálculos en FP8 a capas lineales mientras mantienen los estados del optimizador y las activaciones en una precisión superior, lo que no logra optimizar completamente el uso de la memoria. Este documento presenta COAT (Compresión de Estados del Optimizador y Activaciones para el Entrenamiento en FP8), un marco de entrenamiento en FP8 novedoso diseñado para reducir significativamente la huella de memoria al entrenar modelos grandes. COAT aborda las limitaciones actuales a través de dos innovaciones clave: (1) Expansión del Rango Dinámico, que alinea las distribuciones de estados del optimizador de manera más cercana con el rango de representación en FP8, reduciendo así el error de cuantificación, y (2) Cuantificación de Activaciones de Granularidad Mixta, que optimiza la memoria de activación utilizando una combinación de estrategias de cuantificación por tensor y por grupo. Los experimentos demuestran que COAT reduce efectivamente la huella de memoria de entrenamiento de extremo a extremo en 1.54 veces en comparación con BF16, logrando un rendimiento casi sin pérdidas en diversas tareas, como el preentrenamiento y ajuste fino de Modelos de Lenguaje Grandes y el entrenamiento de Modelos de Lenguaje Visual. COAT también logra una aceleración del entrenamiento de extremo a extremo de 1.43 veces en comparación con BF16, desempeñándose al nivel o superando la aceleración de TransformerEngine. COAT permite el entrenamiento eficiente de modelos grandes con todos los parámetros en menos GPUs, y facilita duplicar el tamaño del lote en entornos de entrenamiento distribuido, proporcionando una solución práctica para escalar el entrenamiento de modelos a gran escala. El código está disponible en https://github.com/NVlabs/COAT.
La restauración de imágenes (IR) en escenarios del mundo real presenta desafíos significativos debido a la falta de modelos de alta capacidad y conjuntos de datos completos. Para abordar estos problemas, presentamos una estrategia dual: GenIR, un innovador proceso de curación de datos, y DreamClear, un modelo de restauración de imágenes de vanguardia basado en el Transformer de Difusión (DiT). GenIR, nuestra contribución pionera, es un proceso de aprendizaje dual que supera las limitaciones de los conjuntos de datos existentes, que suelen constar solo de unas pocas mil imágenes y por lo tanto ofrecen una generalización limitada para modelos más grandes. GenIR simplifica el proceso en tres etapas: construcción de pares imagen-texto, ajuste fino basado en doble indicación y generación y filtrado de datos. Este enfoque evita el laborioso proceso de rastreo de datos, garantizando el cumplimiento de los derechos de autor y proporcionando una solución rentable y segura en términos de privacidad para la construcción de conjuntos de datos de IR. El resultado es un conjunto de datos a gran escala de un millón de imágenes de alta calidad. Nuestra segunda contribución, DreamClear, es un modelo de restauración de imágenes basado en DiT. Utiliza los precursores generativos de los modelos de difusión de texto a imagen (T2I) y las sólidas capacidades perceptivas de los grandes modelos de lenguaje multimodal (MLLM) para lograr una restauración fotorrealista. Para potenciar la adaptabilidad del modelo a diversas degradaciones del mundo real, introducimos la Mezcla de Modulador Adaptativo (MoAM). Emplea precursores de degradación a nivel de token para integrar dinámicamente varios expertos en restauración, ampliando así el rango de degradaciones que el modelo puede abordar. Nuestros exhaustivos experimentos confirman el rendimiento superior de DreamClear, subrayando la eficacia de nuestra estrategia dual para la restauración de imágenes del mundo real. El código y los modelos pre-entrenados estarán disponibles en: https://github.com/shallowdream204/DreamClear.
Aunque se han logrado avances significativos en el desarrollo de modelos de lenguaje grandes de largo contexto (LLMs, por sus siglas en inglés), la calidad comprometida de los datos sintetizados por LLM para el ajuste fino supervisado (SFT) a menudo afecta el rendimiento de largo contexto de los modelos SFT y conlleva limitaciones inherentes. En principio, el aprendizaje por refuerzo (RL) con señales de recompensa adecuadas puede mejorar aún más las capacidades de los modelos. Sin embargo, cómo obtener recompensas confiables en escenarios de largo contexto sigue sin explorarse. Con este fin, proponemos LongReward, un método novedoso que utiliza un LLM listo para usar para proporcionar recompensas a las respuestas del modelo de largo contexto desde cuatro dimensiones valoradas por humanos: utilidad, lógica, fidelidad y completitud, cada una con un proceso de evaluación cuidadosamente diseñado. Al combinar LongReward y el algoritmo de RL fuera de línea DPO, podemos mejorar de manera efectiva los modelos SFT de largo contexto. Nuestros experimentos indican que LongReward no solo mejora significativamente el rendimiento de largo contexto de los modelos, sino que también mejora su capacidad para seguir instrucciones cortas. También descubrimos que DPO de largo contexto con LongReward y DPO de corto contexto convencional pueden utilizarse juntos sin afectar el rendimiento de ninguno de los dos.
Introducimos una novedosa técnica de anclaje espacial sin entrenamiento para la generación de texto a imagen utilizando Transformadores de Difusión (DiT). El anclaje espacial con cajas delimitadoras ha ganado atención por su simplicidad y versatilidad, permitiendo un mayor control por parte del usuario en la generación de imágenes. Sin embargo, enfoques previos sin entrenamiento a menudo dependen de actualizar la imagen ruidosa durante el proceso de difusión inversa a través de retropropagación desde funciones de pérdida personalizadas, lo que frecuentemente dificulta proporcionar un control preciso sobre cada caja delimitadora individual. En este trabajo, aprovechamos la flexibilidad de la arquitectura Transformer, demostrando que DiT puede generar parches ruidosos correspondientes a cada caja delimitadora, codificando completamente el objeto objetivo y permitiendo un control detallado sobre cada región. Nuestro enfoque se basa en una propiedad intrigante de DiT, a la que nos referimos como compartición semántica. Debido a la compartición semántica, cuando un parche más pequeño se desruidiza conjuntamente con una imagen de tamaño generable, los dos se convierten en "clones semánticos". Cada parche se desruidiza en su propia rama del proceso de generación y luego se trasplanta en la región correspondiente de la imagen ruidosa original en cada paso de tiempo, lo que resulta en un anclaje espacial robusto para cada caja delimitadora. En nuestros experimentos en los conjuntos de datos HRS y DrawBench, logramos un rendimiento de vanguardia en comparación con enfoques previos de anclaje espacial sin entrenamiento.
Los motores de búsqueda permiten la recuperación de información desconocida a través de textos. Sin embargo, los métodos tradicionales son insuficientes cuando se trata de comprender contenido visual desconocido, como identificar un objeto que el modelo nunca ha visto antes. Este desafío es especialmente notable para los modelos de visión-lenguaje (VLMs) a gran escala: si el modelo no ha sido expuesto al objeto representado en una imagen, le resulta difícil generar respuestas confiables a la pregunta del usuario sobre esa imagen. Además, dado que constantemente surgen nuevos objetos y eventos, actualizar frecuentemente los VLMs resulta poco práctico debido a las pesadas cargas computacionales. Para abordar esta limitación, proponemos Vision Search Assistant, un marco novedoso que facilita la colaboración entre los VLMs y agentes web. Este enfoque aprovecha las capacidades de comprensión visual de los VLMs y el acceso a información en tiempo real de los agentes web para llevar a cabo Generación con Recuperación Aumentada en un mundo abierto a través de la web. Al integrar representaciones visuales y textuales a través de esta colaboración, el modelo puede proporcionar respuestas informadas incluso cuando la imagen es nueva para el sistema. Experimentos extensos realizados en bancos de pruebas de preguntas y respuestas tanto de conjunto abierto como cerrado demuestran que el Vision Search Assistant supera significativamente a otros modelos y puede aplicarse ampliamente a los VLMs existentes.
La implementación segura y efectiva de Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) implica un paso crítico llamado alineación, que garantiza que las respuestas del modelo estén en concordancia con las preferencias humanas. Técnicas de alineación prevalentes, como DPO, PPO y sus variantes, alinean los LLMs modificando los pesos del modelo pre-entrenado durante una fase llamada post-entrenamiento. Aunque predominantes, estos métodos de post-entrenamiento añaden una complejidad sustancial antes de que los LLMs puedan ser implementados. Los métodos de alineación en tiempo de inferencia evitan el paso complejo de post-entrenamiento y en su lugar sesgan la generación hacia respuestas alineadas con las preferencias humanas. El método de alineación en tiempo de inferencia más conocido, llamado Mejor-de-N, es tan efectivo como los procedimientos de post-entrenamiento de vanguardia. Desafortunadamente, Mejor-de-N requiere considerablemente más recursos en tiempo de inferencia que las estrategias de decodificación estándar, lo que lo hace computacionalmente inviable. En este trabajo, presentamos el Rechazo Especulativo, un algoritmo de alineación en tiempo de inferencia computacionalmente viable. Genera respuestas con puntajes altos de acuerdo con un modelo de recompensa dado, al igual que Mejor-de-N, siendo entre 16 y 32 veces más eficiente computacionalmente.
Presentamos LARP, un novedoso tokenizador de video diseñado para superar las limitaciones en los métodos actuales de tokenización de video para modelos generativos autoregresivos (AR). A diferencia de los tokenizadores tradicionales basados en parches que codifican directamente parches visuales locales en tokens discretos, LARP introduce un esquema de tokenización holístico que recopila información del contenido visual utilizando un conjunto de consultas holísticas aprendidas. Este diseño permite a LARP capturar representaciones más globales y semánticas, en lugar de estar limitado a información a nivel de parche local. Además, ofrece flexibilidad al admitir un número arbitrario de tokens discretos, lo que permite una tokenización adaptativa y eficiente basada en los requisitos específicos de la tarea. Para alinear el espacio de tokens discretos con las tareas de generación AR subsiguientes, LARP integra un transformador AR ligero como modelo prior en tiempo de entrenamiento que predice el próximo token en su espacio latente discreto. Al incorporar el modelo prior durante el entrenamiento, LARP aprende un espacio latente que no solo está optimizado para la reconstrucción de video, sino que también está estructurado de una manera más propicia para la generación autoregresiva. Además, este proceso define un orden secuencial para los tokens discretos, empujándolos progresivamente hacia una configuración óptima durante el entrenamiento, asegurando una generación AR más suave y precisa en el momento de la inferencia. Experimentos exhaustivos demuestran el sólido rendimiento de LARP, logrando el estado del arte en FVD en el benchmark de generación de video condicional de la clase UCF101. LARP mejora la compatibilidad de los modelos AR con videos y abre el potencial para construir modelos de lenguaje multimodal unificados de alta fidelidad (MLLMs).
En este trabajo, reformulamos el problema de compresión de modelos en el problema de compensación personalizada: Dado un modelo comprimido, nuestro objetivo es introducir rutas residuales de bajo rango para compensar los errores de compresión bajo requisitos personalizados de los usuarios (por ejemplo, tareas, ratios de compresión), lo que resulta en una mayor flexibilidad para ajustar la capacidad general sin estar limitados por formatos de compresión específicos. Sin embargo, aplicar ingenuamente la Descomposición en Valores Singulares (SVD, por sus siglas en inglés) para derivar rutas residuales causa una utilización subóptima de la capacidad de representación de bajo rango. En su lugar, proponemos la Aproximación de Bajo Rango del Espacio Propio sin Entrenamiento (EoRA, por sus siglas en inglés), un método que minimiza directamente los errores inducidos por la compresión sin necesidad de entrenamiento basado en gradientes, logrando una optimización rápida en minutos utilizando una pequeña cantidad de datos de calibración. EoRA proyecta los errores de compresión en el espacio propio de las activaciones de entrada, aprovechando los autovalores para priorizar de manera efectiva la reconstrucción de componentes de error de alta importancia. Además, EoRA puede integrarse fácilmente con el ajuste fino y la cuantificación para mejorar aún más la efectividad y eficiencia. EoRA supera consistentemente a métodos anteriores en la compensación de errores para modelos LLaMA2/3 comprimidos en diversas tareas, como generación de lenguaje, razonamiento de sentido común y tareas de razonamiento matemático (por ejemplo, mejoras del 31.31%/12.88% y 9.69% en ARC-Easy/ARC-Challenge y MathQA al compensar LLaMA3-8B cuantificado a 4 bits y podado a una dispersión de 2:4). EoRA ofrece una solución escalable y sin entrenamiento para compensar errores de compresión, convirtiéndose en una herramienta poderosa para implementar LLMs en diversos requisitos de capacidad y eficiencia.
Los modelos de lenguaje grandes (LLMs) son costosos de implementar. El uso compartido de parámetros ofrece un posible camino para reducir su tamaño y coste, pero su efectividad en los LLMs modernos sigue siendo bastante limitada. En este trabajo, revisitamos el "anudamiento de capas" como una forma de compartir parámetros en Transformadores, e introducimos métodos novedosos para convertir LLMs existentes en "Transformadores Recursivos" más pequeños que comparten parámetros entre capas, con una pérdida mínima de rendimiento. Aquí, nuestros Transformadores Recursivos se inicializan eficientemente a partir de Transformadores preentrenados estándar, pero solo utilizan un bloque único de capas que luego se repite varias veces en un bucle. Mejoramos aún más el rendimiento al introducir Transformadores Recursivos Relajados que añaden flexibilidad a la restricción de anudamiento de capas a través de módulos de adaptación de rango bajo (LoRA) en profundidad, manteniendo la compacidad del modelo en general. Mostramos que nuestros modelos recursivos (por ejemplo, Gemma 1B recursivo) superan tanto a modelos preentrenados similares en tamaño (como TinyLlama 1.1B y Pythia 1B) como a líneas base de destilación de conocimiento, e incluso pueden recuperar la mayor parte del rendimiento del modelo "tamaño completo" original (por ejemplo, Gemma 2B sin parámetros compartidos). Finalmente, proponemos el "Agrupamiento Continuo en Profundidad", un nuevo paradigma prometedor de inferencia habilitado por el Transformador Recursivo cuando se combina con la salida temprana. En un análisis teórico, mostramos que esto tiene el potencial de llevar a ganancias significativas (2-3 veces) en el rendimiento de inferencia.
Los videos suelen utilizarse para aprender o extraer la información necesaria para completar tareas de formas diferentes a las que solo el texto y las imágenes estáticas pueden proporcionar. Sin embargo, muchos benchmarks existentes de agentes descuidan la comprensión de videos de largo contexto, centrándose en cambio en entradas de texto o imágenes estáticas. Para cerrar esta brecha, presentamos VideoWebArena (VideoWA), un benchmark para evaluar las capacidades de agentes multimodales de largo contexto en la comprensión de videos. VideoWA consta de 2,021 tareas de agentes web basadas en tutoriales de video creados manualmente, que en total suman casi cuatro horas de contenido. Para nuestro benchmark, definimos una taxonomía de tareas de agentes basadas en videos de largo contexto con dos áreas principales de enfoque: retención de habilidades y retención de hechos. Mientras que las tareas de retención de habilidades evalúan si un agente puede utilizar una demostración humana dada para completar una tarea eficientemente, la tarea de retención de hechos evalúa si un agente puede recuperar información relevante para la instrucción de un video para completar una tarea. Encontramos que el mejor modelo logra un 13.3% de éxito en tareas de retención de hechos y un 45.8% en pares de preguntas y respuestas de retención de hechos, muy por debajo del rendimiento humano que es del 73.9% y 79.3%, respectivamente. En tareas de retención de habilidades, los modelos de largo contexto tienen un peor rendimiento con tutoriales que sin ellos, mostrando una disminución del rendimiento del 5% en tareas de WebArena y del 10.3% en tareas de VisualWebArena. Nuestro trabajo destaca la necesidad de mejorar las habilidades agentes de modelos multimodales de largo contexto y proporciona una plataforma de pruebas para el desarrollo futuro con agentes de video de largo contexto.
Los Campos Neuronales han surgido como un enfoque transformador para la representación de escenas 3D en visión por computadora y robótica, permitiendo una inferencia precisa de la geometría, semántica 3D y dinámica a partir de datos 2D planteados. Aprovechando el renderizado diferenciable, los Campos Neuronales abarcan tanto representaciones neuronales implícitas como explícitas continuas que permiten una reconstrucción 3D de alta fidelidad, la integración de datos de sensores multimodales y la generación de nuevos puntos de vista. Esta revisión explora sus aplicaciones en robótica, enfatizando su potencial para mejorar la percepción, planificación y control. Su compacidad, eficiencia de memoria y diferenciabilidad, junto con la integración perfecta con modelos fundamentales y generativos, los hacen ideales para aplicaciones en tiempo real, mejorando la adaptabilidad y la toma de decisiones de los robots. Este documento proporciona una revisión exhaustiva de los Campos Neuronales en robótica, categorizando las aplicaciones en diversos dominios y evaluando sus fortalezas y limitaciones, basándose en más de 200 artículos. En primer lugar, presentamos cuatro marcos clave de Campos Neuronales: Redes de Ocupación, Campos de Distancia Firmada, Campos de Radiación Neuronal y Splatting Gaussiano. En segundo lugar, detallamos las aplicaciones de los Campos Neuronales en cinco dominios principales de robótica: estimación de pose, manipulación, navegación, física y conducción autónoma, destacando trabajos clave y discutiendo conclusiones y desafíos abiertos. Por último, esbozamos las limitaciones actuales de los Campos Neuronales en robótica y proponemos direcciones prometedoras para futuras investigaciones. Página del proyecto: https://robonerf.github.io
Derivar de manera eficiente flujos de trabajo estructurados a partir de diálogos no anotados sigue siendo un desafío poco explorado y formidable en lingüística computacional. Automatizar este proceso podría acelerar significativamente el diseño manual de flujos de trabajo en nuevos dominios y permitir la fundamentación de grandes modelos de lenguaje en diagramas de flujo específicos del dominio, mejorando la transparencia y la controlabilidad. En este artículo, presentamos los embeddings de Dialog2Flow (D2F), que difieren de los embeddings de oraciones convencionales al mapear enunciados a un espacio latente donde se agrupan según sus funciones comunicativas e informativas (es decir, las acciones que representan). D2F permite modelar diálogos como trayectorias continuas en un espacio latente con regiones distintas relacionadas con las acciones. Al clusterizar los embeddings de D2F, el espacio latente se cuantifica y los diálogos pueden convertirse en secuencias de identificadores de región/acción, facilitando la extracción del flujo de trabajo subyacente. Para pre-entrenar D2F, construimos un conjunto de datos integral unificando veinte conjuntos de datos de diálogos orientados a tareas con anotaciones normalizadas de acciones por turno. También introducimos una nueva pérdida contrastiva suave que aprovecha la información semántica de estas acciones para guiar el proceso de aprendizaje de representación, mostrando un rendimiento superior en comparación con la pérdida contrastiva supervisada estándar. La evaluación frente a varios embeddings de oraciones, incluidos los específicos de diálogos, demuestra que D2F produce resultados cualitativos y cuantitativos superiores en diversos dominios.
Esta investigación evalúa el papel de los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) como herramientas formales de segunda opinión en la toma de decisiones profesionales, centrándose especialmente en casos médicos complejos donde incluso médicos experimentados buscan consultas de colegas. El trabajo analizó 183 casos médicos desafiantes de Medscape durante un período de 20 meses, evaluando el rendimiento de múltiples LLMs frente a las respuestas de médicos recopiladas de la multitud. Un hallazgo clave fue la alta puntuación general posible en los últimos modelos fundamentales (>80% de precisión en comparación con la opinión de consenso), superando la mayoría de las métricas humanas reportadas en los mismos casos clínicos (450 páginas de perfiles de pacientes, resultados de pruebas). El estudio evalúa la disparidad en el rendimiento de los LLMs entre casos sencillos (>81% de precisión) y escenarios complejos (43% de precisión), especialmente en aquellos casos que generan un debate sustancial entre los médicos humanos. La investigación demuestra que los LLMs pueden ser valiosos como generadores de diagnósticos diferenciales completos en lugar de como herramientas de diagnóstico primarias, potencialmente ayudando a contrarrestar los sesgos cognitivos en la toma de decisiones clínicas, reducir las cargas cognitivas y, por lo tanto, eliminar algunas fuentes de error médico. La inclusión de un segundo conjunto de datos legales comparativos (casos de la Corte Suprema, N=21) proporciona un contexto empírico adicional para el uso de la IA en fomentar segundas opiniones, aunque estos desafíos legales resultaron considerablemente más fáciles de analizar para los LLMs. Además de las contribuciones originales de evidencia empírica para la precisión de los LLMs, la investigación agregó un nuevo punto de referencia para que otros evalúen la fiabilidad de preguntas y respuestas altamente disputadas entre tanto los LLMs como los profesionales humanos en desacuerdo. Estos resultados sugieren que el despliegue óptimo de los LLMs en entornos profesionales puede diferir sustancialmente de los enfoques actuales que enfatizan la automatización de tareas rutinarias.
Dado el alto costo de recolectar datos robóticos en el mundo real, la eficiencia de la muestra es una búsqueda constantemente convincente en robótica. En este documento, presentamos SGRv2, un marco de aprendizaje por imitación que mejora la eficiencia de la muestra a través de representaciones visuales y de acción mejoradas. Central en el diseño de SGRv2 es la incorporación de un sesgo inductivo crítico: la localidad de la acción, que postula que las acciones del robot son predominantemente influenciadas por el objeto objetivo y sus interacciones con el entorno local. Experimentos extensos en entornos simulados y del mundo real demuestran que la localidad de la acción es esencial para aumentar la eficiencia de la muestra. SGRv2 destaca en tareas de RLBench con control de fotograma clave utilizando tan solo 5 demostraciones y supera la línea base de RVT en 23 de 26 tareas. Además, al ser evaluado en ManiSkill2 y MimicGen utilizando control denso, la tasa de éxito de SGRv2 es 2.54 veces mayor que la de SGR. En entornos del mundo real, con tan solo ocho demostraciones, SGRv2 puede realizar una variedad de tareas con una tasa de éxito notablemente más alta en comparación con los modelos base. Sitio web del proyecto: http://sgrv2-robot.github.io
El aprendizaje por imitación a partir de datos de captura de movimiento humano (MoCap) ofrece una forma prometedora de entrenar robots humanoides. Sin embargo, debido a diferencias en la morfología, como variaciones en los grados de libertad de las articulaciones y límites de fuerza, la replicación exacta de comportamientos humanos puede no ser factible para los robots humanoides. En consecuencia, la incorporación de datos MoCap físicamente inviables en conjuntos de datos de entrenamiento puede afectar negativamente el rendimiento de la política del robot. Para abordar este problema, proponemos un marco de aprendizaje por imitación basado en optimización de dos niveles que alterna entre la optimización de la política del robot y los datos MoCap objetivo. Específicamente, primero desarrollamos un modelo generativo de dinámicas latentes utilizando un novedoso auto-codificador auto-consistente, que aprende representaciones de movimiento dispersas y estructuradas mientras captura patrones de movimiento deseados en el conjunto de datos. Luego, el modelo de dinámicas se utiliza para generar movimientos de referencia mientras que la representación latente regulariza el proceso de imitación de movimiento de dos niveles. Simulaciones realizadas con un modelo realista de un robot humanoide demuestran que nuestro método mejora la política del robot al modificar los movimientos de referencia para que sean físicamente consistentes.