Artículos de investigación en IA seleccionados diariamente con traducciones
Demostramos que el aprendizaje por refuerzo con recompensa verificable utilizando un solo ejemplo de entrenamiento (RLVR de 1-shot) es efectivo para potenciar las capacidades de razonamiento matemático de los modelos de lenguaje grandes (LLMs). Al aplicar RLVR al modelo base Qwen2.5-Math-1.5B, identificamos un único ejemplo que eleva el rendimiento del modelo en MATH500 del 36.0% al 73.6%, y mejora el rendimiento promedio en seis benchmarks comunes de razonamiento matemático del 17.6% al 35.7%. Este resultado coincide con el rendimiento obtenido utilizando el subconjunto DeepScaleR de 1.2k ejemplos (MATH500: 73.6%, promedio: 35.9%), que incluye el ejemplo mencionado. Se observan mejoras sustanciales similares en varios modelos (Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), algoritmos de RL (GRPO y PPO) y diferentes ejemplos matemáticos (muchos de los cuales producen una mejora de aproximadamente 30% o más en MATH500 cuando se utilizan como un único ejemplo de entrenamiento). Además, identificamos algunos fenómenos interesantes durante RLVR de 1-shot, incluyendo la generalización cruzada entre dominios, un aumento en la frecuencia de autorreflexión y una mejora sostenida en el rendimiento de prueba incluso después de que la precisión en el entrenamiento se ha saturado, un fenómeno que denominamos generalización post-saturación. Asimismo, verificamos que la efectividad de RLVR de 1-shot surge principalmente de la pérdida del gradiente de la política, distinguiéndola del fenómeno de "grokking". También demostramos el papel crítico de fomentar la exploración (por ejemplo, añadiendo una pérdida de entropía con un coeficiente adecuado) en el entrenamiento de RLVR de 1-shot. Como beneficio adicional, observamos que aplicar únicamente la pérdida de entropía, sin ninguna recompensa por resultado, mejora significativamente el rendimiento de Qwen2.5-Math-1.5B en MATH500 en un 27.4%. Estos hallazgos pueden inspirar trabajos futuros sobre la eficiencia de datos en RLVR y fomentar una reevaluación tanto del progreso reciente como de los mecanismos subyacentes en RLVR. Nuestro código, modelo y datos son de código abierto en https://github.com/ypwang61/One-Shot-RLVR.
Medir el progreso es fundamental para el avance de cualquier campo científico. A medida que los puntos de referencia desempeñan un papel cada vez más central, también se vuelven más susceptibles a distorsiones. Chatbot Arena ha surgido como el principal tablero de clasificación para ordenar los sistemas de IA más capaces. Sin embargo, en este trabajo identificamos problemas sistemáticos que han resultado en un campo de juego distorsionado. Descubrimos que las prácticas no reveladas de pruebas privadas benefician a un puñado de proveedores que pueden probar múltiples variantes antes del lanzamiento público y retirar puntuaciones si lo desean. Establecemos que la capacidad de estos proveedores para elegir la mejor puntuación conduce a puntuaciones sesgadas en la Arena debido a la divulgación selectiva de los resultados de rendimiento. En un caso extremo, identificamos 27 variantes privadas de LLM probadas por Meta en el período previo al lanzamiento de Llama-4. También establecemos que los modelos cerrados propietarios se muestrean a tasas más altas (número de batallas) y tienen menos modelos eliminados de la arena que las alternativas de peso abierto y código abierto. Ambas políticas conducen a grandes asimetrías en el acceso a los datos con el tiempo. Proveedores como Google y OpenAI han recibido aproximadamente el 19,2% y el 20,4% de todos los datos en la arena, respectivamente. En contraste, un total de 83 modelos de peso abierto han recibido solo aproximadamente el 29,7% de los datos totales. Demostramos que el acceso a los datos de Chatbot Arena ofrece beneficios sustanciales; incluso datos adicionales limitados pueden resultar en ganancias de rendimiento relativo de hasta el 112% en la distribución de la arena, según nuestras estimaciones conservadoras. Juntos, estos dinámicas resultan en un sobreajuste a las dinámicas específicas de la Arena en lugar de la calidad general del modelo. La Arena se basa en los esfuerzos sustanciales tanto de los organizadores como de una comunidad abierta que mantiene esta valiosa plataforma de evaluación. Ofrecemos recomendaciones prácticas para reformar el marco de evaluación de Chatbot Arena y promover puntos de referencia más justos y transparentes para el campo.
La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) ha demostrado un potencial considerable para mejorar la precisión factual al fundamentar las respuestas del modelo con conocimiento externo relevante para las consultas. Sin embargo, la mayoría de los enfoques RAG existentes se limitan a un corpus exclusivamente textual, y aunque esfuerzos recientes han extendido RAG a otras modalidades, como imágenes y videos, estos suelen operar sobre un corpus específico de una sola modalidad. En contraste, las consultas del mundo real varían ampliamente en el tipo de conocimiento que requieren, lo cual no puede ser abordado por un único tipo de fuente de conocimiento. Para resolver esto, presentamos UniversalRAG, un novedoso marco RAG diseñado para recuperar e integrar conocimiento de fuentes heterogéneas con diversas modalidades y niveles de granularidad. Específicamente, motivados por la observación de que forzar todas las modalidades en un espacio de representación unificado derivado de un corpus combinado único causa una brecha de modalidad, donde la recuperación tiende a favorecer elementos de la misma modalidad que la consulta, proponemos un mecanismo de enrutamiento consciente de la modalidad que identifica dinámicamente el corpus específico de la modalidad más apropiado y realiza una recuperación dirigida dentro de él. Además, más allá de la modalidad, organizamos cada modalidad en múltiples niveles de granularidad, permitiendo una recuperación ajustada a la complejidad y alcance de la consulta. Validamos UniversalRAG en 8 benchmarks que abarcan múltiples modalidades, demostrando su superioridad sobre líneas base específicas de modalidad y unificadas.
Presentamos ReasonIR-8B, el primer recuperador específicamente entrenado para tareas de razonamiento general. Los recuperadores existentes han mostrado ganancias limitadas en tareas de razonamiento, en parte porque los conjuntos de datos de entrenamiento actuales se centran en consultas factuales cortas vinculadas a documentos que las responden de manera directa. Desarrollamos una pipeline de generación de datos sintéticos que, para cada documento, crea una consulta desafiante y relevante, junto con un negativo difícil que es plausiblemente relacionado pero finalmente inútil. Al entrenar con una mezcla de nuestros datos sintéticos y datos públicos existentes, ReasonIR-8B alcanza un nuevo estado del arte de 29.9 nDCG@10 sin reranker y 36.9 nDCG@10 con reranker en BRIGHT, un punto de referencia ampliamente utilizado para la recuperación de información (IR) intensiva en razonamiento. Cuando se aplica a tareas de RAG, ReasonIR-8B mejora el rendimiento en MMLU y GPQA en un 6.4% y 22.6% respectivamente, en comparación con la línea base de libro cerrado, superando a otros recuperadores y motores de búsqueda. Además, ReasonIR-8B utiliza el cómputo en tiempo de prueba de manera más efectiva: en BRIGHT, su rendimiento aumenta consistentemente con consultas reescritas más largas y ricas en información; continúa superando a otros recuperadores cuando se combina con un reranker basado en LLM. Nuestra receta de entrenamiento es general y puede extenderse fácilmente a futuros LLMs; con este fin, liberamos nuestro código, datos y modelo como código abierto.
Los métodos de alineación basados en recompensas para modelos de lenguaje de gran escala (LLMs) enfrentan dos limitaciones clave: vulnerabilidad al "hackeo de recompensas", donde los modelos explotan fallas en la señal de recompensa; y dependencia de ingeniería de prompts frágil y laboriosa cuando los LLMs se utilizan como modelos de recompensa. Introducimos Meta Policy Optimization (MPO), un marco que aborda estos desafíos al integrar un modelo de meta-recompensa que refina dinámicamente el prompt del modelo de recompensa durante el entrenamiento. En MPO, el modelo de meta-recompensa monitorea el contexto de entrenamiento en evolución y ajusta continuamente el prompt del modelo de recompensa para mantener una alta alineación, proporcionando una señal de recompensa adaptativa que resiste la explotación por parte de la política. Este enfoque de meta-aprendizaje promueve una optimización de políticas más estable y reduce significativamente la necesidad de diseño manual de prompts de recompensa. Además, logra un rendimiento comparable o superior al de modelos guiados por prompts de recompensa extensamente diseñados a mano. También demostramos que MPO mantiene su eficacia en diversas tareas, como respuesta a preguntas y razonamiento matemático, sin requerir diseños de recompensa especializados. Más allá del RLAIF estándar, la formulación de meta-aprendizaje de MPO es fácilmente extensible a marcos de alineación de mayor nivel. En general, este método aborda desafíos teóricos y prácticos en la alineación basada en recompensas mediante RL para LLMs, allanando el camino para estrategias de alineación más robustas y adaptables. El código y los modelos se compartirán públicamente.
Este artículo presenta un enfoque efectivo para aprender modelos novedosos de mundos encarnados en 4D, los cuales predicen la evolución dinámica de escenas 3D a lo largo del tiempo en respuesta a las acciones de un agente encarnado, proporcionando consistencia tanto espacial como temporal. Proponemos aprender un modelo de mundo 4D entrenando con videos RGB-DN (RGB, profundidad y normales). Esto no solo supera a los modelos 2D tradicionales al incorporar detalles de forma, configuración y cambios temporales en sus predicciones, sino que también nos permite aprender de manera efectiva modelos dinámicos inversos precisos para un agente encarnado. Específicamente, primero extendemos los conjuntos de datos existentes de videos de manipulación robótica con información de profundidad y normales utilizando modelos disponibles. Luego, ajustamos un modelo de generación de videos en este conjunto de datos anotado, el cual predice conjuntamente RGB-DN (RGB, profundidad y normales) para cada fotograma. Posteriormente, presentamos un algoritmo para convertir directamente los videos generados de RGB, profundidad y normales en una escena 4D de alta calidad del mundo. Nuestro método asegura coherencia temporal y espacial en las predicciones de escenas 4D a partir de escenarios encarnados, permite la síntesis de vistas novedosas para entornos encarnados y facilita el aprendizaje de políticas que superan significativamente a las derivadas de modelos de mundo basados en videos anteriores.
La edición de imágenes basada en instrucciones permite una modificación robusta de imágenes mediante indicaciones en lenguaje natural; sin embargo, los métodos actuales enfrentan un equilibrio entre precisión y eficiencia. Los métodos de ajuste fino requieren recursos computacionales significativos y grandes conjuntos de datos, mientras que las técnicas libres de entrenamiento luchan con la comprensión de instrucciones y la calidad de la edición. Resolvemos este dilema aprovechando la capacidad de generación mejorada del Transformer de Difusión a Gran Escala (DiT) y su conciencia contextual nativa. Nuestra solución introduce tres contribuciones: (1) un marco de edición en contexto para el cumplimiento de instrucciones en modo zero-shot utilizando indicaciones en contexto, evitando cambios estructurales; (2) una estrategia híbrida de ajuste LoRA-MoE que mejora la flexibilidad con una adaptación eficiente y un enrutamiento dinámico de expertos, sin necesidad de un reentrenamiento extensivo; y (3) un método de escalado en tiempo de inferencia con filtro temprano que utiliza modelos de visión-lenguaje (VLMs) para seleccionar mejor el ruido inicial de manera temprana, mejorando la calidad de la edición. Evaluaciones exhaustivas demuestran la superioridad de nuestro método: supera a los enfoques más avanzados mientras requiere solo el 0.5% de los datos de entrenamiento y el 1% de los parámetros entrenables en comparación con los métodos convencionales. Este trabajo establece un nuevo paradigma que permite una edición guiada por instrucciones de alta precisión y eficiente. Los códigos y demostraciones pueden encontrarse en https://river-zhang.github.io/ICEdit-gh-pages/.
La exposición de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) a material protegido por derechos de autor durante el preentrenamiento plantea preocupaciones sobre la infracción involuntaria de derechos de autor después del despliegue. Esto ha impulsado el desarrollo de métodos de "eliminación de derechos de autor", enfoques posteriores al entrenamiento destinados a evitar que los modelos generen contenido sustancialmente similar al protegido. Si bien los enfoques actuales de mitigación son algo efectivos para los riesgos promedio, demostramos que pasan por alto los riesgos extremos de infracción de derechos de autor, evidenciados por la existencia de citas largas y textuales de fuentes protegidas. Proponemos BloomScrub, un enfoque notablemente simple pero altamente efectivo en tiempo de inferencia que ofrece una eliminación certificada de derechos de autor. Nuestro método intercala repetidamente la detección de citas con técnicas de reescritura para transformar segmentos potencialmente infractores. Al aprovechar esbozos de datos eficientes (filtros Bloom), nuestro enfoque permite un cribado escalable de derechos de autor incluso para corpus del mundo real a gran escala. Cuando las citas que superan un umbral de longitud no pueden eliminarse, el sistema puede abstenerse de responder, ofreciendo una reducción certificada del riesgo. Los resultados experimentales muestran que BloomScrub reduce el riesgo de infracción, preserva la utilidad y se adapta a diferentes niveles de rigurosidad en la aplicación mediante la abstención adaptativa. Nuestros resultados sugieren que los métodos ligeros en tiempo de inferencia pueden ser sorprendentemente efectivos para la prevención de infracciones de derechos de autor.
Proponemos X-Fusion, un marco que extiende los modelos de lenguaje grande (LLMs) preentrenados para tareas multimodales mientras preserva sus capacidades lingüísticas. X-Fusion emplea un diseño de doble torre con pesos específicos para cada modalidad, manteniendo congelados los parámetros del LLM mientras integra información específica de visión tanto para comprensión como para generación. Nuestros experimentos demuestran que X-Fusion supera consistentemente a arquitecturas alternativas en tareas de imagen a texto y de texto a imagen. Encontramos que incorporar datos enfocados en la comprensión mejora la calidad de la generación, que reducir el ruido en los datos de imagen mejora el rendimiento general, y que la alineación de características acelera la convergencia para modelos más pequeños pero tiene un impacto mínimo en los más grandes. Nuestros hallazgos proporcionan insights valiosos para construir modelos multimodales unificados y eficientes.
Los Modelos Multimodales de Gran Escala (por ejemplo, GPT-4, Gemini, Chameleon) han evolucionado hasta convertirse en herramientas potentes con millones de usuarios. Sin embargo, siguen siendo modelos genéricos y carecen de conocimiento personalizado sobre conceptos específicos de los usuarios. Trabajos anteriores han explorado la personalización para la generación de texto, pero aún no está claro cómo estos métodos pueden adaptarse a nuevas modalidades, como la generación de imágenes. En este artículo, presentamos Yo'Chameleon, el primer intento de estudiar la personalización para modelos multimodales de gran escala. Dadas 3-5 imágenes de un concepto particular, Yo'Chameleon aprovecha el ajuste de "soft-prompt" para incorporar información específica del sujeto con el fin de (i) responder preguntas sobre el sujeto y (ii) recrear detalles a nivel de píxeles para producir imágenes del sujeto en nuevos contextos. Yo'Chameleon se entrena con (i) un mecanismo de optimización de auto-prompting para equilibrar el rendimiento en múltiples modalidades, y (ii) un enfoque de generación de imágenes "soft-positive" para mejorar la calidad de las imágenes en un entorno de pocos ejemplos.
Entrenar modelos de lenguaje de gran escala (LLMs) como agentes interactivos presenta desafíos únicos, incluyendo la toma de decisiones a largo plazo y la interacción con retroalimentación estocástica del entorno. Si bien el aprendizaje por refuerzo (RL) ha permitido avances en tareas estáticas, el entrenamiento de agentes RL en múltiples turnos sigue siendo poco explorado. Proponemos StarPO (Optimización de Políticas de Estado-Pensamiento-Acciones-Recompensa), un marco general para RL de agentes a nivel de trayectoria, e introducimos RAGEN, un sistema modular para entrenar y evaluar agentes LLM. Nuestro estudio en tres entornos estilizados revela tres hallazgos principales. Primero, nuestro entrenamiento de agentes RL muestra un modo recurrente de "Trampa de Eco" donde se observan acantilados de varianza en la recompensa y picos en los gradientes; abordamos esto con StarPO-S, una variante estabilizada con filtrado de trayectorias, incorporación de críticos y recorte desacoplado. Segundo, encontramos que la configuración de los rollouts de RL se beneficiaría de estados iniciales diversos, una granularidad de interacción media y un muestreo más frecuente. Tercero, demostramos que, sin señales de recompensa detalladas y conscientes del razonamiento, el razonamiento del agente difícilmente emerge a través de RL en múltiples turnos, y pueden mostrar estrategias superficiales o pensamientos alucinados. El código y los entornos están disponibles en https://github.com/RAGEN-AI/RAGEN.
La generación de drama espacial inmersivo multimodal se centra en crear discursos binaurales continuos de múltiples hablantes con prosodia dramática basados en indicaciones multimodales, con aplicaciones potenciales en realidad aumentada (AR), realidad virtual (VR) y otros campos. Esta tarea requiere el modelado simultáneo de información espacial y prosodia dramática basado en entradas multimodales, con altos costos de recopilación de datos. Hasta donde sabemos, nuestro trabajo es el primer intento de abordar estos desafíos. Construimos MRSDrama, el primer conjunto de datos de drama espacial grabado multimodal, que contiene audios binaurales de drama, guiones, videos, poses geométricas e indicaciones textuales. Luego, proponemos ISDrama, el primer modelo de generación de drama espacial inmersivo mediante indicaciones multimodales. ISDrama comprende estos componentes principales: 1) Codificador de Poses Multimodal, basado en aprendizaje contrastivo, que considera el efecto Doppler causado por hablantes en movimiento para extraer información unificada de poses a partir de indicaciones multimodales. 2) Transformador de Drama Inmersivo, un modelo basado en flujo y mamba-transformador que genera drama de alta calidad, incorporando Drama-MOE para seleccionar expertos adecuados y mejorar el control de la prosodia y las poses. También diseñamos una estrategia de guía libre de clasificadores consistente con el contexto para generar drama completo de manera coherente. Los resultados experimentales muestran que ISDrama supera a los modelos de referencia en métricas objetivas y subjetivas. Las demostraciones y el conjunto de datos están disponibles en https://aaronz345.github.io/ISDramaDemo.
Los sistemas de generación aumentada por recuperación (RAG, por sus siglas en inglés) enfrentan desafíos significativos en la tarea de respuesta a preguntas de múltiples saltos (MHQA, por sus siglas en inglés), donde consultas complejas requieren sintetizar información a través de múltiples fragmentos de documentos. Los enfoques existentes suelen depender de la reescritura y enrutamiento iterativo basado en modelos de lenguaje grandes (LLM), lo que resulta en altos costos computacionales debido a las invocaciones repetidas de LLM y procesos de múltiples etapas. Para abordar estas limitaciones, proponemos TreeHop, un marco a nivel de incrustaciones que no requiere LLM en el refinamiento de consultas. TreeHop actualiza dinámicamente las incrustaciones de las consultas fusionando información semántica de consultas previas y documentos recuperados, permitiendo la recuperación iterativa únicamente mediante operaciones en el espacio de incrustaciones. Este método reemplaza el ciclo tradicional de "Recuperar-Reescribir-Vectorizar-Recuperar" con un bucle simplificado de "Recuperar-Incrustar-Recuperar", reduciendo significativamente la sobrecarga computacional. Además, se introduce un criterio de parada basado en reglas para podar recuperaciones redundantes, equilibrando eficiencia y tasa de recuperación. Los resultados experimentales muestran que TreeHop compite con métodos avanzados de RAG en tres conjuntos de datos de MHQA de dominio abierto, logrando un rendimiento comparable con solo el 5\%-0.4\% del tamaño de los parámetros del modelo y reduciendo la latencia de las consultas en aproximadamente un 99\% en comparación con enfoques concurrentes. Esto convierte a TreeHop en una solución más rápida y rentable para su implementación en una variedad de aplicaciones intensivas en conocimiento. Para fines de reproducibilidad, los códigos y datos están disponibles aquí: https://github.com/allen-li1231/TreeHop.
Los flujos de trabajo actuales de aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) para la alineación de modelos de lenguaje de gran escala (LLM) suelen asignar recompensas escalares a secuencias, utilizando el token final como un indicador sustituto de la calidad de toda la secuencia. Sin embargo, esto conduce a una retroalimentación dispersa y a una asignación de crédito a nivel de token subóptima. En este trabajo, enmarcamos la configuración de recompensas como un problema de optimización centrado en la asignación de crédito a nivel de token. Proponemos una función de configuración de recompensas que aprovecha métodos de explicabilidad como SHAP y LIME para estimar recompensas por token a partir del modelo de recompensas. Para aprender los parámetros de esta función de configuración, empleamos un marco de optimización bi-nivel que integra Optimización Bayesiana y entrenamiento de políticas para manejar el ruido de las estimaciones de recompensas por token. Nuestros experimentos muestran que lograr un mejor equilibrio en la atribución de recompensas a nivel de token conduce a mejoras en el rendimiento respecto a las líneas base en tareas posteriores y encuentra una política óptima más rápido durante el entrenamiento. Además, demostramos teóricamente que los métodos de explicabilidad que son funciones de atribución aditiva de características mantienen la política óptima como la recompensa original.
Los profesionales del derecho, especialmente aquellos en las primeras etapas de sus carreras, enfrentan tareas complejas y de alto riesgo que requieren un razonamiento adaptativo y sensible al contexto. Si bien la IA promete apoyar el trabajo legal, los conjuntos de datos y modelos actuales están enfocados de manera limitada en subtareas aisladas y no logran capturar la toma de decisiones integral necesaria en la práctica real. Para abordar esta brecha, presentamos LawFlow, un conjunto de datos de flujos de trabajo legales completos y de principio a fin, recopilados de estudiantes de derecho capacitados, basados en escenarios reales de formación de entidades comerciales. A diferencia de conjuntos de datos anteriores centrados en pares de entrada-salida o cadenas lineales de pensamiento, LawFlow captura procesos de razonamiento dinámicos, modulares e iterativos que reflejan la ambigüedad, la revisión y las estrategias adaptativas al cliente en la práctica legal. Utilizando LawFlow, comparamos flujos de trabajo generados por humanos y por modelos de lenguaje grandes (LLM), revelando diferencias sistemáticas en estructura, flexibilidad de razonamiento y ejecución de planes. Los flujos de trabajo humanos tienden a ser modulares y adaptativos, mientras que los flujos de trabajo de los LLM son más secuenciales, exhaustivos y menos sensibles a las implicaciones posteriores. Nuestros hallazgos también sugieren que los profesionales del derecho prefieren que la IA desempeñe roles de apoyo, como lluvia de ideas, identificación de puntos ciegos y presentación de alternativas, en lugar de ejecutar flujos de trabajo complejos de principio a fin. Basándonos en estos resultados, proponemos un conjunto de sugerencias de diseño, fundamentadas en observaciones empíricas, que alinean la asistencia de IA con los objetivos humanos de claridad, completitud, creatividad y eficiencia, mediante planificación híbrida, ejecución adaptativa y apoyo en puntos de decisión. Nuestros resultados destacan tanto las limitaciones actuales de los LLM para apoyar flujos de trabajo legales complejos como las oportunidades para desarrollar sistemas de IA legal más colaborativos y conscientes del razonamiento. Todos los datos y el código están disponibles en nuestra página del proyecto (https://minnesotanlp.github.io/LawFlow-website/).
Los avances recientes en la Generación de Cabezas Parlantes (THG, por sus siglas en inglés) han logrado una impresionante sincronización labial y calidad visual mediante modelos de difusión; sin embargo, los métodos existentes tienen dificultades para generar retratos emocionalmente expresivos mientras preservan la identidad del hablante. Identificamos tres limitaciones críticas en la generación actual de cabezas parlantes emocionales: la utilización insuficiente de las señales emocionales inherentes al audio, la fuga de identidad en las representaciones emocionales y el aprendizaje aislado de las correlaciones emocionales. Para abordar estos desafíos, proponemos un nuevo marco denominado DICE-Talk, siguiendo la idea de desentrelazar la identidad de la emoción y luego cooperar emociones con características similares. Primero, desarrollamos un codificador de emociones desentrelazado que modela conjuntamente las señales emocionales audiovisuales mediante atención multimodal, representando las emociones como distribuciones gaussianas independientes de la identidad. Segundo, introducimos un módulo de condicionamiento emocional mejorado con correlaciones, que utiliza Bancos de Emociones aprendibles para capturar explícitamente las relaciones inter-emocionales mediante cuantización vectorial y agregación de características basada en atención. Tercero, diseñamos un objetivo de discriminación emocional que refuerza la consistencia afectiva durante el proceso de difusión mediante clasificación en el espacio latente. Experimentos exhaustivos en los conjuntos de datos MEAD y HDTF demuestran la superioridad de nuestro método, superando a los enfoques más avanzados en precisión emocional mientras mantiene un rendimiento competitivo en sincronización labial. Los resultados cualitativos y los estudios de usuarios confirman además la capacidad de nuestro método para generar retratos que preservan la identidad con expresiones emocionales ricas y correlacionadas que se adaptan naturalmente a identidades no vistas.
El prompting de cadena de pensamiento ha demostrado un gran éxito al facilitar las capacidades de razonamiento de los modelos de lenguaje grandes. En este trabajo, exploramos cómo estas capacidades mejoradas de razonamiento pueden ser aprovechadas para mejorar la robustez de los modelos de lenguaje grandes en tareas que no están necesariamente centradas en el razonamiento. En particular, mostramos cómo una amplia gama de modelos de lenguaje grandes exhiben una mejora significativa en la robustez contra la corrupción de referencias utilizando un método simple llamado cadena de pensamiento defensivo, donde solo se proporcionan unos pocos ejemplos con razonamiento estructurado y defensivo como demostraciones. Empíricamente, las mejoras pueden ser asombrosas, especialmente dada la simplicidad y aplicabilidad del método. Por ejemplo, en la tarea de Natural Questions, la precisión de GPT-4o disminuye del 60% a tan solo el 3% con el prompting estándar cuando 1 de cada 10 referencias proporcionadas está corrupta debido a ataques de inyección de prompt. En contraste, GPT-4o utilizando el prompting de cadena de pensamiento defensivo mantiene una precisión del 50%.
Investigamos el aprendizaje por refuerzo (RL) para la planificación privilegiada en la conducción autónoma. Los enfoques de vanguardia para esta tarea están basados en reglas, pero estos métodos no escalan bien a casos excepcionales. El RL, por otro lado, es escalable y no sufre de errores acumulativos como el aprendizaje por imitación. Los enfoques contemporáneos de RL para la conducción utilizan recompensas complejas que suman múltiples recompensas individuales, por ejemplo, recompensas por progreso, posición u orientación. Demostramos que PPO falla al optimizar una versión popular de estas recompensas cuando se aumenta el tamaño del mini-lote, lo que limita la escalabilidad de estos enfoques. En su lugar, proponemos un nuevo diseño de recompensa basado principalmente en optimizar un único término de recompensa intuitivo: la finalización de la ruta. Las infracciones se penalizan terminando el episodio o reduciendo multiplicativamente la finalización de la ruta. Encontramos que PPO escala bien con tamaños de mini-lote más grandes cuando se entrena con nuestra recompensa simple, incluso mejorando el rendimiento. El entrenamiento con tamaños grandes de mini-lote permite una escalabilidad eficiente mediante paralelismo de datos distribuido. Escalamos PPO a 300M muestras en CARLA y 500M muestras en nuPlan con un solo nodo de 8 GPUs. El modelo resultante alcanza 64 DS en el benchmark CARLA longest6 v2, superando a otros métodos de RL con recompensas más complejas por un amplio margen. Requiriendo solo adaptaciones mínimas desde su uso en CARLA, el mismo método es el mejor enfoque basado en aprendizaje en nuPlan. Obtiene 91.3 en tráfico no reactivo y 90.6 en tráfico reactivo en el benchmark Val14, siendo un orden de magnitud más rápido que trabajos previos.
Esta revisión ofrece un análisis sistemático de un estudio exhaustivo sobre la detección de objetos 3D con modelos de visión y lenguaje (VLMs), un área en rápido avance en la intersección de la visión 3D y la IA multimodal. Al examinar más de 100 artículos de investigación, proporcionamos el primer análisis sistemático dedicado a la detección de objetos 3D con modelos de visión y lenguaje. Comenzamos delineando los desafíos únicos de la detección de objetos 3D con estos modelos, enfatizando las diferencias con la detección en 2D en cuanto al razonamiento espacial y la complejidad de los datos. Los enfoques tradicionales que utilizan nubes de puntos y mallas de vóxeles se comparan con marcos modernos de visión y lenguaje como CLIP y LLMs 3D, que permiten la detección de vocabulario abierto y la generalización en cero disparos. Revisamos arquitecturas clave, estrategias de preentrenamiento y métodos de ingeniería de prompts que alinean características textuales y 3D para una detección efectiva de objetos 3D con modelos de visión y lenguaje. Se discuten ejemplos de visualización y benchmarks de evaluación para ilustrar el rendimiento y el comportamiento. Finalmente, destacamos los desafíos actuales, como la limitación de conjuntos de datos 3D-lenguaje y las demandas computacionales, y proponemos direcciones futuras de investigación para avanzar en la detección de objetos 3D con modelos de visión y lenguaje. >Detección de Objetos, Modelos de Visión y Lenguaje, Agentes, VLMs, LLMs, IA.