Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Bielik v3, uma série de modelos generativos de texto com eficiência de parâmetros (1,5B e 4,5B) otimizados para o processamento da língua polonesa. Esses modelos demonstram que arquiteturas menores e bem otimizadas podem alcançar desempenho comparável a modelos muito maiores, exigindo substancialmente menos recursos computacionais. Nossa abordagem incorpora várias inovações-chave: um tokenizador personalizado para o polonês (APT4) que melhora significativamente a eficiência de tokens, a Função de Perda de Entropia Cruzada com Instruções Ponderadas para equilibrar o aprendizado entre tipos de instruções, e uma Taxa de Aprendizado Adaptativa que se ajusta dinamicamente com base no progresso do treinamento. Treinados em um corpus meticulosamente curado de 292 bilhões de tokens, abrangendo 303 milhões de documentos, esses modelos se destacam em múltiplos benchmarks, incluindo o Open PL LLM Leaderboard, o Complex Polish Text Understanding Benchmark, o Polish EQ-Bench e o Polish Medical Leaderboard. O modelo de 4,5B parâmetros alcança resultados competitivos com modelos 2 a 3 vezes maiores, enquanto o modelo de 1,5B oferece um desempenho robusto apesar de seu perfil extremamente compacto. Esses avanços estabelecem novos padrões para a modelagem de linguagem com eficiência de parâmetros em idiomas menos representados, tornando a IA de alta qualidade para a língua polonesa mais acessível para aplicações com recursos limitados.
Apresentamos o Bielik 11B v2, um modelo de linguagem de última geração otimizado para processamento de texto em polonês. Construído com base na arquitetura Mistral 7B v0.2 e escalonado para 11 bilhões de parâmetros utilizando escalonamento de profundidade, este modelo demonstra desempenho excepcional em benchmarks de linguagem polonesa, mantendo fortes capacidades multilingues. Introduzimos duas inovações técnicas principais: a Perda de Entropia Cruzada de Instrução Ponderada, que otimiza o aprendizado em diversos tipos de instrução ao atribuir pesos baseados na qualidade aos exemplos de treinamento, e a Taxa de Aprendizado Adaptativa, que ajusta-se dinamicamente com base no comprimento do contexto. A avaliação abrangente em múltiplos benchmarks demonstra que o Bielik 11B v2 supera muitos modelos maiores, incluindo aqueles com 2 a 6 vezes mais parâmetros, e ultrapassa significativamente outros modelos especializados em linguagem polonesa em tarefas que variam de compreensão linguística a raciocínio complexo. A eficiência de parâmetros do modelo e suas extensas opções de quantização permitem a implantação em diversas configurações de hardware, avançando as capacidades de IA para a língua polonesa e estabelecendo novos benchmarks para modelagem de linguagem eficiente em recursos em idiomas menos representados.
Um robô generalista deve desempenhar suas funções de forma eficaz em diversos ambientes. No entanto, a maioria das abordagens existentes depende fortemente da ampliação de dados anotados com ações para aprimorar suas capacidades. Consequentemente, elas costumam ser limitadas a uma única especificação física e enfrentam dificuldades para aprender conhecimentos transferíveis entre diferentes configurações e ambientes. Para enfrentar essas limitações, propomos o UniVLA, um novo framework para aprender políticas visão-linguagem-ação (VLA) que transcendem configurações físicas. Nossa principal inovação é derivar representações de ações centradas em tarefas a partir de vídeos, utilizando um modelo de ação latente. Isso nos permite explorar dados extensos em uma ampla gama de configurações e perspectivas. Para mitigar o efeito de dinâmicas irrelevantes à tarefa, incorporamos instruções em linguagem natural e estabelecemos um modelo de ação latente no espaço de características DINO. A política generalista, aprendida a partir de vídeos em escala da internet, pode ser implantada em diversos robôs por meio de uma decodificação eficiente de ações latentes. Obtivemos resultados de ponta em vários benchmarks de manipulação e navegação, além de implantações em robôs reais. O UniVLA alcança desempenho superior ao OpenVLA com menos de 1/20 do custo computacional de pré-treinamento e 1/10 dos dados de ajuste fino. Melhorias contínuas de desempenho são observadas à medida que dados heterogêneos, incluindo até vídeos humanos, são incorporados ao pipeline de treinamento. Os resultados destacam o potencial do UniVLA para facilitar o aprendizado escalável e eficiente de políticas robóticas.
A avaliação da eficácia do design de interface do usuário (UI) vai além da estética para influenciar o comportamento do usuário, um princípio central à Persuasão do Design. O teste A/B é o método predominante para determinar quais variações de UI impulsionam um maior engajamento do usuário, mas é custoso e demorado. Embora os recentes Modelos de Visão e Linguagem (VLMs) possam processar análises automatizadas de UI, as abordagens atuais focam em atributos de design isolados em vez da persuasividade comparativa — o fator chave para otimizar as interações do usuário. Para abordar isso, introduzimos o WiserUI-Bench, um benchmark projetado para a tarefa de Avaliação de Persuasão de Design de UI em Pares, contendo 300 pares de imagens de UI do mundo real rotulados com resultados de testes A/B e justificativas de especialistas. Além disso, propomos o G-FOCUS, uma nova estratégia de raciocínio em tempo de inferência que aprimora a avaliação de persuasividade baseada em VLM, reduzindo o viés de posição e melhorando a precisão da avaliação. Resultados experimentais mostram que o G-FOCUS supera as estratégias de inferência existentes em consistência e precisão para avaliação de UI em pares. Ao promover a avaliação de persuasividade de UI impulsionada por VLM, nosso trabalho oferece uma abordagem para complementar os testes A/B, impulsionando o progresso na modelagem escalável de preferências de UI e na otimização de design. O código e os dados serão disponibilizados publicamente.
Os recentes avanços em Modelos de Linguagem de Grande Escala (LLMs) têm mudado o foco do dimensionamento durante o pré-treinamento para o dimensionamento pós-treinamento e em tempo de teste. Ao longo desses desenvolvimentos, surgiu um paradigma unificado fundamental: Aprendizado por Recompensas, onde sinais de recompensa atuam como guias para direcionar o comportamento dos LLMs. Esse paradigma tem sustentado uma ampla gama de técnicas prevalentes, como aprendizado por reforço (em RLHF, DPO e GRPO), decodificação guiada por recompensa e correção pós-hoc. Crucialmente, esse paradigma permite a transição de um aprendizado passivo a partir de dados estáticos para um aprendizado ativo a partir de feedback dinâmico. Isso confere aos LLMs preferências alinhadas e capacidades de raciocínio profundo. Nesta pesquisa, apresentamos uma visão abrangente do paradigma de aprendizado por recompensas. Categorizamos e analisamos as estratégias sob esse paradigma nas etapas de treinamento, inferência e pós-inferência. Discutimos ainda os benchmarks para modelos de recompensa e as principais aplicações. Por fim, destacamos os desafios e direções futuras. Mantemos uma coleção de artigos em https://github.com/bobxwu/learning-from-rewards-llm-papers.
À medida que os Modelos de Linguagem de Grande Escala (LLMs) se tornam amplamente acessíveis, um entendimento detalhado de seu conhecimento em domínios específicos torna-se necessário para um uso bem-sucedido no mundo real. Isso é particularmente crítico na área de saúde pública, onde a falha em recuperar informações relevantes, precisas e atualizadas pode impactar significativamente os residentes do Reino Unido. No entanto, atualmente pouco se sabe sobre o conhecimento dos LLMs em relação às informações de saúde pública do Governo do Reino Unido. Para abordar essa questão, este artigo introduz um novo benchmark, o PubHealthBench, com mais de 8000 perguntas para avaliar a capacidade dos LLMs em responder a questões de múltipla escolha (MCQA) e a respostas livres a consultas de saúde pública, criadas por meio de um pipeline automatizado. Também disponibilizamos um novo conjunto de dados dos documentos de orientação de saúde pública do Governo do Reino Unido extraídos e usados como texto-fonte para o PubHealthBench. Ao avaliar 24 LLMs no PubHealthBench, descobrimos que os mais recentes LLMs privados (GPT-4.5, GPT-4.1 e o1) possuem um alto grau de conhecimento, alcançando mais de 90% no cenário de MCQA, e superam humanos que utilizam motores de busca de forma superficial. No entanto, no cenário de respostas livres, observamos um desempenho inferior, com nenhum modelo atingindo mais de 75%. Portanto, embora haja sinais promissores de que os LLMs de última geração (SOTA) são uma fonte cada vez mais precisa de informações de saúde pública, ainda podem ser necessárias salvaguardas ou ferramentas adicionais ao fornecer respostas livres sobre tópicos de saúde pública.
O modelo GPT-4o da OpenAI, que integra entradas e saídas multimodais em uma arquitetura autoregressiva, demonstrou desempenho sem precedentes na geração de imagens. Neste trabalho, investigamos seu potencial impacto na comunidade de restauração de imagens. Apresentamos a primeira avaliação sistemática do GPT-4o em diversas tarefas de restauração. Nossos experimentos revelam que, embora as saídas de restauração do GPT-4o sejam visualmente atraentes, elas frequentemente apresentam problemas de fidelidade estrutural em nível de pixel quando comparadas às imagens de referência. Questões comuns incluem variações nas proporções da imagem, deslocamentos nas posições e quantidades de objetos, e mudanças no ponto de vista. Para abordar isso, utilizando a remoção de névoa, a remoção de chuva e o aprimoramento de imagens com pouca luz como estudos de caso representativos, mostramos que as saídas do GPT-4o podem servir como poderosos priores visuais, melhorando substancialmente o desempenho de redes existentes de remoção de névoa. O trabalho oferece diretrizes práticas e uma estrutura de referência para facilitar a integração do GPT-4o em futuros pipelines de restauração de imagens. Esperamos que o estudo sobre a restauração de imagens com GPT-4o acelere a inovação no campo mais amplo de geração de imagens. Para apoiar pesquisas futuras, disponibilizaremos imagens restauradas pelo GPT-4o de mais de 10 conjuntos de dados amplamente utilizados em restauração de imagens.
O registro rígido de nuvens de pontos é um problema fundamental na visão computacional 3D. No caso multivista, buscamos encontrar um conjunto de poses 6D para alinhar um conjunto de objetos. Métodos baseados em registro par a par dependem de um algoritmo de sincronização subsequente, o que os torna pouco escaláveis com o número de vistas. Abordagens generativas superam essa limitação, mas são baseadas em Modelos de Mistura de Gaussianas e utilizam um algoritmo de Expectation-Maximization. Portanto, não são bem adequadas para lidar com grandes transformações. Além disso, a maioria dos métodos existentes não consegue lidar com altos níveis de degradação. Neste artigo, introduzimos o POLAR (POint cloud LAtent Registration), um método de registro multivista capaz de lidar eficientemente com um grande número de vistas, ao mesmo tempo em que é robusto a um alto nível de degradações e ângulos iniciais grandes. Para alcançar isso, transpusemos o problema de registro para o espaço latente de um autoencoder pré-treinado, projetamos uma função de perda que leva em consideração as degradações e desenvolvemos uma estratégia de otimização multistart eficiente. Nosso método proposto supera significativamente as abordagens state-of-the-art em dados sintéticos e reais. O POLAR está disponível em github.com/pypolar/polar ou como um pacote independente que pode ser instalado com pip install polaregistration.