Artigos de pesquisa em IA selecionados diariamente com traduções
A escalabilidade no momento do teste é uma nova abordagem promissora para modelagem de linguagem que utiliza recursos computacionais extras no momento do teste para melhorar o desempenho. Recentemente, o modelo o1 da OpenAI demonstrou essa capacidade, mas não compartilhou publicamente sua metodologia, o que levou a muitos esforços de replicação. Buscamos a abordagem mais simples para alcançar a escalabilidade no momento do teste e um forte desempenho de raciocínio. Primeiramente, curamos um pequeno conjunto de dados s1K com 1.000 perguntas combinadas com traços de raciocínio, baseando-nos em três critérios que validamos por meio de ablações: dificuldade, diversidade e qualidade. Em segundo lugar, desenvolvemos o "budget forcing" para controlar os recursos computacionais no momento do teste, terminando forçadamente o processo de pensamento do modelo ou prolongando-o ao adicionar "Aguarde" várias vezes à geração do modelo quando ele tenta encerrar. Isso pode fazer com que o modelo revise sua resposta, corrigindo frequentemente etapas de raciocínio incorretas. Após o ajuste fino supervisionado do modelo de linguagem Qwen2.5-32B-Instruct em s1K e equipando-o com o "budget forcing", nosso modelo s1 supera o o1-preview em perguntas de matemática de competição em até 27% (MATH e AIME24). Além disso, a escalabilidade de s1 com o "budget forcing" permite extrapolar além de seu desempenho sem intervenção no momento do teste: de 50% para 57% no AIME24. Nosso modelo, dados e código são de código aberto em https://github.com/simplescaling/s1.
Apresentamos a Decodificação Especulativa Guiada por Recompensa (RSD), um novo framework destinado a melhorar a eficiência da inferência em grandes modelos de linguagem (LLMs). A RSD combina de forma sinérgica um modelo preliminar leve com um modelo alvo mais poderoso, incorporando um viés controlado para priorizar saídas de alta recompensa, em contraste com os métodos de decodificação especulativa existentes que impõem imparcialidade estrita. A RSD utiliza um modelo de recompensa de processo para avaliar etapas de decodificação intermediárias e decidir dinamicamente se deve invocar o modelo alvo, otimizando o equilíbrio entre custo computacional e qualidade de saída. Demonstramos teoricamente que uma estratégia de mistura baseada em limiar alcança um equilíbrio ótimo entre utilização de recursos e desempenho. Avaliações extensivas em benchmarks desafiadores de raciocínio, incluindo tarefas de nível olímpico, mostram que a RSD proporciona ganhos significativos de eficiência em comparação com a decodificação apenas com o modelo alvo (até 4,4 vezes menos FLOPs), enquanto alcança uma precisão significativamente melhor do que o método de decodificação paralela em média (até +3,5). Esses resultados destacam a RSD como uma abordagem robusta e econômica para implantar LLMs em cenários intensivos em recursos.
Métodos de matting de vídeo humano sem auxílio, que dependem exclusivamente de frames de entrada, frequentemente enfrentam dificuldades com fundos complexos ou ambíguos. Para lidar com isso, propomos MatAnyone, um framework robusto desenvolvido para matting de vídeo atribuído ao alvo. Especificamente, baseando-se em um paradigma baseado em memória, introduzimos um módulo de propagação de memória consistente por meio de fusão de memória adaptativa por região, que integra de forma adaptativa a memória do frame anterior. Isso garante estabilidade semântica em regiões centrais, preservando detalhes refinados ao longo das bordas dos objetos. Para um treinamento robusto, apresentamos um conjunto de dados maior, de alta qualidade e diversificado para matting de vídeo. Adicionalmente, incorporamos uma estratégia de treinamento inovadora que alavanca de forma eficiente dados de segmentação em larga escala, impulsionando a estabilidade do matting. Com esse novo design de rede, conjunto de dados e estratégia de treinamento, MatAnyone oferece resultados robustos e precisos de matting de vídeo em diversos cenários do mundo real, superando os métodos existentes.
Devido à presença da lacuna natural entre as estruturas de Grafos de Conhecimento (KG) e a linguagem natural, a integração eficaz das informações estruturais holísticas dos KGs com Modelos de Linguagem de Grande Escala (LLMs) surgiu como uma questão significativa. Para isso, propomos um framework de dois estágios para aprender e aplicar códigos quantizados para cada entidade, com o objetivo de integrar perfeitamente os KGs com os LLMs. Em primeiro lugar, é proposto um método de representação quantizada auto-supervisionado (SSQR) para comprimir tanto o conhecimento estrutural quanto semântico dos KGs em códigos discretos (ou seja, tokens) que se alinham ao formato de frases da linguagem. Além disso, projetamos dados de instrução de KG visualizando esses códigos aprendidos como características para entrada direta nos LLMs, alcançando assim uma integração perfeita. Os resultados experimentais demonstram que o SSQR supera os métodos quantizados não supervisionados existentes, produzindo códigos mais distinguíveis. Além disso, os modelos LLaMA2 e LLaMA3.1 ajustados também apresentam desempenho superior nas tarefas de previsão de ligação de KG e classificação de tripla, utilizando apenas 16 tokens por entidade em vez de milhares nos métodos de prompt convencionais.
O elemento máximo do vetor produzido pela função Softmax se aproxima de zero à medida que o tamanho do vetor de entrada aumenta. Modelos de linguagem baseados em Transformer dependem do Softmax para calcular os escores de atenção, o que faz com que a distribuição de atenção se torne mais uniforme à medida que o tamanho do contexto cresce. Isso reduz a capacidade do modelo de priorizar informações-chave de forma eficaz e potencialmente limita sua capacidade de generalização de comprimento. Para resolver esse problema, propomos o Softmax Escalonável (SSMax), que substitui o Softmax em cenários onde o tamanho do vetor de entrada varia. O SSMax pode ser integrado de forma transparente em arquiteturas baseadas em Transformer existentes. Resultados experimentais em modelagem de linguagem mostram que modelos que utilizam o SSMax não apenas alcançam uma redução mais rápida na perda durante o pré-treinamento, mas também melhoram significativamente o desempenho em contextos longos e na recuperação de informações-chave. Além disso, uma análise dos escores de atenção revela que o SSMax permite que o modelo concentre a atenção em informações-chave mesmo em contextos longos. Adicionalmente, embora os modelos que utilizam o SSMax desde o início do pré-treinamento alcancem uma melhor generalização de comprimento, aqueles que já iniciaram o pré-treinamento ainda podem adquirir parte dessa capacidade substituindo o Softmax nas camadas de atenção pelo SSMax, seja durante ou após o pré-treinamento.
Os modelos de base existentes geralmente processam entradas visuais como pixels e entradas textuais como tokens, um paradigma que contrasta com a percepção humana, onde ambas as modalidades são processadas de forma unificada. Com o surgimento da IA encarnada e agente, onde as entradas vêm principalmente de pixels de câmera, a necessidade de um framework de percepção unificado torna-se cada vez mais evidente. Neste artigo, propomos unificar todas as modalidades (texto, tabelas, código, diagramas, imagens, etc.) como entradas de pixels, ou seja, "Perceber Tudo como Pixels" (PEAP). Apresentamos o PixelWorld, uma nova suíte de avaliação que unifica todas as modalidades mencionadas no espaço de pixels para avaliar o desempenho dos modelos existentes. Nossas descobertas mostram que (1) PEAP supera a linha de base com entrada baseada em tokens em conjuntos de dados multimodais, beneficiando-se de uma entrada unificada para melhor desambiguação, (2) declínios significativos nas capacidades de raciocínio e codificação em todos os modelos ao processar entradas baseadas em pixels, destacando a necessidade de aprimorar as habilidades perceptuais dos modelos de base, (3) modelos maiores podem manter um desempenho forte em tarefas não relacionadas ao raciocínio sob PEAP, enquanto modelos menores como Phi-3.5-V sofrem degradação significativa de desempenho, (4) o padrão de atenção de PEAP está altamente alinhado com a entrada de tokens de texto, (5) PEAP pode ser acelerado significativamente ao explorar a esparsidade espacial. Concluímos que os modelos de fronteira existentes são competentes na percepção de pixels, no entanto, ainda há espaço para melhorias. Nosso código e conjunto de dados serão disponibilizados após a aceitação.
A capacidade de prever resultados futuros dadas ações de controle é fundamental para o raciocínio físico. No entanto, tais modelos preditivos, frequentemente chamados de modelos do mundo, têm se mostrado desafiadores de aprender e geralmente são desenvolvidos para soluções específicas de tarefas com aprendizado de políticas online. Argumentamos que o verdadeiro potencial dos modelos do mundo está em sua capacidade de raciocinar e planejar em diversos problemas usando apenas dados passivos. Concretamente, exigimos que os modelos do mundo tenham as seguintes três propriedades: 1) ser treináveis em trajetórias offline pré-coletadas, 2) suportar a otimização do comportamento no momento do teste e 3) facilitar o raciocínio independente da tarefa. Para realizar isso, apresentamos o Modelo do Mundo DINO (DINO-WM), um novo método para modelar dinâmicas visuais sem reconstruir o mundo visual. O DINO-WM aproveita características de patches espaciais pré-treinadas com o DINOv2, permitindo que aprenda a partir de trajetórias comportamentais offline ao prever características de patches futuras. Esse design permite que o DINO-WM alcance objetivos observacionais por meio da otimização de sequências de ações, facilitando o planejamento de comportamento independente da tarefa ao tratar as características de patches desejadas como alvos de previsão. Avaliamos o DINO-WM em vários domínios, incluindo navegação em labirintos, empurrar objetos em mesas e manipulação de partículas. Nossos experimentos demonstram que o DINO-WM pode gerar soluções comportamentais de zero-shot no momento do teste sem depender de demonstrações de especialistas, modelagem de recompensas ou modelos inversos pré-aprendidos. Notavelmente, o DINO-WM exibe fortes capacidades de generalização em comparação com trabalhos anteriores de ponta, adaptando-se a diversas famílias de tarefas, como labirintos configurados arbitrariamente, manipulação por empurrão com formas de objetos variadas e cenários com múltiplas partículas.
Os modelos de linguagem de grande escala (LLMs) são vulneráveis a jailbreaks universais - estratégias que contornam sistematicamente as salvaguardas do modelo e permitem aos usuários realizar processos prejudiciais que exigem muitas interações do modelo, como a fabricação de substâncias ilegais em grande escala. Para defender-se contra esses ataques, introduzimos Classificadores Constitucionais: salvaguardas treinadas em dados sintéticos, gerados ao solicitar LLMs com regras de linguagem natural (ou seja, uma constituição) especificando conteúdo permitido e restrito. Em mais de 3.000 horas estimadas de simulação de ataques, nenhum simulador encontrou um jailbreak universal que pudesse extrair informações de um LLM protegido por um classificador inicial em um nível de detalhe semelhante ao de um modelo desprotegido em relação à maioria das consultas-alvo. Em avaliações automatizadas, os classificadores aprimorados demonstraram defesa robusta contra jailbreaks específicos de domínio não utilizados. Esses classificadores também mantêm viabilidade de implantação, com um aumento absoluto de 0,38% em recusas de tráfego de produção e um overhead de inferência de 23,7%. Nosso trabalho demonstra que defender-se contra jailbreaks universais, mantendo viabilidade prática de implantação, é factível.
Os modelos de difusão, embora poderosos, podem inadvertidamente gerar conteúdo prejudicial ou indesejado, levantando preocupações éticas e de segurança significativas. Abordagens recentes de desaprendizado de máquina oferecem soluções potenciais, mas frequentemente carecem de transparência, tornando difícil entender as mudanças que introduzem no modelo base. Neste trabalho, apresentamos o SAeUron, um método inovador que aproveita as características aprendidas por autoencoders esparsos (SAEs) para remover conceitos indesejados em modelos de difusão texto-imagem. Primeiramente, demonstramos que os SAEs, treinados de forma não supervisionada em ativações de múltiplos passos de remoção de ruído do modelo de difusão, capturam características esparsas e interpretáveis correspondentes a conceitos específicos. Com base nisso, propomos um método de seleção de características que possibilita intervenções precisas nas ativações do modelo para bloquear conteúdo direcionado, preservando o desempenho geral. A avaliação com o competitivo benchmark UnlearnCanvas em desaprendizado de objetos e estilos destaca o desempenho de ponta do SAeUron. Além disso, demonstramos que com um único SAE, podemos remover múltiplos conceitos simultaneamente e que, ao contrário de outros métodos, o SAeUron mitiga a possibilidade de gerar conteúdo indesejado, mesmo sob ataque adversarial. O código e os checkpoints estão disponíveis em: https://github.com/cywinski/SAeUron.
Demonstramos que os cronogramas de taxa de aprendizado para o treinamento de modelos grandes se comportam de forma surpreendentemente semelhante a um limite de desempenho da teoria da otimização convexa não suave. Fornecemos um limite para o cronograma constante com redução linear; em particular, o benefício prático da redução é refletido no limite devido à ausência de termos logarítmicos. Além disso, demonstramos que essa correspondência surpreendentemente próxima entre teoria e prática de otimização pode ser explorada para ajuste da taxa de aprendizado: alcançamos melhorias perceptíveis no treinamento de modelos do tipo Llama de 124M e 210M através de (i) estender o cronograma para treinamento contínuo com taxa de aprendizado ótima e (ii) transferir a taxa de aprendizado ótima entre cronogramas.
Os métodos atuais para reconstrução de cenas 3D a partir de imagens esparsas com poses empregam representações 3D intermediárias, como campos neurais, grades de voxels ou gaussianas 3D, para alcançar uma aparência e geometria de cena consistente entre múltiplas visualizações. Neste artigo, apresentamos o MVGD, uma arquitetura baseada em difusão capaz de geração direta de imagens e mapas de profundidade a nível de pixel a partir de novos pontos de vista, dado um número arbitrário de visualizações de entrada. Nosso método utiliza condicionamento de mapas de raios para tanto aumentar as características visuais com informações espaciais de diferentes pontos de vista, quanto guiar a geração de imagens e mapas de profundidade a partir de novos pontos de vista. Um aspecto chave de nossa abordagem é a geração multi-tarefa de imagens e mapas de profundidade, utilizando incrustações de tarefas aprendíveis para guiar o processo de difusão em direção a modalidades específicas. Treinamos este modelo em uma coleção de mais de 60 milhões de amostras multi-visualização de conjuntos de dados publicamente disponíveis, e propomos técnicas para permitir aprendizado eficiente e consistente em condições tão diversas. Também propomos uma estratégia inovadora que possibilita o treinamento eficiente de modelos maiores através do ajuste fino incremental de modelos menores, com um comportamento de escalonamento promissor. Através de experimentos extensivos, relatamos resultados de ponta em múltiplos benchmarks de síntese de novos pontos de vista, bem como estéreo multi-visualização e estimativa de profundidade em vídeos.
Realizamos experimentos sobre o impacto do aumento do tempo de inferência computacional em modelos de raciocínio (especificamente OpenAI o1-preview e o1-mini) em sua robustez a ataques adversariais. Descobrimos que, em uma variedade de ataques, o aumento do tempo de inferência computacional resulta em uma maior robustez. Em muitos casos (com exceções importantes), a fração de amostras do modelo em que o ataque tem sucesso tende a zero à medida que a quantidade de tempo de computação de teste aumenta. Não realizamos treinamento adversarial para as tarefas que estudamos e aumentamos o tempo de inferência computacional simplesmente permitindo que os modelos gastem mais tempo de computação no raciocínio, independentemente da forma de ataque. Nossos resultados sugerem que o tempo de inferência computacional tem o potencial de melhorar a robustez adversarial para Modelos de Linguagem Grandes. Também exploramos novos ataques direcionados a modelos de raciocínio, bem como configurações em que o tempo de inferência computacional não melhora a confiabilidade, e especulamos sobre as razões para isso, bem como maneiras de abordá-las.
Dada a recente introdução de vários modelos de linguagem e a contínua demanda por melhorias em tarefas de Processamento de Linguagem Natural, especialmente na sumarização, este trabalho fornece uma avaliação abrangente de 20 modelos de linguagem recentes, concentrando-se nos menores para a tarefa de sumarização de notícias. Neste trabalho, testamos sistematicamente as capacidades e eficácia desses modelos na sumarização de textos de artigos de notícias escritos em estilos diferentes e apresentados em três conjuntos de dados distintos. Especificamente, neste estudo, focamos em configurações de aprendizado zero-shot e few-shot e aplicamos uma metodologia de avaliação robusta que combina diferentes conceitos de avaliação, incluindo métricas automáticas, avaliação humana e LLM-como-juiz. Curiosamente, a inclusão de exemplos de demonstração na configuração de aprendizado few-shot não melhorou o desempenho dos modelos e, em alguns casos, até levou a uma qualidade inferior das sumarizações geradas. Esse problema surge principalmente devido à baixa qualidade das sumarizações de referência que foram usadas, o que impacta negativamente o desempenho dos modelos. Além disso, os resultados de nosso estudo destacam o desempenho excepcional do GPT-3.5-Turbo e do GPT-4, que geralmente se destacam por suas capacidades avançadas. No entanto, entre os modelos públicos avaliados, certos modelos como Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B e Zephyr-7B-Beta demonstraram resultados promissores. Esses modelos mostraram um potencial significativo, posicionando-os como alternativas competitivas aos grandes modelos para a tarefa de sumarização de notícias.
Este artigo aborda o desafio de longa data da reconstrução de estruturas 3D a partir de vídeos com conteúdo dinâmico. As abordagens atuais para esse problema não foram projetadas para operar em vídeos casuais gravados por câmeras padrão ou exigem um longo tempo de otimização. Com o objetivo de melhorar significativamente a eficiência das abordagens anteriores, apresentamos TracksTo4D, uma abordagem baseada em aprendizado que permite inferir a estrutura 3D e as posições das câmeras a partir de conteúdo dinâmico originado de vídeos casuais usando uma única passagem eficiente direta. Para alcançar isso, propomos operar diretamente sobre trilhas de pontos 2D como entrada e projetar uma arquitetura adaptada para processar trilhas de pontos 2D. Nossa arquitetura proposta é projetada com dois princípios-chave em mente: (1) leva em consideração as simetrias inerentes presentes nos dados das trilhas de pontos de entrada e (2) assume que os padrões de movimento podem ser efetivamente representados usando uma aproximação de baixa patente. O TracksTo4D é treinado de forma não supervisionada em um conjunto de dados de vídeos casuais utilizando apenas as trilhas de pontos 2D extraídas dos vídeos, sem nenhuma supervisão 3D. Nossos experimentos mostram que o TracksTo4D pode reconstruir nuvens de pontos temporais e posições de câmera do vídeo subjacente com precisão comparável aos métodos de ponta, enquanto reduz drasticamente o tempo de execução em até 95%. Mostramos ainda que o TracksTo4D generaliza bem para vídeos não vistos de categorias semânticas não vistas no momento da inferência.
A segmentação de imagens acionável genérica de tarefa visa alcançar a segmentação de amostras diversas sob uma única descrição de tarefa, utilizando apenas um prompt genérico de tarefa. Os métodos atuais aproveitam as capacidades de generalização dos Modelos de Visão-Linguagem (VLMs) para inferir prompts específicos de instância a partir desses prompts genéricos de tarefa a fim de orientar o processo de segmentação. No entanto, quando os VLMs têm dificuldade em generalizar para algumas instâncias de imagem, a previsão de prompts específicos de instância se torna deficiente. Para resolver esse problema, introduzimos a Mineração Negativa Específica de Instância para Segmentação Acionável Genérica de Tarefa (INT). A ideia-chave do INT é reduzir adaptativamente a influência do conhecimento prévio irrelevante (negativo) enquanto aumenta o uso do conhecimento prévio mais plausível, selecionado pela mineração negativa com maior contraste, a fim de otimizar a geração de prompts específicos de instância. Especificamente, o INT é composto por dois componentes: (1) geração de prompt específico de instância, que filtra progressivamente informações incorretas na geração de prompts; (2) geração de máscara semântica, que garante que cada segmentação de instância de imagem corresponda corretamente à semântica dos prompts específicos de instância. O INT é validado em seis conjuntos de dados, incluindo objetos camuflados e imagens médicas, demonstrando sua eficácia, robustez e escalabilidade.
Para reduzir os custos de memória na inferência de longo contexto com Modelos de Linguagem Grandes (LLMs), muitos trabalhos recentes concentram-se na compressão do cache chave-valor (KV) de diferentes tokens. No entanto, identificamos que os métodos de compressão de cache KV anteriores medem a importância do token individualmente, negligenciando a dependência entre diferentes tokens nas características de linguagem do mundo real. Diante disso, introduzimos o ChunkKV, agrupando os tokens em um chunk como uma unidade básica de compressão, e mantendo os chunks semânticos mais informativos enquanto descartamos os menos importantes. Além disso, observando que o ChunkKV exibe maior similaridade nos índices preservados em diferentes camadas, propomos a reutilização de índices camada a camada para reduzir ainda mais a sobrecarga computacional. Avaliamos o ChunkKV em benchmarks de longo contexto de ponta, incluindo LongBench e Needle-In-A-HayStack, bem como o benchmark de aprendizado em contexto GSM8K e JailbreakV. Nossos experimentos com os LLMs de ajuste de instrução e raciocínio multi-etapa (O1 e R1) alcançam até 10\% de melhoria de desempenho sob taxas de compressão agressivas em comparação com métodos existentes.