Artigos de pesquisa em IA selecionados diariamente com traduções
Na busca pelo progresso científico, comunicar pesquisas é tão vital quanto a própria descoberta. No entanto, os pesquisadores são frequentemente desviados pela tarefa manual e repetitiva de construir páginas web de projetos para tornar seus artigos densos acessíveis. Embora a automação tenha abordado slides e pôsteres estáticos, a natureza dinâmica e interativa das páginas web permaneceu um desafio não resolvido. Para preencher essa lacuna, reformulamos o problema, argumentando que a solução não está em um único comando, mas em um processo colaborativo e hierárquico. Apresentamos o AutoPage, um novo sistema multiagente que incorpora essa filosofia. O AutoPage desconstrói a criação de página a partir de artigo em um pipeline de granularidade crescente, desde o planejamento narrativo até a geração de conteúdo multimodal e a renderização interativa. Para combater alucinações de IA, agentes "Verificadores" dedicados validam cada etapa com base no artigo fonte, enquanto pontos de verificação humanos opcionais garantem que o produto final esteja perfeitamente alinhado com a visão do autor, transformando o sistema de uma mera ferramenta em um poderoso assistente colaborativo. Para validar rigorosamente nossa abordagem, também construímos o PageBench, o primeiro benchmark para esta nova tarefa. Experimentos mostram que o AutoPage não apenas gera páginas de alta qualidade e visualmente atrativas, mas o faz com notável eficiência em menos de 15 minutos por menos de US$ 0,10. O código e o conjunto de dados serão disponibilizados em https://mqleet.github.io/AutoPage_ProjectPage/{Webpage}$.
A Decodificação Especulativa (SD) acelera a inferência de modelos de linguagem grandes empregando um modelo de rascunho pequeno para gerar previsões, que são então verificadas por um modelo alvo maior. A eficácia da SD depende do alinhamento entre esses modelos, que é tipicamente aprimorado pela Destilação de Conhecimento (KD). No entanto, os métodos convencionais de KD visam minimizar a divergência de KL entre os modelos de rascunho e alvo em todos os tokens, um objetivo que está desalinhado com o verdadeiro objetivo da SD, que é maximizar a taxa de aceitação de tokens. Portanto, os modelos de rascunho frequentemente lutam para assimilar completamente o conhecimento do modelo alvo devido a restrições de capacidade, levando a um desempenho abaixo do ideal. Para enfrentar este desafio, propomos o AdaSPEC, um método novo que incorpora a filtragem seletiva de tokens no processo de KD. O AdaSPEC utiliza um modelo de referência para identificar e filtrar tokens difíceis de ajustar, permitindo a destilação de um modelo de rascunho que melhor se alinha com o modelo alvo em tokens mais simples. Esta abordagem melhora a taxa geral de aceitação de tokens sem comprometer a qualidade da geração. Avaliamos o AdaSPEC em diversas tarefas, incluindo raciocínio aritmético, seguimento de instruções, codificação e sumarização, usando configurações de modelo de 31M/1.4B e 350M/2.7B de parâmetros. Nossos resultados demonstram que o AdaSPEC supera consistentemente o método state-of-the-art DistillSpec, alcançando taxas de aceitação mais altas em todas as tarefas (até 15%). O código está publicamente disponível em https://github.com/yuezhouhu/adaspec.
A maioria dos modelos de raciocínio em vídeo gera apenas traços de raciocínio textuais sem indicar quando e onde as evidências-chave aparecem. Modelos recentes como o OpenAI-o3 despertaram grande interesse no raciocínio centrado em evidências para imagens, mas estender essa capacidade para vídeos é mais desafiador, pois requer o rastreamento temporal conjunto e a localização espacial em cenas dinâmicas. Apresentamos o Open-o3 Video, uma estrutura não-agente que integra evidências espaço-temporais explícitas no raciocínio em vídeo, e recolhemos cuidadosamente dados de treino e projetamos estratégias de treino para enfrentar os desafios mencionados. O modelo destaca os *timestamps* chave, objetos e *bounding boxes* juntamente com as suas respostas, permitindo que o raciocínio seja fundamentado em observações visuais concretas. Para permitir esta funcionalidade, primeiro curamos e construímos dois conjuntos de dados de alta qualidade, o STGR-CoT-30k para SFT (*Supervised Fine-Tuning*) e o STGR-RL-36k para RL (*Reinforcement Learning*), com anotações temporais e espaciais cuidadosamente construídas, uma vez que a maioria dos conjuntos de dados existentes oferece ou *spans* temporais para vídeos ou *boxes* espaciais em imagens, carecendo de supervisão espaço-temporal unificada e traços de raciocínio. Em seguida, adotamos uma estratégia de aprendizagem por reforço com arranque a frio (*cold-start*) com múltiplas recompensas especialmente desenhadas que incentivam conjuntamente a precisão da resposta, o alinhamento temporal e a precisão espacial. No benchmark V-STAR, o Open-o3 Video alcança um desempenho de última geração (*state-of-the-art*), elevando o mAM em 14.4% e o mLGM em 24.2% sobre a linha de base do Qwen2.5-VL. Melhorias consistentes são também observadas numa ampla gama de benchmarks de compreensão de vídeo, incluindo VideoMME, WorldSense, VideoMMMU e TVGBench. Para além da precisão, os traços de raciocínio produzidos pelo Open-o3 Video também fornecem sinais valiosos para escalagem em tempo de teste (*test-time scaling*), permitindo verificação consciente da confiança (*confidence-aware*) e melhorando a fiabilidade das respostas.
Os modelos state-of-the-art de texto-para-vídeo se destacam na geração de clipes isolados, mas ficam aquém na criação de narrativas coerentes e com múltiplos planos, que são a essência da contação de histórias. Nós superamos essa "lacuna narrativa" com o HoloCine, um modelo que gera cenas inteiras de forma holística para garantir uma consistência global do primeiro ao último plano. Nossa arquitetura alcança um controle direcional preciso por meio de um mecanismo de Janela de Atenção Cruzada (Window Cross-Attention) que localiza os prompts de texto em planos específicos, enquanto um padrão de Autoatenção Esparsa entre Planos (densa dentro dos planos, mas esparsa entre eles) garante a eficiência necessária para a geração em escala de minutos. Além de estabelecer um novo estado da arte em coerência narrativa, o HoloCine desenvolve notáveis habilidades emergentes: uma memória persistente para personagens e cenários, e uma compreensão intuitiva de técnicas cinematográficas. Nosso trabalho marca uma mudança pivotal da síntese de clipes para a cinematografia automatizada, tornando a criação cinematográfica de ponta a ponta um futuro tangível. Nosso código está disponível em: https://holo-cine.github.io/.
Os modelos Diffusion Transformer podem gerar imagens com fidelidade e detalhes notáveis, mas o seu treinamento em resoluções ultra-altas permanece extremamente custoso devido à escala quadrática do mecanismo de self-attention com o número de tokens de imagem. Neste artigo, introduzimos a Extrapolação Dinâmica de Posição (DyPE), um método novo e livre de treinamento que permite que transformers de difusão pré-treinados sintetizem imagens em resoluções muito superiores aos seus dados de treinamento, sem custos adicionais de amostragem. A DyPE aproveita a progressão espectral inerente ao processo de difusão, onde as estruturas de baixa frequência convergem precocemente, enquanto as altas frequências exigem mais passos para se resolverem. Especificamente, a DyPE ajusta dinamicamente a codificação posicional do modelo em cada passo de difusão, correspondendo o seu espectro de frequência com a fase atual do processo generativo. Esta abordagem permite-nos gerar imagens em resoluções que excedem dramaticamente a resolução de treinamento, por exemplo, 16 milhões de pixels usando FLUX. Em múltiplos benchmarks, a DyPE melhora consistentemente o desempenho e alcança fidelidade state-of-the-art na geração de imagens de ultra-alta resolução, com ganhos que se tornam ainda mais pronunciados em resoluções mais elevadas. A página do projeto está disponível em https://noamissachar.github.io/DyPE/.
Os modelos de difusão discreta oferecem uma alternativa promissora à geração autoregressiva através da decodificação paralela, mas sofrem de uma barreira de amostragem: uma vez que a amostragem categórica ocorre, a rica informação distribucional colapsa em vetores *one-hot* e não pode ser propagada entre as etapas, forçando as etapas subsequentes a operarem com informação limitada. Para mitigar este problema, introduzimos o "Loopholing", um mecanismo novo e simples que preserva esta informação através de um caminho latente determinístico, resultando nos Modelos de Difusão Discreta com Loopholing (LDDMs). Treinados eficientemente com uma estratégia de auto-condicionamento, os LDDMs alcançam ganhos substanciais – reduzindo a perplexidade generativa em até 61% em relação às linhas de base anteriores, fechando (e em alguns casos superando) a diferença com os modelos autoregressivos e produzindo texto mais coerente. Aplicados a tarefas de raciocínio, os LDDMs também melhoram o desempenho em benchmarks aritméticos como Countdown e Game of 24. Estes resultados também indicam que o loopholing mitiga etapas ociosas e oscilações, fornecendo um caminho escalável para a geração de texto não autoregressiva de alta qualidade.
O desenvolvimento de agentes de IA corporificados requer ambientes de treinamento escaláveis que equilibrem diversidade de conteúdo com precisão física. Os simuladores de mundo fornecem tais ambientes, mas enfrentam limitações distintas: métodos baseados em vídeo geram conteúdo diversificado, mas carecem de feedback físico em tempo real para aprendizado interativo, enquanto motores baseados em física fornecem dinâmicas precisas, mas enfrentam limitações de escalabilidade devido à criação manual dispendiosa de recursos. Apresentamos o Seed3D 1.0, um modelo de base que gera recursos 3D prontos para simulação a partir de imagens únicas, abordando o desafio de escalabilidade enquanto mantém o rigor físico. Diferente dos modelos de geração 3D existentes, nosso sistema produz recursos com geometria precisa, texturas bem alinhadas e materiais realistas baseados em física. Esses recursos podem ser integrados diretamente em motores de física com configuração mínima, permitindo implantação em manipulação robótica e treinamento por simulação. Além de objetos individuais, o sistema escala para geração completa de cenas através do agrupamento de objetos em ambientes coerentes. Ao possibilitar a criação escalável de conteúdo pronto para simulação, o Seed3D 1.0 fornece uma base para o avanço dos simuladores de mundo baseados em física. O Seed3D 1.0 já está disponível em https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seed3d-1-0-250928&tab=Gen3D.
A edição de conhecimento oferece uma forma eficiente de atualizar o conhecimento do modelo sem retreinamento completo, mas trabalhos anteriores concentraram-se quase exclusivamente em modalidades textuais ou visuais. Apresentamos o SAKE, o primeiro benchmark especificamente desenhado para editar conhecimento de atributos auditivos em Large Audio-Language Models (LALMs). Diferente de atualizações factuais, o SAKE tem como alvo vários atributos auditivos abstratos, capturando tipos de conhecimento que vão além dos domínios textuais e visuais convencionais. Avaliamos sete métodos de edição em dois LALMs ao longo de quatro dimensões: confiabilidade, generalidade, localidade áudio/texto e portabilidade. Os resultados destacam desafios como preservar o conhecimento intra-atributo não relacionado à edição, generalizar edições para o raciocínio multimodal e manter edições sob atualizações sequenciais. O SAKE fornece uma estrutura principiada para estudar como a edição de conhecimento se estende às modalidades auditivas, abrindo novas direções para manter e adaptar LALMs em cenários reais mais diversos.
Propomos o Aprendizado por Reforço com Valores Humanos Explícitos (RLEV), um método que alinha a otimização de Modelos de Linguagem de Grande Porte (LLMs) diretamente com sinais quantificáveis de valor humano. Embora o Aprendizado por Reforço com Recompensas Verificáveis (RLVR) treine modelos eficazmente em domínios objetivos usando recompensas binárias de correção, ele ignora que nem todas as tarefas são igualmente significativas. O RLEV estende esta estrutura incorporando sinais de valor definidos por humanos diretamente na função de recompensa. Utilizando dados no estilo de exames com rótulos de valor explícitos e de referência, o RLEV supera consistentemente as linhas de base baseadas apenas em correção em múltiplos algoritmos de RL e escalas de modelo. Crucialmente, as políticas do RLEV não apenas melhoram a precisão ponderada por valor, mas também aprendem uma política de terminação sensível ao valor: concisa para solicitações de baixo valor e detalhada para as de alto valor. Demonstramos que este comportamento deriva da amplificação do gradiente ponderado por valor nos tokens de fim de sequência. Estudos de ablação confirmam que o ganho está causalmente ligado ao alinhamento de valor. O RLEV mantém-se robusto sob sinais de valor ruidosos, como rótulos baseados em dificuldade, demonstrando que otimizar para uma função de utilidade explícita oferece um caminho prático para alinhar LLMs com as prioridades humanas.
Os grandes modelos de áudio-linguagem (LALMs) estendem os LLMs baseados em texto com compreensão auditiva, oferecendo novas oportunidades para aplicações multimodais. Embora sua percepção, raciocínio e desempenho em tarefas tenham sido amplamente estudados, seu alinhamento de segurança sob variações paralinguísticas permanece pouco explorado. Este trabalho investiga sistematicamente o papel da emoção do locutor. Construímos um conjunto de dados de instruções de fala maliciosas expressas em múltiplas emoções e intensidades, e avaliamos vários LALMs state-of-the-art. Nossos resultados revelam inconsistências substanciais de segurança: diferentes emoções eliciam níveis variados de respostas inseguras, e o efeito da intensidade é não monotônico, com expressões médias frequentemente representando o maior risco. Essas descobertas destacam uma vulnerabilidade negligenciada nos LALMs e exigem estratégias de alinhamento explicitamente projetadas para garantir robustez sob variação emocional, um pré-requisito para implantação confiável em ambientes do mundo real.
O aprendizado por reforço com recompensas verificáveis (RLVR) tornou-se a técnica dominante para treinar agentes de LLM. No entanto, o RLVR depende fortemente de consultas de tarefas bem elaboradas e respostas verdadeiras correspondentes para fornecer recompensas precisas, o que exige esforços humanos massivos e dificulta os processos de escalonamento do RL, especialmente em cenários agentivos. Embora alguns trabalhos recentes explorem métodos de síntese de tarefas, a dificuldade das tarefas agentivas geradas dificilmente pode ser controlada para fornecer vantagens eficazes de treinamento RL. Para alcançar um RLVR agentivo com maior escalabilidade, exploramos o treinamento de autojogo para agentes de busca profunda, no qual o LLM em aprendizado utiliza chamadas de mecanismo de busca em múltiplas interações e atua simultaneamente como um proponente de tarefas e um resolvedor de problemas. O proponente de tarefas visa gerar consultas de busca profunda com respostas verdadeiras bem definidas e dificuldade crescente da tarefa. O resolvedor de problemas tenta lidar com as consultas de busca geradas e produzir as previsões de resposta corretas. Para garantir que cada consulta de busca gerada tenha uma verdade fundamental precisa, coletamos todos os resultados da busca da trajetória do proponente como conhecimento externo e, em seguida, conduzimos uma geração aumentada por recuperação (RAG) para testar se a consulta proposta pode ser respondida corretamente com todos os documentos de busca necessários fornecidos. Neste jogo de autojogo de busca (SSP), o proponente e o resolvedor co-evoluem suas capacidades agentivas por meio de competição e cooperação. Com resultados experimentais substanciais, descobrimos que o SSP pode melhorar significativa e uniformemente o desempenho dos agentes de busca em vários benchmarks sem qualquer supervisão, tanto em configurações de treinamento RL do zero quanto contínuo. O código está disponível em https://github.com/Alibaba-Quark/SSP.
Apresentamos o Massive Legal Embedding Benchmark (MLEB), o *benchmark* de código aberto para recuperação de informação jurídica mais extenso, diversificado e abrangente até à data. O MLEB é composto por dez conjuntos de dados anotados por especialistas, abrangendo múltiplas jurisdições (EUA, Reino Unido, UE, Austrália, Irlanda e Singapura), tipos de documentos (processos judiciais, legislação, orientações regulamentares, contratos e literatura) e tipos de tarefas (busca, classificação *zero-shot* e resposta a perguntas). Sete dos conjuntos de dados do MLEB foram construídos recentemente para preencher lacunas de domínio e jurisdição no panorama de código aberto da recuperação de informação jurídica. Documentamos a nossa metodologia na construção do MLEB e na criação dos novos conjuntos de dados constituintes, e disponibilizamos abertamente o nosso código, resultados e dados para auxiliar em avaliações reproduzíveis.
A linguagem natural tem permitido a cooperação humana há muito tempo, mas a sua natureza sujeita a perdas, ambígua e indireta limita o potencial da inteligência coletiva. Embora as máquinas não estejam sujeitas a estas limitações, a maioria dos sistemas multiagente baseados em LLM ainda depende exclusivamente da linguagem natural, trocando tokens ou os seus *embeddings*. Para ir além da linguagem, introduzimos um novo paradigma, a comunicação de pensamentos, que permite aos agentes interagirem diretamente de mente para mente, semelhante à telepatia. Para descobrir estes pensamentos latentes de forma fundamentada, formalizamos o processo como um modelo geral de variáveis latentes, onde os estados dos agentes são gerados por uma função desconhecida de pensamentos subjacentes. Provamos que, num cenário não paramétrico sem informação auxiliar, tanto os pensamentos latentes partilhados como os privados entre qualquer par de agentes podem ser identificados. Além disso, a estrutura global de partilha de pensamentos, incluindo quais os agentes que partilham quais pensamentos e como estas relações estão estruturadas, também pode ser recuperada com garantias teóricas. Guiados pela teoria estabelecida, desenvolvemos um *framework* que extrai pensamentos latentes de todos os agentes antes da comunicação e atribui a cada agente os pensamentos relevantes, juntamente com os seus padrões de partilha. Este paradigma estende-se naturalmente para além dos LLMs para todas as modalidades, uma vez que a maioria dos dados observacionais surge de processos generativos ocultos. Experiências em *benchmarks* sintéticos e do mundo real validam a teoria e demonstram as vantagens colaborativas da comunicação de pensamentos. Esperamos que este trabalho ilumine o potencial de aproveitar o mundo oculto, uma vez que muitos desafios permanecem insolúveis apenas através da observação superficial, independentemente da escala de computação ou de dados.
A raciocínio em vídeo, que exige dedução multietapas entre frames, continua a ser um grande desafio para os modelos de linguagem grandes multimodais (MLLMs). Embora os métodos baseados em aprendizagem por reforço (RL) aprimorem as capacidades de raciocínio, eles frequentemente dependem de cadeias textuais que produzem conclusões infundadas ou alucinadas. Por outro lado, as abordagens de recuperação de frames introduzem fundamentação visual, mas ainda lutam com a localização imprecisa de evidências. Para enfrentar esses desafios, apresentamos Conan, uma estrutura para raciocínio em vídeo multietapas fundamentado em evidências. O Conan identifica frames contextuais e de evidência, raciocina sobre pistas entre frames e decide adaptativamente quando concluir ou explorar mais. Para alcançar isso, nós (1) construímos Conan-91K, um conjunto de dados em larga escala de traços de raciocínio gerados automaticamente que inclui identificação de frames, raciocínio sobre evidências e decisão de ação, e (2) projetamos uma estratégia progressiva de arranque a frio multietapas combinada com uma estrutura de treinamento RLVR de Identificação-Raciocínio-Ação (AIR) para aprimorar conjuntamente o raciocínio visual multietapas. Experimentos extensos em seis benchmarks de raciocínio multietapas demonstram que o Conan supera a linha de base Qwen2.5-VL-7B-Instruct em uma média de mais de 10% em precisão, alcançando desempenho de ponta. Além disso, o Conan generaliza efetivamente para tarefas de compreensão de vídeos longos, validando sua forte escalabilidade e robustez.
Apesar de sua impressionante fidelidade visual, os modelos generativos personalizados existentes carecem de controle interativo sobre a composição espacial e não escalam bem para múltiplos sujeitos. Para superar essas limitações, apresentamos o LayerComposer, uma estrutura interativa para geração de imagens texto-para-imagem personalizada e multi-sujeito. Nossa abordagem introduz duas contribuições principais: (1) uma tela em camadas, uma nova representação na qual cada sujeito é colocado em uma camada distinta, permitindo uma composição livre de oclusão; e (2) um mecanismo de bloqueio que preserva camadas selecionadas com alta fidelidade, permitindo que as camadas restantes se adaptem flexivelmente ao contexto circundante. Semelhante a softwares profissionais de edição de imagem, a tela em camadas proposta permite que os usuários posicionem, redimensionem ou bloqueiem sujeitos de entrada por meio de uma manipulação intuitiva de camadas. Nosso versátil mecanismo de bloqueio não requer alterações arquiteturais, baseando-se, em vez disso, em *embeddings* posicionais inerentes combinados com uma nova estratégia de amostragem de dados complementar. Experimentos extensivos demonstram que o LayerComposer alcança um controle espacial e uma preservação de identidade superiores em comparação com os métodos state-of-the-art em geração de imagens personalizadas multi-sujeito.
Propomos um novo paradigma baseado em Geração AutoRegressiva para Segmentação de Imagens (ARGenSeg), alcançando compreensão multimodal e percepção a nível de pixel dentro de uma estrutura unificada. Trabalhos anteriores que integram segmentação de imagens em modelos de linguagem multimodal (MLLMs) geralmente empregam representação por pontos de contorno ou cabeças de segmentação dedicadas. Esses métodos dependem de representações discretas ou *prompts* semânticos alimentados em decodificadores específicos para tarefas, o que limita a capacidade do MLLM de capturar detalhes visuais refinados. Para enfrentar esses desafios, introduzimos uma estrutura de segmentação para MLLM baseada na geração de imagens, que produz naturalmente máscaras densas para objetos-alvo. Aproveitamos o MLLM para gerar *tokens* visuais e os detokenizamos em imagens usando um VQ-VAE universal, tornando a segmentação totalmente dependente da compreensão a nível de pixel do MLLM. Para reduzir a latência de inferência, empregamos uma estratégia de predição de próxima escala para gerar os *tokens* visuais necessários em paralelo. Experimentos extensivos demonstram que nosso método supera as melhores abordagens anteriores em múltiplos conjuntos de dados de segmentação com um notável aumento na velocidade de inferência, mantendo fortes capacidades de compreensão.
O tratamento confiável de diffs de código é fundamental para agentes que editam e refatoram repositórios em larga escala. Apresentamos o Diff-XYZ, um benchmark compacto para compreensão de diffs de código com três tarefas supervisionadas: aplicar (código antigo + diff → código novo), anti-aplicar (código novo - diff → código antigo) e geração de diff (código novo - código antigo → diff). As instâncias no benchmark são triplas 〈código antigo, código novo, diff〉 extraídas de commits reais do CommitPackFT, emparelhadas com métricas automáticas e um protocolo de avaliação claro. Utilizamos o benchmark para realizar um estudo empírico focado no formato de diff unificado e executar uma comparação cruzada de diferentes representações de diff. Nossos resultados revelam que diferentes formatos devem ser usados dependendo do caso de uso e do tamanho do modelo. Por exemplo, representar diffs no formato de busca e substituição é bom para modelos maiores no cenário de geração de diff, mas não é adequado para análise de diff e modelos menores. O benchmark Diff-XYZ é uma base reutilizável para avaliar e melhorar o tratamento de diffs em LLMs, podendo auxiliar o desenvolvimento futuro de formatos de diff e modelos que editam código. O conjunto de dados está publicado no HuggingFace Hub: https://huggingface.co/datasets/JetBrains-Research/diff-xyz.
Os Grandes Modelos de Linguagem (LLMs) emergiram como assistentes promissores para a redação científica. No entanto, têm havido preocupações quanto à qualidade e confiabilidade do texto gerado, sendo uma delas a precisão e fidedignidade das citações. Embora a maioria dos trabalhos recentes recorra a métodos como o LLM-como-Juiz, a confiabilidade do LLM-como-Juiz por si só também é posta em causa. Neste trabalho, reenquadramos a avaliação de citações como um problema de alinhamento de atribuição de citações, que consiste em avaliar se as citações geradas por LLMs correspondem àquelas que um autor humano incluiria para o mesmo texto. Propomos o CiteGuard, uma arquitetura de agente com consciência de recuperação de informação, concebida para fornecer uma base mais fidedigna para a validação de citações. O CiteGuard melhora a linha de base anterior em 12,3% e atinge até 65,4% de precisão no benchmark CiteME, equiparando-se ao desempenho humano (69,7%). Também permite a identificação de citações alternativas, mas válidas.
O MeanFlow surgiu recentemente como uma estrutura poderosa para modelagem generativa de poucos passos treinada do zero, mas seu sucesso ainda não é totalmente compreendido. Neste trabalho, mostramos que o objetivo do MeanFlow se decompõe naturalmente em duas partes: correspondência de fluxo de trajetória e consistência de trajetória. Através da análise de gradiente, descobrimos que esses termos são fortemente correlacionados negativamente, causando conflito de otimização e convergência lenta. Motivados por essas percepções, introduzimos o alpha-Flow, uma ampla família de objetivos que unifica a correspondência de fluxo de trajetória, o Shortcut Model e o MeanFlow em uma única formulação. Ao adotar uma estratégia de currículo que transita suavemente da correspondência de fluxo de trajetória para o MeanFlow, o alpha-Flow desacopla os objetivos conflitantes e alcança uma melhor convergência. Quando treinado do zero no ImageNet-1K 256x256 condicional por classe com backbones DiT padrão, o alpha-Flow supera consistentemente o MeanFlow em várias escalas e configurações. Nosso maior modelo alpha-Flow-XL/2+ alcança novos resultados state-of-the-art usando backbones DiT padrão, com escores FID de 2,58 (1-NFE) e 2,15 (2-NFE).
Aumentar o número de parâmetros e o tamanho dos dados de treinamento provou ser uma estratégia eficaz para melhorar o desempenho de grandes modelos de linguagem (LLMs). No entanto, à medida que esses modelos se tornam cada vez mais poderosos e amplamente implantados, o custo da inferência tornou-se uma preocupação premente. Apesar de sua importância, a relação de compromisso entre a precisão do modelo e a eficiência da inferência permanece pouco explorada. Neste trabalho, examinamos como fatores arquiteturais-chave — tamanho da camada oculta, a alocação de parâmetros entre MLP e atenção (proporção mlp-para-atenção) e a atenção por consulta agrupada (GQA) — influenciam tanto o custo de inferência quanto a precisão. Introduzimos uma lei de escalonamento condicional que amplia o framework Chinchilla com informações arquiteturais, juntamente com um framework de busca para identificar arquiteturas que são simultaneamente eficientes em inferência e precisas. Para validar nossa abordagem, treinamos mais de 200 modelos, variando de 80M a 3B de parâmetros e de 8B a 100B de tokens de treinamento, e ajustamos a proposta lei de escalonamento condicional. Nossos resultados mostram que a lei de escalonamento condicional prevê de forma confiável as escolhas arquiteturais ótimas e que os modelos resultantes superam as linhas de base de código aberto existentes. Sob o mesmo orçamento de treinamento, as arquiteturas otimizadas alcançam até 2,1% maior precisão e 42% maior taxa de transferência de inferência em comparação com o LLaMA-3.2.
Este não é um levantamento típico de modelos de mundo; é um guia para aqueles que desejam construir mundos. Não temos como objetivo catalogar todos os artigos que já mencionaram um "modelo de mundo". Em vez disso, seguimos um caminho claro: desde os primeiros modelos mascarados que unificaram o aprendizado de representações entre modalidades, passando por arquiteturas unificadas que compartilham um único paradigma, depois para modelos generativos interativos que fecham o ciclo ação-percepção, e finalmente para sistemas aumentados por memória que sustentam mundos consistentes ao longo do tempo. Ignoramos ramificações vagamente relacionadas para focar no núcleo: o cerne generativo, o ciclo interativo e o sistema de memória. Mostramos que este é o caminho mais promissor em direção a verdadeiros modelos de mundo.
A tendência de encontrar e explorar "atalhos" para concluir tarefas representa riscos significativos para a avaliação e implantação confiáveis de grandes modelos de linguagem (LLMs). Por exemplo, um agente de LLM com acesso a testes unitários pode excluir os testes que falham em vez de corrigir o bug subjacente. Esse comportamento compromete tanto a validade dos resultados de benchmark quanto a confiabilidade de implantações reais de assistentes de codificação baseados em LLM. Para quantificar, estudar e mitigar esse comportamento, apresentamos o ImpossibleBench, uma estrutura de benchmark que mede sistematicamente a propensão de agentes de LLM a explorar casos de teste. O ImpossibleBench cria variantes "impossíveis" de tarefas de benchmarks existentes, como LiveCodeBench e SWE-bench, introduzindo conflitos diretos entre a especificação em linguagem natural e os testes unitários. Medimos a "taxa de trapaça" de um agente como sua taxa de aprovação nessas tarefas impossíveis, onde qualquer aprovação implica necessariamente um atalho que viola a especificação. Como uma estrutura prática, o ImpossibleBench não é apenas uma avaliação, mas uma ferramenta versátil. Demonstramos sua utilidade para: (1) estudar comportamentos do modelo, revelando detalhes mais refinados de comportamentos de trapaça, desde simples modificação de testes até complexa sobrecarga de operadores; (2) engenharia de contexto, mostrando como o prompt, o acesso aos testes e o ciclo de feedback afetam as taxas de trapaça; e (3) desenvolver ferramentas de monitoramento, fornecendo um banco de testes com soluções enganosas verificadas. Esperamos que o ImpossibleBench sirva como uma estrutura útil para a construção de sistemas de LLM mais robustos e confiáveis. Nossa implementação pode ser encontrada em https://github.com/safety-research/impossiblebench.
Os modelos de linguagem de grande porte (LLMs) baseados em Transformer alcançaram sucesso notável, mas seu mecanismo de atenção padrão incorre em custos quadráticos de computação e memória em relação ao comprimento da sequência, representando um grande gargalo para o treinamento de contexto longo. Trabalhos anteriores abordam esse desafio em duas direções: (1) otimizações em nível de *kernel*, que aceleram operadores de atenção densa e esparsa; e (2) estratégias em nível de módulo, frequentemente chamadas de atenção distribuída ou treinamento paralelo de contexto, que dimensionam a atenção em múltiplos dispositivos. No entanto, a avaliação sistemática ainda é limitada: comparações em nível de operador são frequentemente incompletas, enquanto estratégias de paralelismo de contexto são tipicamente específicas de *framework*, com análise de desempenho pouco clara entre contextos. Para abordar essas lacunas, propomos um *benchmark* unificado que integra *kernels* de atenção representativos e mecanismos de paralelismo de contexto com uma interface modular e extensível para avaliação. O *benchmark* avalia métodos ao longo de duas dimensões críticas: (1) padrões de máscara de atenção, que afetam fortemente a eficiência, escalabilidade e usabilidade, e (2) comprimento da sequência e escala distribuída, que determinam o desempenho sob treinamento de contexto extremamente longo. Por meio de experimentos abrangentes no *cluster* de até 96 GPUs, nosso *benchmark* permite comparações reproduzíveis, destaca *trade-offs* específicos de cada método e fornece orientação prática para projetar e implantar mecanismos de atenção no treinamento de LLMs de contexto longo.
O trabalho em equipe para tarefas complexas requer estratégias de comunicação diversificadas, mas os sistemas atuais de LLM multiagente carecem de estruturas sistemáticas para comunicação orientada a tarefas. Apresentamos o Communication to Completion (C2C), uma estrutura escalável que aborda essa lacuna através de duas inovações principais: (1) o Fator de Alinhamento (AF), uma nova métrica que quantifica o alinhamento das tarefas dos agentes e impacta diretamente a eficiência do trabalho, e (2) uma Estrutura de Ação Sequencial que integra a execução passo a passo com decisões de comunicação inteligentes. O C2C permite que os agentes façam escolhas de comunicação conscientes do custo, melhorando dinamicamente a compreensão da tarefa por meio de interações direcionadas. Avaliamos o C2C em fluxos de trabalho realistas de codificação em três níveis de complexidade e tamanhos de equipe de 5 a 17 agentes, comparando-o com baselines sem comunicação e de etapas fixas. Os resultados mostram que o C2C reduz o tempo de conclusão da tarefa em cerca de 40% com custos de comunicação aceitáveis. A estrutura conclui todas as tarefas com sucesso em configurações padrão e mantém a eficácia em escala. O C2C estabelece tanto uma base teórica para medir a eficácia da comunicação em sistemas multiagente quanto uma estrutura prática para tarefas colaborativas complexas.
Apresentamos o MSC-Bench, um benchmark em larga escala para avaliação de orquestração de ferramentas multi-hop e de ponta a ponta por agentes de LLM em um ecossistema hierárquico de Protocolo Modelo-Contexto (MCP). Os benchmarks existentes frequentemente avaliam ferramentas de forma isolada, ignorando desafios como sobreposição funcional e orquestração entre servidores, levando a avaliações excessivamente otimistas. O MSC-Bench aborda essas lacunas construindo ground truth por meio de 'conjuntos de funções equivalentes', permitindo métricas objetivas como o score F1 e reduzindo a dependência da avaliação por LLM-como-juiz. Organizado como um currículo de cinco níveis, ele testa sistematicamente as capacidades dos agentes, desde a orquestração de ferramentas únicas até o planejamento complexo entre servidores, e a robustez a solicitações fora do escopo. Experimentos revelam que hierarquias rígidas podem prejudicar o desempenho sem estratégias co-projetadas, e mesmo os agentes mais avançados exibem fraquezas sistêmicas de robustez. O MSC-Bench fornece uma estrutura diagnóstica para expor essas limitações e orientar o desenvolvimento de agentes que utilizam ferramentas de forma mais capaz e eficiente. O benchmark e os recursos estão publicamente disponíveis em https://github.com/snooow1029/MSC_Bench.
Os grandes modelos de linguagem (LLMs) suportam atualmente janelas de contexto de centenas de milhares a milhões de *tokens*, permitindo aplicações como sumarização de documentos longos, síntese de código em larga escala, resposta a perguntas sobre múltiplos documentos e diálogo persistente multi-turn. No entanto, estes contextos estendidos exacerbam o custo quadrático da auto-atenção, levando a uma latência severa na descodificação autoregressiva. Os métodos existentes de atenção esparsa aliviam estes custos, mas dependem de padrões heurísticos que têm dificuldade em recordar os pares chave-valor (KV) críticos para cada consulta, resultando em degradação da precisão. Apresentamos o Adamas, um mecanismo de atenção esparsa leve mas altamente preciso, concebido para inferência de contexto longo. O Adamas aplica a transformada de Hadamard, a *bucketization* e a compressão de 2 bits para produzir representações compactas, e aproveita a estimativa da distância de Manhattan para seleções eficientes de *top-k*. Experiências mostram que o Adamas iguala a precisão da atenção completa com um orçamento de apenas 64 *tokens*, alcança um desempenho quase sem perdas a 128, e suporta uma esparsidade até 8x superior aos métodos anteriores do estado da arte (SOTA), enquanto proporciona acelerações de até 4,4x na auto-atenção e 1,5x *end-to-end* em sequências de 32K de comprimento. Notavelmente, o Adamas atinge uma perplexidade comparável ou mesmo inferior à da atenção completa, sublinhando a sua eficácia em manter a precisão sob esparsidade agressiva.
Desde o advento de vários modelos de linguagem grandes pré-treinados, a extração de conhecimento estruturado a partir de texto científico passou por uma mudança revolucionária em comparação com as técnicas tradicionais de aprendizagem de máquina ou processamento de linguagem natural. Apesar desses avanços, ferramentas automatizadas acessíveis que permitam aos usuários construir, validar e visualizar conjuntos de dados a partir da extração da literatura científica permanecem escassas. Por conseguinte, desenvolvemos o ComProScanner, uma plataforma multiagente autónoma que facilita a extração, validação, classificação e visualização de composições e propriedades químicas legíveis por máquina, integrada com dados de síntese de artigos de periódicos para a criação abrangente de bases de dados. Avaliámos a nossa estrutura utilizando 100 artigos de periódicos contra 10 LLMs diferentes, incluindo modelos de código aberto e proprietários, para extrair composições altamente complexas associadas a materiais piezoelétricos cerâmicos e os correspondentes coeficientes de deformação piezoelétrica (d33), motivados pela falta de um grande conjunto de dados para tais materiais. O DeepSeek-V3-0324 superou todos os modelos com uma precisão geral significativa de 0,82. Esta estrutura fornece um pacote simples, de fácil utilização e pronto a ser usado para extrair dados experimentais altamente complexos enterrados na literatura, para a construção de conjuntos de dados de aprendizagem de máquina ou aprendizagem profunda.
Estudos recentes de sondagem revelam que grandes modelos de linguagem exibem subespaços lineares que separam afirmações verdadeiras das falsas, embora o mecanismo por trás de seu surgimento permaneça obscuro. Introduzimos um modelo de brinquedo transparente, um transformador de uma camada, que reproduz tais subespaços de verdade de ponta a ponta e expõe uma rota concreta pela qual eles podem surgir. Estudamos um cenário simples no qual a codificação da verdade pode emergir: uma distribuição de dados onde afirmações factuais co-ocorrem com outras afirmações factuais (e vice-versa), incentivando o modelo a aprender essa distinção para reduzir a perda do modelo de linguagem em tokens futuros. Corroboramos esse padrão com experimentos em modelos de linguagem pré-treinados. Finalmente, no cenário de brinquedo, observamos uma dinâmica de aprendizado em duas fases: as redes primeiro memorizam associações factuais individuais em poucos passos e, depois – ao longo de um horizonte mais longo – aprendem a separar linearmente o verdadeiro do falso, o que, por sua vez, reduz a perda de modelagem de linguagem. Juntos, esses resultados fornecem tanto uma demonstração mecanicista quanto uma motivação empírica de como e por que representações lineares da verdade podem emergir em modelos de linguagem.