번역이 포함된 일일 선별된 AI 연구 논문
이미지 인페인팅(image inpainting)은 이미지 편집과 이미지 생성 사이의 핵심 연구 분야입니다. 최신 최첨단(state-of-the-art, SOTA) 방법들은 새로운 어텐션 메커니즘, 경량화된 아키텍처, 그리고 컨텍스트 인식 모델링을 탐구하며 인상적인 성능을 보여주고 있습니다. 그러나 이러한 방법들은 복잡한 구조(예: 질감, 형태, 공간적 관계)와 의미론(예: 색상 일관성, 객체 복원, 논리적 정확성)에서 종종 어려움을 겪어 아티팩트와 부적절한 생성 결과를 초래합니다. 이러한 문제를 해결하기 위해, 우리는 잠재 카테고리 지도(latent categories guidance)라는 간단하지만 효과적인 인페인팅 패러다임을 설계하고, 이를 기반으로 PixelHacker라는 디퓨전 기반 모델을 제안합니다. 구체적으로, 우리는 먼저 전경과 배경(각각 잠재적으로 116개와 21개의 카테고리)을 주석 처리하여 1,400만 개의 이미지-마스크 쌍으로 구성된 대규모 데이터셋을 구축했습니다. 그런 다음, 두 개의 고정 크기 임베딩을 통해 잠재적인 전경과 배경 표현을 별도로 인코딩하고, 선형 어텐션을 통해 이러한 특징들을 디노이징 과정에 간헐적으로 주입합니다. 마지막으로, 우리의 데이터셋에서 사전 학습을 진행하고 오픈소스 벤치마크에서 미세 조정함으로써 PixelHacker를 얻었습니다. 광범위한 실험 결과, PixelHacker는 다양한 데이터셋(Places2, CelebA-HQ, FFHQ)에서 SOTA를 종합적으로 능가하며 구조와 의미론 모두에서 뛰어난 일관성을 보여줍니다. 프로젝트 페이지는 https://hustvl.github.io/PixelHacker에서 확인할 수 있습니다.
우리는 Llama-Nemotron 시리즈 모델을 소개합니다. 이는 우수한 추론 능력, 추론 효율성, 그리고 기업 사용을 위한 개방형 라이선스를 제공하는 이종 추론 모델의 오픈 패밀리입니다. 이 패밀리는 Nano(8B), Super(49B), Ultra(253B) 세 가지 크기로 제공되며, DeepSeek-R1과 같은 최첨단 추론 모델과 경쟁력 있는 성능을 보이면서도 더 우수한 추론 처리량과 메모리 효율성을 제공합니다. 본 보고서에서는 이러한 모델의 학습 절차에 대해 논의합니다. 이 절차는 Llama 3 모델의 신경망 구조 탐색을 통해 가속화된 추론, 지식 증류, 그리고 지속적인 사전 학습을 포함하며, 이어서 두 가지 주요 부분으로 구성된 추론 중심의 사후 학습 단계를 거칩니다: 지도 미세 조정과 대규모 강화 학습. Llama-Nemotron 모델은 동적 추론 토글을 지원하는 최초의 오픈소스 모델로, 사용자가 추론 중에 표준 채팅 모드와 추론 모드 간 전환을 가능하게 합니다. 개방형 연구를 더욱 지원하고 모델 개발을 용이하게 하기 위해, 우리는 다음과 같은 리소스를 제공합니다: 1. Llama-Nemotron 추론 모델(LN-Nano, LN-Super, LN-Ultra)을 상업적으로 허용 가능한 NVIDIA Open Model License Agreement 하에 공개합니다. 2. 완전한 사후 학습 데이터셋(Llama-Nemotron-Post-Training-Dataset)을 공개합니다. 3. 학습 코드베이스(NeMo, NeMo-Aligner, Megatron-LM)도 공개합니다.
대부분의 실제 이미지 편집 작업은 원하는 결과를 얻기 위해 여러 번의 순차적 편집이 필요합니다. 현재의 편집 접근 방식은 주로 단일 객체 수정을 위해 설계되어 있어, 순차적 편집에서 특히 이전 편집 내용을 유지하면서 새로운 객체를 기존 콘텐츠에 자연스럽게 통합하는 데 어려움을 겪습니다. 이러한 한계는 여러 객체를 수정하면서도 그들의 맥락적 관계를 보존해야 하는 복잡한 편집 시나리오에서 상당한 장애물로 작용합니다. 우리는 이 근본적인 문제를 해결하기 위해 두 가지 주요 제안을 제시합니다: 기존 콘텐츠를 보존하면서 새로운 요소를 자연스럽게 통합할 수 있는 대략적인 마스크 입력을 가능하게 하고, 여러 수정 작업에서 일관된 편집을 지원하는 것입니다. 우리의 프레임워크는 이전 편집에서의 잠재 표현과 프롬프트 임베딩을 저장하는 계층적 메모리를 통해 이를 달성합니다. 우리는 장면 일관성을 유지하기 위해 기억된 잠재 표현을 활용하는 배경 일관성 가이드와 기존 콘텐츠에 자연스럽게 적응할 수 있도록 하는 크로스-어텐션의 다중 쿼리 분리를 제안합니다. 우리의 방법을 평가하기 위해, 의미론적 정렬 메트릭과 인터랙티브 편집 시나리오를 포함한 새로운 벤치마크 데이터셋을 제시합니다. 포괄적인 실험을 통해, 우리는 최소한의 사용자 노력으로 반복적인 이미지 편집 작업에서 우수한 성능을 보여주며, 여러 편집 단계를 거치면서도 고품질의 결과를 유지하면서 대략적인 마스크만 요구하는 것을 입증합니다.
자연어 생성(NLG) 시스템을 평가하는 것은 유효한 출력의 다양성으로 인해 어려운 과제이다. 인간 평가가 최적의 기준으로 여겨지지만, 이는 불일치, 표준화 부족, 인구통계학적 편향 등의 문제로 인해 재현성이 제한된다. 대규모 언어 모델(LLM) 기반 평가는 확장 가능한 대안을 제공하지만, 프롬프트 설계에 매우 민감하여 작은 변화가 큰 차이를 초래할 수 있다. 본 연구에서는 모델 출력을 다시 입력 지시로 매핑하는 효과적인 역학습 방법을 제안하여, 모델 특화적이고 매우 효과적인 평가 프롬프트를 자동으로 생성할 수 있도록 한다. 우리의 방법은 단일 평가 샘플만을 요구하며, 시간이 많이 소요되는 수동 프롬프트 엔지니어링의 필요성을 없애 효율성과 견고성을 모두 개선한다. 이 연구는 더 견고하고 효율적인 LLM 기반 평가를 위한 새로운 방향을 제시한다.
2020년 1월부터 2025년 3월까지 발표된 9,439편의 생성형 AI 논문 중 1,178편의 안전성 및 신뢰성 논문을 바탕으로, 주요 AI 기업(Anthropic, Google DeepMind, Meta, Microsoft, OpenAI)과 AI 대학(CMU, MIT, NYU, Stanford, UC Berkeley, University of Washington)의 연구 성과를 비교 분석하였다. 우리는 기업의 AI 연구가 점차 배포 전 단계인 모델 정렬 및 테스트 & 평가에 집중되는 반면, 모델 편향과 같은 배포 단계 이슈에 대한 관심은 줄어들고 있음을 발견했다. 특히 의료, 금융, 허위정보, 설득적 및 중독성 기능, 환각, 저작권 등 고위험 배포 영역에서 상당한 연구 격차가 존재한다. 배포된 AI에 대한 관측 가능성이 개선되지 않는다면, 기업의 연구 집중도가 높아지면서 지식 부족이 심화될 수 있다. 우리는 외부 연구자들이 배포 데이터에 접근할 수 있도록 확대하고, 시장 내 AI 행동에 대한 체계적인 관측 가능성을 강화할 것을 권장한다.
실제 말뭉치에서는 지식이 문서 간에 빈번히 반복되지만, 모호한 명명, 구식 정보 또는 오류로 인해 불일치가 발생하여 문맥 간 복잡한 상호관계가 형성됩니다. 선행 연구에 따르면, 언어 모델은 이러한 복잡성을 다루는 데 어려움을 겪으며, 일반적으로 단일 요소에만 집중하는 경향이 있습니다. 우리는 이러한 관계를 네 가지 유형으로 분류합니다: 산만한 관계, 모호한 관계, 반사실적 관계, 그리고 중복된 관계. 우리의 분석 결과, 이러한 상호관계를 동시에 효과적으로 해결할 수 있는 단일 접근법은 없음이 밝혀졌습니다. 따라서 우리는 다중 문맥을 독립적으로 처리되는 그룹으로 조직하는 프레임워크인 Context Organizer(CORG)를 소개합니다. 이 설계는 모델이 관련된 모든 답변을 효율적으로 찾으면서도 모호성을 해소할 수 있도록 합니다. CORG는 그래프 생성기, 재순위 지정기, 그리고 집계기의 세 가지 주요 구성 요소로 이루어져 있습니다. 우리의 실험 결과, CORG는 성능과 효율성을 효과적으로 균형 잡으며, 기존의 그룹화 방법을 능가하고 더 많은 계산 자원을 요구하는 단일 문맥 접근법과 비슷한 결과를 달성함을 보여줍니다.
신호 시간 논리(STL) 사양을 통해 복잡한 작업을 해결하는 방법을 학습하는 것은 많은 실제 응용 분야에서 매우 중요합니다. 그러나 대부분의 기존 연구는 다양한 STL 데이터셋과 하위 작업을 위한 시간 논리 정보를 효과적으로 추출할 수 있는 인코더가 부족하기 때문에 고정되거나 매개변수화된 STL 사양만을 고려했습니다. 본 논문에서는 그래프 신경망(GNN) 인코더와 흐름 매칭을 활용하여 일반적인 STL 사양에 대한 해결책을 학습하는 TeLoGraF(Temporal Logic Graph-encoded Flow)를 제안합니다. 우리는 널리 사용되는 네 가지 STL 템플릿을 식별하고 총 20만 개의 사양과 짝을 이루는 데모를 수집했습니다. 2D 공간의 단순한 동적 모델부터 고차원의 7DoF Franka Panda 로봇 팔과 Ant 사족 보행 로봇의 탐색에 이르기까지 다섯 가지 시뮬레이션 환경에서 광범위한 실험을 수행했습니다. 결과는 우리의 방법이 STL 만족률에서 다른 기준선들을 능가함을 보여줍니다. 기존의 STL 계획 알고리즘과 비교할 때, 우리의 접근 방식은 추론 속도가 10~100배 빠르며 모든 시스템 동역학에서 작동할 수 있습니다. 또한, 우리의 그래프 인코딩 방법이 복잡한 STL을 해결할 수 있는 능력과 분포 외 STL 사양에 대한 견고성을 보여줍니다. 코드는 https://github.com/mengyuest/TeLoGraF에서 확인할 수 있습니다.
매일 새로운 제품이 등장함에 따라, 추천 시스템은 광범위한 재학습 없이도 새로운 도메인에 빠르게 적응할 수 있어야 합니다. 본 연구는 "X-Cross"라는 새로운 교차 도메인 순차 추천 모델을 제안합니다. 이 모델은 여러 도메인별 언어 모델을 통합하여 새로운 도메인에서 제품을 추천하며, 각 모델은 저랭크 어댑터(LoRA)를 사용하여 미세 조정됩니다. 추천 프롬프트가 주어지면, X-Cross는 레이어별로 동작하며 모든 다른 모델의 지식을 통합하여 각 소스 언어 모델의 표현을 동적으로 개선합니다. 이러한 개선된 표현은 한 레이어에서 다음 레이어로 전파되며, 각 도메인 어댑터의 활성화를 활용하여 도메인별 뉘앙스를 보존하면서도 도메인 간 적응성을 가능하게 합니다. Amazon 데이터셋을 사용한 순차 추천 실험에서, X-Cross는 LoRA로 미세 조정된 모델과 비슷한 성능을 달성하면서도 추가 파라미터의 25%만 사용합니다. 장난감 도메인에서 도구, 전자제품 또는 스포츠 도메인으로 적응하는 교차 도메인 작업에서, X-Cross는 LoRA가 효과적으로 미세 조정되기 위해 필요한 데이터의 약 50%-75%만 필요로 하면서도 견고한 성능을 보여줍니다. 또한, X-Cross는 대체 교차 도메인 베이스라인 대비 정확도에서 상당한 개선을 달성합니다. 전반적으로, X-Cross는 확장 가능하고 적응적인 교차 도메인 추천을 가능하게 하며, 계산 오버헤드를 줄이고 데이터가 제한된 환경에서 효율적인 솔루션을 제공합니다.