[스테빌리티 AI] - 생태계 구축 vs 멀티모달 경쟁
삼성증권 이영진
24.03.29
- 이미지 생성 AI Stable Diffusion(SD) 주요 개발사. SD 기반의 생태계 확장 노력
- AI에 대한 접근성을 강화한다는 목적하에 인공지능 모델을 오픈 소스로 공개
- 최근 Sora와 유사한 아키텍처를 활용하는 Stable Diffusion 3 발표
WHAT’S THE STORY?
이미지 생성 AI 분야에서 잘 나가는 기업: Stability AI(스테빌리티 AI)는 2019년 설립된 인공지능 기업으로 Text-to-Image AI 모델 Stable Diffusion(스테이블 디퓨전, SD)의 주요 개발사 중 하나다. 스테이블 디퓨전은 이름처럼 데이터에 노이즈를 가하며 학습시키고 이후 노이즈를 복원하여 데이터를 생성하는 diffusion 모델 기반이다. 최근 릴리즈 되는 이미지 및 동영상 생성 AI에는 대부분 diffusion 모델이 적용된다.
Runway와 Pika Labs를 앞지른다?: 스테빌리티 AI의 동영상 생성 AI 모델 Stable Video Diffusion(SVD)은 23년 11월 리서치 프리뷰 형태로 공개했다. 당시에는 상업적 어플리케이션에 적용할 수준이 아니라고 판단했지만, 이후 12월에는 본격 API 제공을 시작했다. 상업적 활용을 위해서는 프로페셔널 멤버십($20/월) 가입이 필요하다.
SVD는 이미지 기반으로 동영상을 생성하는 모델(Image to Video)로 일반 버전과 XT 버전으로 구성된다. 생성 속도는 초당 3~30 프레임을 생성하지만, 일반 버전은 1초 당 14프레임 영상, XT 버전은 1초 당 25 프레임 영상을 생성할 수 있다. 자체 조사에서는 경쟁 모델 대비 높은 만족도를 보였다는 점을 강조했다.
최대 생성 동영상 길이는 4초이며 카메라 이동은 측면 방향으로만 가능한 점 등 아직 초기 단계 모델이다. 아직 Text to Video 기능을 지원하지 않고 있다는 점도 단점이다. 스테이블 디퓨전으로 생성한 이미지를 기반으로 하는 생태계 구축을 염두에 둔 행보라고 보이지만, 멀티 모달 경쟁에서는 다소 뒤쳐진 상황이다.
새로운 이미지 생성 AI 모델 아키텍처에서 찾는 희망: 최근 차세대 이미지 생성 AI 모델 스테이블 디퓨전 3를 공개했다. 기존 모델과 다르게 Diffusion Transformer를 활용했다. 이는 Sora가 차용한 아키텍처와 유사하다(Flow matching 등에서 세부 차이점 존재). SVD가 22년 모델인 스테이블 디퓨전 2를 기반으로 개발된 만큼, 향후 동영상 및 3D 생성 분야에서 스테이블 디퓨전 3를 기반으로한 멀티 모달 모델 확장 가능성이 높다고 판단한다. 컴퓨팅 자원과 기술이 추가 발전된 상황에서 생태계 구축 행보를 지켜볼 필요가 있다.
오픈 소스 정신을 이어 가기 위한 조건: 22년 10월 1억 달러(시드 라운드) 펀딩을 받았으나, 모델을 오픈 소스로 제공하는 특성상 비용 충당에 어려움을 겪을 수밖에 없다. 실제로 현금 부족에 따른 임금 체불과 세금 미납 이슈가 보도되기도 했다. 23년 6월과 10월 각각 2,500만 달러 및 5,000만 달러(인텔 캐피탈) 수혈에 성공했으나, 불확실성은 존재한다. 지난해 주요 투자자인 Coatue Management가 CEO 사임을 압박했고, 결국 Emad Mostaque CEO는 최근 사임을 발표했다. 이미지 생성 AI 모델을 개발한 주요 연구진 이탈과 함께 증가하는 내부적 혼란은 제품 경쟁력 및 회사 전략 변화에도 영향을 미칠 수 있다.