Stable Diffusion은 잘 작동하는 네트워크이지만, 이미지 한장에 지나지 않는다.
LDM 모델의 아이디어는 좋지만, https://arxiv.org/pdf/2012.09841.pdf의 Encoder와 Decoder를 이용하여, 조건을 추가로 부여하는 모델이다.
즉 잘 작동하지만, 학습 시키기 까다롭고 여러 단계를 걸쳐서 학습해야한다.
마지막으로 비디오의 시퀀셜 정보를 주기 까다롭다.