https://dcgi.fel.cvut.cz/home/sykorad/dia
씨그래프 2023에 나옴
Problem Definition
Image analogies
이미지 A, A'가 주어졌을 때, A와 A'의 관계를 이해하고 그 관계를 새로운 이미지 B에 적용하여 B'를 만드는 것.
A:A' :: B:B'로 표현함.
이 논문에서는 이 image analogies를 디퓨전으로 품. 논문에서 제시하는 문제상황은 다음과 같음.
1) image anaologies에 대한 이전 연구들은 low level(pixel)로써 이미지를 이해하기 때문에 higher level인 context를 이해하거나 structure를 바꾸는데 어려움이 있음.
2) 요즘에는 LLM과 Diffusion으로 text-guided 이미지 생성 모델이 핫함. 하지만 원하는 B'를 뽑기 위해서는 text를 사용자가 복잡하게 지시해야하고, text prompt를 복잡하게 준다고 한들 원하는 대로 조작하기 쉽지 않음.
본 논문에서는 이런 문제점들을 개선하여 text없이 A:A'의 관계를 바로 B에 적용하여 B'를 생성하는 방식을 제안함.
Method
본 논문에서는 input image A,A',B가 Stable Diffusion으로부터 생성된 이미지라고 가정. 노이즈 이미지 𝜖∗ 에 diffusion process 가 반복적으로 진행되는데, 그때 CLIP features 𝑐∗가 diffusion 과정을 가이드함.
본 논문에서는 생성할 output image B':
여기서 𝐴:𝐴′는 이미지 𝐴 와 𝐴 ′의 CLIP features를 뺀 것임
새로운 임의의 real world 이미지(B)가 있을 때 initial noise 𝜖∗ and CLIP features 𝑐∗를 추론해야 하는데, 본 논문에서는 디퓨전을 활용해 optimization함.
본 논문에서는 디퓨전 과정에서 clip feature와 initial noise의 정보가 복합적으로 영향을 미치기 때문에, output이 잘 나오는 것처럼 보이더라도 clip feature로 semantic 한 의미만을 담지 못하게 된다고 함. 그래서 initial noise 𝜖∗ and CLIP features 𝑐∗를 독립적으로 최적화 시켜서 이를 해결하고자 했음. 위의 overview 그림 참조