본문 바로가기
Research

Understanding and Predicting Image Memorability at a Large Scale

by suminhan 2019. 5. 22.

Authors:

Aditya Khosla MIT khosla@mit.edu

Akhil S. Raju MIT araju@mit.edu

Antonio Torralba MIT torralba@mit.edu

Aude Oliva MIT oliva@mit.edu

 

흥미로운 키워드는 

"memorable and forgettable images have different intrinsic visual features"

 

  • What are the common visual features of memorable, or forgettable, images?
  • How far we can we go in predicting with high accuracy which images people will remember, or not?

Human memory score 라는 표현이 계속 등장한다. 그래서 MemNet이란걸 만들어서 layer에 있는 learned representation을 통해 memorable 인지 forgettable인지를 가늠할 수 있다고 한다.

 

그리고 무엇보다

"Our work shows that predicting human cognitive abilities is within reach for the field of computer vision"

인간의 인지 능력이 컴퓨터 비전 영역에 들어왔다고 주장한다.. ㅎㄷㄷ

 

그런데 이거 트레이닝 할때 사람으로 트레이닝 하나보다..  "Observers must press a key when they recognize an image seen before"라고 되어있다. 사람과 비슷한 방식의 러닝 모델을 제시하는 것인가?

 

그리고 memorable은 time-independent라고 한다. 즉 기억에 남는 장면은 시간과 상관없이 오래 기억에 간직된다는 것이다. 여튼 60,000개의 이미지에 대하여 실험했다.

 

실험을 할 때 실험자 마다 랜덤하게 30번 혹은 100번의 이미지  이후 같은 이미지를 보여주게 하는 등 time interval을 두고 측정했다. 

 

m^(i) 가 i th image의 memorability라고 하면 n^(i) (몇 번 보여졌는지), t_j^(i) (time interval), x_j in {0, 1}은 0 또는 1로 반복된 것에 대해 감지했는지 이런 변수가 있을 것이다. 그래서

이처럼 x와 m에 대한 l2 error가 최소화 되도록 학습을 하고 m을 memorability로 쓴다.

 

일단 이게 기본적인 개념이고, T라는 시간안에 반복되었을 때의 memorability로 m_T^(i)라는 개념을 도입한다. 이때 log식을 써서 memorability가 시간에 따라 감소하도록 조정하는 것 같다.

 

실험 결과, LaMem의 데이터셋은 기억하기 쉬운데 SUN 데이터셋은 잘 잊혀진다고 나왔다. Fig 3(b)

그리고 popularity랑 memorability와 연관지어 Fig 4(a)에 표현하였다. popularity는 flickr 조회수로 따졌고 sorting 한 이후 적용하였다. (기억하기 쉬운 이미지가 더 인기있는 이미지였다는 정도)

 

Saliency는 중요도인데, fixation Flickr 데이터셋을 이용하였고, fixation consistency와 memorability의 correlation이 0.24로 꽤 높게 측정되었다.

 

Emotion은 그래프와 같이 disgust한 이미지를 더 잘 기억하는걸로...

 

Aesthetics은 큰 차이가 없었다. AVA 데이터셋을 이용했다고 하는데 크게 잘 모르겠네, 그런 metadata가 있나보다.

 

 

이제 Memorability 예측이다.

여기서는 CNN을 활용하여 scene과 object에 대한 필터 같은걸 활용하여 memorability를 예측한다.

 

여기 실험에서는 음.. False Alarm이라고 memorable한게 아니라 familiar한데 높은 값이 측정된 부분을 제거하고 하였을 때 더 좋은 측정결과가 나왔다고 한다.

 

Training은 pre-trained Hybrid-CNN from [37]에서 썻다고 한다. 기존 모델을 썼나보다. 보통 CNN에선 많이 쓰는 방법이니

 

 

Application으론 이런 것들을 들고와봤는데, memorability map으로 어떤 부분이 더 기억하기 좋은부분이었는지, 인간의 인지 능력을 memorability와 연동하여 적용한 필터를 입히거나 인간의 인지와 연관있는 부분을 기억해 내는 것에 유용하게 쓰일 수 있어보인다.

 

내 생각에 이 논문은 잘 활용한다면 그래픽 분야에서 VR같은 기술에서 사람들이 쉽게 인지하는 부분의 해상도를 높이고 그렇지 않은 부분을 낮춤으로써 그래픽카드의 부담을 덜어 낸다거나 하는 기술에 사용될 수 있을 것 같다.

 

 

 

'Research' 카테고리의 다른 글

공공데이터 GIS Dataset  (0) 2021.01.03

댓글