"참된 지혜는 실용적인 지식들의 무분별한 집적을 통해서 얻어지는것이 아니라, 모든것들을 통해서 자신을 드러내는 하나의 것을 파악하는데 있다. " - 헤라클레이토스 -

!.. 생각과 질문/...기술(Tech)

Gemini의 나노 바나나(Nano Banana),Imagen 4.0 & chatGPT. #1

rosehill 2025. 9. 2. 22:11

이미지 관련과 변환 관련하여 최근에 나노바나나의 등장으로 다소 혼동되거나 어떤 특색을 가지고 있는지를 간단한 이미지를 통해 설명해 볼까 한다. 몇가지 이미지의 변환을 가볍게 예를 들어서 내가 이해한 대로 설명을 해보는데, 간간히 제미나이와 대화를 통해서 확인 해 가면서 정리 해본것을 올려본다. 

우선 먼저, 다양한 이미지 툴들과 변환 A.I들이 있지만 내 경우를 들어 일단 제미나이쪽과 chatGPT크게 둘로 놓고 여기서는 나노 바나나와 관련한것만 좀 이야기 해 보겠다. 

* 이미지변환 프로그램, 그리고 이미지 생성 프로그램, 또 이미지 생성 및 변환 모두 다 잘하는.. 이런식으로 여러가지가 있으니까 추가적으로 더 알아보거나 살펴 보는 경우는 여러가지 다른 툴들도 많이 있다는걸 기억해야 한다. 지금은 그냥 내가 접해본것들 가운데에 구글의 gemini를 통해 접했던, Imagen 4.0과, 나노 바나나 .. 그리고 스타일 변환을 주로 했었던 chatGPT의 이미지 변환 이다. 여기서 동영상을 생성했었던 veo같은 경우는 일단 논외로 한다. 

일단 구글의 Imagen을 먼저 볼까..? 

Imagen은 앞서도 한번 언급했지만, 주어진 이미지를 가지고 읽은 다음에 여기에 어떤 효과를 주는데있어서 취약하다. 

가운데가 오리지널, 왼쪽이 chatGPT, 오른쪽이 Imagen 4.0의 스타일 변환이다. 

고흐 스타일에 가장 적합한건 역시 chatGPT다. (맨왼쪽)

그런데, Imagen은 여기에 특화된 모델이 아니다. Imagen 4.0은 "생성"에 특화 되어있다. 그러니까 뭔가를 생성해달라고 하는것을 충실히 잘 수행한다는것이다. 그리고 최근 4.0모델은 그 능력이 많이 향상 되었다. 이 결과물은 이때 테스트 작업하면서 테스트 해봤다. 

https://indifree.com/1654

 

『NAUTILUS』 Gustav Salva Dore,2025

『 노틸러스 』구스타프 살바 도레.2025 * 쥘 베른의 2025년 신작 『 노틸러스, 프리퀼 : 시간 군도에서의 모헙 』표지 디자인.* 원본 이미지는 구글 제미나이 Imagen 4를 이용해 명령을 통해 직접 생

indifree.com

 

여기서도

https://rosehill.tistory.com/536?category=1246063

 

레오나르도 다빈치, 최신 기술 중세로 빼돌리다?

* 모든 이미지는 google 제미나이의 Imagen4.0을 이용해 구상 및 명령을 통해 생성.* 개별 이미지는 갤러리에 따로 올릴 예정.https://www.indifree.com/1681 【Davinci Technology】#1 Magazine Design* 구글 제미나이 Ima

rosehill.tistory.com

여기서 어떤 그림을 주고 변환한것이 아니라 순수하게 명령을 통해서 만들어 낸 이미지이다. 이때 하단에 a.i란 마크가 찍혔는데 이게 구글의 Imagen이 생성한것을 의미한다. 그러니까 얘는 이쪽에 좀 특화 되어있다. 

(저 페이지에서 글자나 표지 디자인 등은 내가 따로 어떤 재미를 위해서 구성하는 과정에서 넣은것들...)

그러니까, 얘한테는 어떤 사진을 주고 이렇게 변환해줘 저렇게 변환해줘는 잘 이뤄지지 않는다.. 일단 현재는 그렇다. 

나노 바나나(nano Banana, flash 2.5 image)

나눠? 몰 나눠? 내껀데..

얘는 반면에 생성보다는 주어진 이미지를 가지고 작업 하는데 탁월한 성능과 장점을 가지고 있다. 

이를테면, 이미지끼리의 합성이나, 원본 이미지의 특정 이미지를 지운다거나 혹은 어떤 다른 이미지를 집어넣거나, 혹은 두 이미지를 이렇게 저렇게 섞어, 얘를 잘라서 쟤한테 넣어등과 같은 작업에 특화 되어있다. 

말하자면, 생성하는 데에 특화 되어있던 Imagen 4.0의 단점이 얘를 통해 보완이 된거다. 물론 두 이미지를 만드는 팀은 같은 구글이기는하나 별개의 팀이다. 나노 바나나를 통해 생성된 이미지는 우측 하단에 다이아표시 비슷한것이 워터마크로 들어가 있다. 

* 글을 작성하면서 저 바나나 고양이를 생성했는데, 이번엔 'ai' 워터마크가 아니라, '다이아' 형태의 마크(나노 바나나)마크가 찍혔다. 글쓰다 말고 잠시 확인해보니, Imagen의 기술(text to image), 그리고 나노 바나나의 기술(image to image)둘이 각각 기술의 이름인거고, 실상은 큰 틀에서 하나로 작동되며, 워터마크도 이제는 저거 하나로 통합되었다고 이야기한다. gemini답변..

작동 자체를 제미나이에서 이뤄지기때문에 제미나이 사용자들은 하단에 image를 클릭한 상태에서 이미지를 생성 하면 생성한대로 imagen기술이 들어가서 생성하는것이고 어떤 이미지를 주면 그 이미지를 통해 어떤 작업들은 나노 바나나의 기술이들어가면서 작동된다고 보면 된다. 따로 이제 구분의 의미는 없어진듯하다.. 

일단은 기술에 대한 설명이라도 구분지어 생각해 보면 제미나이 상에서 명령을 내리면 생성과 관련된것은 알아서 Imagen쪽의 기술이 작동되고, 이미지를 주면서 일어나는 처리는 나노 바나나의 기술이 동작하게 된다고 보면 된다. 

나노 바나나의 기술은 앞서 본것처럼, 이미지를 섞거나 조합하거나 일정 부분을 원본에 전혀 손상없이 잘 바꾼다는것이다. 

다음은 명령, "그림을 그리는 이가 작업하다 말고 이쪽을 황당한 표정으로 보는 형태로 바꿔줘.."

원래 이미지를 이렇게 바꿨다.

자 그런데 여기서, chatGPT보다 외려 더 큰 차이점을 보이며 어떤 경우엔 chatGPT보다 나은데. 다음은 chatGPT를 동일한 명령으로 변환해 봤을때다...

chatGPT로 동일한 명령을 내렸을때..

차이가 느껴지는가.. 가장 큰 차이가 두 개가 있다. 나노 바나나의 경우는 원본에 거의 변화가 없다. 

반면 chatGPT는 원본에 부분적 변화가 있다. 자세히 보면 몇개의 빠진 그림 도구들이 보이고 그림도 다소 소프트한 질감으로 바뀌었다.  그렇지만, "작업을 하다 말고.."라는 명령에 충실히 이행했다 오른팔이 내려간것이 꽤 자연스럽다.. 

자 이제 분명한 차이를 느끼면서 이 이름이 왜 나노 바나나 인지를 알게 된다. 

작으면서도 큰 효과를 발휘 한다는 느낌의 의미인건데, 원본 손상이 거의 없는 이유는 나노 바나나는 수정해야 할 부분만 딱 건드리고 원본 자체를 건드리지 않기때문이다. 반면 chatGPT는 원본 자체를 읽어 들이면서 아예 원본 전체를 다시 써서 그리기 때문이다. 이제 왜 chatGPT가 어떤 스타일 변환에 더 강한지를 느낄 수 있다. chatGPT는 하나만 수정하든 부분만 수정하든 전체를 다 읽고 일단 인코딩해서 다 읽었다가 각각을 다 구분해서 기억한 상태에서 작업을 하고 전체 다 다시 토해내는 반면, 구글의 나노 바나나는 제미나이를 통해 받은 명령을 통해 일단 모든 그림을 다 읽어 들이되, 다 읽은 것중에 해당되는 것 외에는 나머지는 그대로 받은 대로 그대로 다시 토해내는것이다 

그러니까, 아예 읽어들이는것과 읽어들여서 어느 정도를 파악해서 내가 건드려야 할 부분들 이외의 부분들은 아예 그냥 놔두고 다시 그대로 내보내는것이다. (따로 연산 처리를 하지 않는다는것.. 물을 빨아들여서 하나씩 읽어들였으되 이걸 묶어서 어떤 처리를 할 이유가 없다고 생각되면 그냥 그 읽어들인 물 입자를 그대로 도로 내놓는 형태랄까..)

반면 chatGPT는 능력자이이므로, 그 많은 요소를 다 읽어서 굳이 건드릴 이유가 없는데도 그것들을 일단 처리를 위한 형태로 한번씩은 준비를 해놓고 있기에, 건드릴 부분만 건드리고 도로 뱉어내도 이미 어느 정도는 추가적 수정이나 보완을 하면서 내려놓게 되는데 이 과정에서 불필요하게 원본을 조금 건드리게 되는것이다. 어떤 경우엔 굳이 그렇게 하지 않는게 나은데도 .. 그런데 능력이 되서 그럼에도 불구하고 원본대로 잘만 내려놓으면 실은 상관없기도 하다. 그런데, 그보다 원본이 유지 되길 바라는 입장에서는 어떤 경우 차라리 아예 건드리지 않고 그대로 내려놓는게 선호시 될때도 있다. 

반면에 또 어떤 경우에는 그게 도움이된다. 지브리 스타일 변환처럼 혹은 내가 가끔 하는 어떤 특정 화풍의 스타일로 변환 같은것들이 그런것일테다. 특정 화풍의 변환같은 것은 따지고 보면 어떤 필터링 효과를 일괄적으로 주는것과는 다르게 어떤 부분은 어떻게, 어떤 부분은 또 어떻게 등의 처리가 들어가야 하는데 화풍에 따라..  그럴때 원본을 다 읽은 상태에서 바로 그 어떤 부분, 어떤 부분, 모두를 다 기억하고 있어야 하는데 그럴려면 얘는 이것들을 결과를 내 놓기 전까지 끝까지 쥐고 기억하고 있어야만 한다. 그럴려면 많은 자원과 시간, 연산능력이 되어 있어야만한다..그러니까 이런것 할때는 얘가 유리한것이다. 그런데 반면에 원본에 뭔가를 추가하거나 할때에는 외려 이게 원본과 다른 느낌을 주기때문에 선호되지 않을때도 있다. 지금 내가 했던 피카소의 변화 모습같은 경우는 정지 상태에서 표정만 바꾸는거라, 이 경우 나노바나나의 스타일이 유리하다. 

딱 봐도 명령에 부합되는것은 작업을 하다가 말고 손을 내려놓은 chatGPT쪽의 결과물이  보다 더 명령에는 충실 했지만, 깜쪽같다는 측면에선 before after처럼 써 먹기에는 화면의 질감도 바뀌었고 전 그림에서의 도구나 물건들이 없어지거나 잘못 표현된것들이 있게 된다. 

그러나 전자의 나노 바나나의 경우는 영화에서의 화면 전환 기법을 붙여버리면 하나의 연속적 영상에서 움직이는것처럼 효과를 나타낼 수 있는것이다. 그러니까 바로 이런 차이점을 잘 살려서 생각해 본다면 어떨때 어떤거를 쓰고 어떨때 어떤거를 쓰는것이 나을지를 생각 해 볼 수 있을것이다. 

" 핵심은, 나노 바나나는 "원본 유지"가 핵심이고, chatGPT는 원본 유지가 덜되도 추가적으로 폭넓은 효과를 더 줄 수 있다는것이다. 나노 바나나는 그런식으로 작업하기에 보다 효율적으로 (마치 캐시 메모리를 가져다가 효율적으로 사용하듯이) 사용할 수 있고, chatGPT는 반면에 어떤 스타일로 그림 전체를 바꿀때 완벽하게 모두를 스타일에 맞게 바꿀 수 있는것이다. 

이 스타일 변환과 관련하여 단적으로 보여주는 나노 바나나와 chatGPT의 차이는 아래 그림을 통해 확인 해 볼수있을것같다. 

같은 그림을 "고흐 스타일로 변경해줘" 라고 요청했다. 

내가 이 요청을 하면서 원했던건, 고흐가 실제 어떤 UFO가 등장하는 것을 보고 그렸다면 어떤 그림이 나왔을까 였고 여기에 가장 잘 부합되는것이 어떤것인지 골라보자..

(* 오리지널 이미지로 사용된 연꽃 과 UFO 는 원본 손상없이 UFO만 집어넣은거라 당연히 앞서 봤던 "나노 바나나"의 작품이다. 연꽃 사진 원본은 내 사진 이미지 중 하나고. .)

나노 바나나를 통해 변환한 경우.. 

같은 고호 스타일인데. 여긴 원본이 많이 살아 있어서. 변환한 티가 나지 않는다.

chatGPT를 통해 변환한 경우.. 

고흐가 직접 저 상황을 보고 그린듯이 바뀌었다. 또한 독자적이기도 하다..

당연히 이 경우 내가 원한건 아랫쪽 chatGPT의 이미지이다..  chatGPT는 연산 처리 능력을 크게 크게 가져가니 이렇게 모든 데이터를 다 읽고 그 형태들을 다 파악한 상태에서 모두를 하나의 스타일로 변환을 할 수 있는것이다. 그런데 원본은 아무래도 많이 바뀐걸 알 수 있다. 이게 큰 상관이 없는경우는.. 이거를 사용하면 되고 원본을 살리면서 하고 싶은 경우는  위의 경우를 사용하면 된다. 이렇게 특징을 잘 생각하면서 사용하면 된다.. 내 경우, 이 스타일을 적용시킨건, 비현실적 이미지를 만들어 내고(나노 바나나를 이용해서) 이 것을 역사적인 화가들이 직접 목격하거나 보고 그린것으로 목적으로 생성시킨 것이니 원본의 손상이 있어도 상관이 없었다. 

이제 지금 얘기한것들을 토대로 재밌는 이미지들을 한번 구성해 보려고 한다.