Natural science를 하는 사람들이 한 때 자연의 본질은 단순할 것이라고 믿었던 때가 있었다. 그런데 사실 이런 믿음에는 근거가 없다. 인류가 지금까지 알아낸 자연이 동작하는 방식은 내 눈에는 그다지 직관적이지 않다. 리처드 파인만은 자연이 행동하는 방식이 마음에 들지 않는다면 당신의 직관대로 행동하는 다른 우주로 떠나라고 했다. 생각해보면 사람의 직관은 원시 인류의 생존에 최적화되어 진화해 온것이고, intuitive physics 정도만 이해하도록 진화했을 것이다. 예컨데 우주가 미시적인 레벨에서 행동하는 방식이 우리가 이해하기 쉬워야 할 이유가 없다. 그런 직관을 가진 개체는 오히려 뇌의 에너지를 불필요하게 낭비해서 생존에 더 불리했을 것 같다.
그런데, 자연 자체를 연구하는 자연 과학자들과는 달리 내가 하는 engineering science에서는 사람들이 만든 인공적인 artifact를 연구한다. 즉, 우리는 우리가 창조한 대상 자체를 연구하기 때문에 앞에서 파인만이 말한 "직관대로 행동하는 다른 우주로 떠나"는 것이 실제로 가능하다 (연구 대상을 직관적인 것으로 바꿈으로서). 다시 말해, 자연 과학과는 달리 engineering science에서는 연구 대상에게 "simplicity bias"가 걸리는데, 연구는 사람이 하는 것이기에, 사람이 보기에 이해하기 편한 대상을 연구하면 더 많은 성과를 낼 수 있기 때문이다.
이런 simplicity bias 때문에 engineering science에서는 내가 만든 artifact를 가능한 한 사람들이 이해하기 쉽게 노력을 기울일 incentive가 매우 크다. Ilya Sutskever도 그 유명한 NIPS 2014 talk에서 비슷한 말을 했다 ("minimal innovation for maximal improvement" 뭐 이런거였다). 특히 딥러닝에서는 large scale training/deployment 자체가 복잡하기 때문에 알고리즘이라도 단순해서 그 복잡도를 최대한 덜어주는게 더 유리한 것 같다. Large language model들이 그렇게 성공적일 수 있는 이유중 하나는 next token prediction이라는 매우 단순한 training objective 때문이다. 학습 알고리즘이 이렇게 놀랍도록 단순한데도 LLM을 학습시킬 수 있는 사람들이 많지 않다 (GPU 때문이기도 한데 GPU를 무한으로 줘도 대부분의 사람은 할 수 없다).
따라서 우리의 연구를 이 simplicity bias를 잘 따르도록 만들어야 그 연구가 생존할 가능성이 높아지는데, 이것은 듣기에 당연해 보이지만 유명한 연구자들도 자신의 연구 결과를 너무 복잡하게 만드는 실수를 종종 저지르곤 한다. 왜냐하면 당연히 같은 목적을 달성한다고 할 때 더 단순한 solution을 찾는 것이 더 어렵다 (constrained vs unconstrained). 예를 들어, 내가 꽤 괜찮은 결과를 내는 방법을 알아냈는데 이게 단순하지 않다고 하자. 이 아이디어를 쉽게 버릴 수 있을까?
일단, 자기가 현재 할 수 있는 선에서 자신의 연구를 가장 단순한 형태로 pruning하는 것에 많은 노력을 기울여야 한다. 두 번째 방법은 그렇게 해도 너무 복잡한 아이디어는 publish하지 않고 자체적으로 reject하는 것이다. 이건 언제나 가능하지는 않고 연구자 개인의 상황에 맞게 해야 한다 (인정하기 싫지만 실적을 영끌해야 할 시기가 있음). 마지막으로, 내 방법이 복잡함에도 불구하고 그걸 보상할 만큼 너무 좋은 잠재력을 가졌다면 괜찮다. 어떤 아이디어를 단순한 형태로 변화시키는 것은 때로는 한 연구만에 되지 않고 여러 사람들의 긴 노력 끝에 서서히 이루어진다. 예를 들면 diffusion model이 그랬다.
마지막으로, 지금까지 말한 것과 정확히 반대의 전략을 쓰는 사람들도 간혹 있다. 어떨 땐 오히려 상대방의 이해를 어렵게 하도록 논문을 더 복잡하게 꾸미는 게 더 좋은 리뷰 점수를 받는데에 도움이 되는 경우도 있을 것이다. 그런데 나의 경험으로는 똑똑한 사람들에게 이런 트릭은 통하지 않고, 오히려 그 사람의 reputation을 훼손시킨다. 이런 행동은 내 논문을 이해하려고 하는 연구자들의 시간을 고의로 낭비시키는 것이기 때문에 계속 반복해서 하면 사람들이 용서해 주지 않을 수도 있어서 최대한 지양해야 한다.
카테고리 없음