Zipf's Law [지프의 법칙] 그녀의 관심사

우습지만-
토플 리스닝을 하다가 알게 되었다. 지프의 법칙이라고 부르는구나 한국에서는!
신기해서 조금 찾아봤다^_^


 ----------------------------------------------------------------------------------------------------------

일상에서 무작위로 일어나는 것처럼 보이는 것들이 사실은 꽤 규칙적이라는 것을 알게 된다면?


지프의 법칙은 이러한 신기한 깨달음을 준다.!

지프의 법칙은 수학적 통계로 공식화된 실험적인 법칙이다. (이론적 법칙이 아니다.)



 이 법칙에 따르면 만약 순위가 매겨진 집합들의 모임이 있다면, 그 모임의 2위 집합은 1위 집합의 분량의 절반 정도가 된다. 즉 N번째 순위의 항목이 1위 집합의 1/n이 된다고 이야기 할 수 있는 것이다.!


바로 이런 식으로!!!!!


Zipf의 법칙은 미국의 고전학자이자 문헌학자인 George Kingsley가 발견했다.
Zipf는 언어에서 통계적으로 발생하는 것들에 대해 관심을 가지고 있었고,
1930년대에, 단어들의 집합 사이의 관계, 즉 책에서 특정 단어가 얼마나 자주 등장하는가를 결정하는 법칙을 발견하였다.
그리고 그는 그 법칙이 영어로 쓰여진 어떤 전형적인 책에도 적용될 수 있다는 것을 관찰하였다.

가장 흔한 단어는 'the'였고, 책에 7% 가 등장한다. 두번째로는 'of' 인데, 이것은 3.5% 등장한다. 그리고 'of'는 순위가 네 번째인 단어보다 두 배 자주 등장했다.! 신기하지 않은가*_*



이 법칙은 너무나 신기하게도
도시들의 인구 순위,
단어의 빈도 수,
소득 분포,
신문과 웹사이트의 독자,
상위 10등의 순위, - 상위 10개의 회사인지, 유명인인지에 관계없이-
지진

이 모든것을 포괄한다.

1999년 경제학 교수인 Xavier Gabaix는 실험적으로 Zipf의 법칙이 유효함을 증명했다.
그는 법칙을 미국의 가장 큰 대도시 지역들에 비교하여 시험했고, 도시들이 수학적인 규칙을 따른다는 것을 발견했다.



덧글

  • 2010/08/24 02:05 # 삭제 답글

    이건 그 규칙을 따르는 경우들만 모아놓은거죠.
    안 따르는 경우의 수가 더 많을 것으로 보입니다.
    간단히 예를 들죠. OS의 시장점유율이나 정당의 지지율. 기업 별 시가총액 순위. 음반 판매량 순위. 기타 등등.
    이런건 위 법칙을 따르지 않죠?

    순위를 메길 수 있는 모든 가능한 케이스 중에 위 법칙을 따르는 것의 개수를 측정해야 의미가 있는 규칙이 됩니다.
    그렇지 않으면 그냥 흔한 '성급한 일반화의 오류'에 지나지 않아요.
  • 그리고 2010/08/24 02:08 # 삭제

    한국어 단어 사용 빈도 역시 위 규칙을 따르지 않는군요.
    http://k.daum.net/qna/view.html?qid=3mYBD

    본인이 신기하게 느낀 것을 좀 과하게 까서 미안합니다만(....)
    냉정하게 분석하지 않고 이런 저런 법칙들을 설정 일이 매우 위험해서요..;;
  • gull 2010/08/24 02:16 #

    그래서 '실험적' 법칙이라고 하죠
    사실 저도 이런 부분에 대해 문외한이고...... '법칙'이라는 말이 맞는 것 같지는 않지만요.

    모든 예에 통용되는 법칙은 아니고
    실험해 봤을 때 결과가 나와서 들어맞으면 그것으로써 이 법칙에 맞아 떨어진다 라고 해석하면 될 것 같네요
    실험적으로 유효하다는 것이 증명되었고, 통계적으로 설명되었다고 하네요
    백과사전에도 나와있구요^:^..

    어쨌튼 지적하신 부분은 이해 되네요.
    확실히 이 법칙을 따르는 것보다 안 따르는 경우의 수가 더 많을 것으로 보여요.

    아무튼 댓글 주셔서 감사해요:)
  • highseek 2010/08/24 10:04 #

    지프의 법칙은..

    많이 쓰이는 단어, 큰 도시, 큰 건물, 큰 사건 등은 적게 나타나고

    자주 안 쓰이는 단어, 작은 도시, 그저그런 건물, 소소한 사건들은 많이 나타난다는 법칙이죠.

    언어학적으로 간단히 말하면, "자주 쓰이는 단어는 몇개 안된다" 정도일까요.

    물론 이 법칙이 상당히 잘 들어맞는 이유는 설명하지 못하고 있습니다 (...)
  • 으흠 2011/11/02 15:02 # 삭제

    OS의 시장점유율이나 정당의 지지율. 기업 별 시가총액 순위. 음반 판매량 순위. 기타 등등.
    에서는 별도의 변수들이 때문인 듯 합니다만
    예컨대 사회에서 받아들이는 가치관이나 선호도의 차이 정도??
    하여튼 지프의 법칙 자체가 1 + 1/2 + 1/3 + 1/4 + 1/5 + 1/6 ... = 무한대가 되어 버려서
    연구하는 학자들도 이 법칙에 명확한 조건과 원리를 달아야 한다고 목소리를 높인다 합니다..
    그래도 신기합니다.. 원인 자체를 아직도 완벽히 분석하지 못했기 때문이지요..
  • ㅇㅋ 2014/09/19 10:28 # 삭제

    뭐야 이 중2병들;; 말투 씹타쿠;; 개토나와
  • 조건이 2010/08/24 02:10 # 삭제 답글

    제시하신 성립 조건이 모호하군요. 아마 잘 정의된 뭔가가 있을 것 같은데..
    어쨌든 지프의 법칙은 이론 수리언어학에서는 꽤 중요한 법칙이고, 대강 맞는 법칙입니다. 변수를 좀 추가한 수정판도 많죠.

    참고로, 언어학에서 다룰 때 저 법칙이 성립하는 데 대한 조건은 '틀렸습니다.' 저게 아닙니다.
  • 조건이 2010/08/24 02:12 # 삭제

    아, 정확히 말하면 조건이 모호하다는 게 맞겠네요. 완전히 틀린 건 아닙니다;;
  • gull 2010/08/24 02:17 #

    그렇군요, 지적해주셔서 감사해요~
    그 조건이 뭔지 알려주실수 있을까요? 하하 제가 이해할 수 있는 범위 내에서라면요.
  • 조건이 2010/08/24 02:39 # 삭제

    Andras Kornai의 Mathematical Linguistics에 보면, 다음과 같이 지프의 법칙을 소개하고 있습니다.
    'log(F_r) = H_N - Blog(r)'

    여기서,
    F_r = 어떤 크기 N의 코퍼스에서 특정 순위의 단어가 나타나는 상대 빈도.
    H_N = N에 의존하는 상수.
    B = 법칙 상수. 일반적으로 지프의 법칙에서는 B = 1입니다.
    r = 단어의 순위수.
  • mybia 2010/08/24 04:28 # 답글

    소득분포가 여기에 따른다니.. 신기하네요.
  • YoUZen 2010/08/24 16:28 # 답글

    언어의 저런 특성을 노려서 암호를 해독하는 경우도 있다고 알고 있습니다.
    암호화된 문자열에서 많이 나오는 특정 패턴을 이용해서 해독한다던데, 자세한건 제가 암호학을 안배워서 모르겠네요.
  • gull 2010/08/25 21:55 #

    오 그럴수도 있겠네요!!!
    신기하네요~ 정보감사합니다.
  • 2011/11/05 00:26 # 삭제 답글 비공개

    비공개 덧글입니다.
  • Big Think 2012/03/11 14:27 # 삭제 답글

    지프는 그가 1949년 쓴 책 [인간 행동과 최소 노력의 법칙]에서
    ‘인간의 행동이 최소 노력으로 최대 효과를 얻으려는 특징이 있다’고 믿었습니다.
    1000개의 단어만 알아도 75%의 일상대화를 이해할 수 있도록
    인간 스스로 문법을 변화시키고 말의 패턴을 조절해왔을 것이라고 가정한 것입니다.
    그는 자신의 주장을 증명하기 위해 언어가 power law를 만족시킨다는 것을 보였던 것입니다.
    한나라의 도시의 인구도 지프의 법칙이 성립한다고 합니다. 즉,
    결국 도시 집중화 현상도
    ‘인간 행동과 최소 노력의 법칙’에 상응하는 의미네요...
    잘보고 갑니다.
    또 어디에 적용될 수 있을까요?
    궁금합니다.
  • ㅇㅋ 2014/09/19 10:30 # 삭제 답글

    여기 "중2병" 빙시들은 꼭 따옴표를 쓰는 것을 좋아하죠.
    "왜" 그런지는 아직 밝혀진 바가 없습니다만..
    예를 들어보죠.
    저 위의 "찌질이", 말마다 "과도한" 따옴표를 문장에 적용시켜, 독자로 하여금 많은, 상당한 "불편함"을 느끼도록 하고 있습니다. 도대체 왜 이러는 걸까요?(너도 그러잖아 퍽)
댓글 입력 영역