Энциклопедия:Частотный словник
Материал из Энциклопедии в свободной энциклопедии
| Данные в этой статье приведены по состоянию на 23 октября 2006 года.
Вы можете помочь, обновив информацию в статье.
|
Вторая редакция (включены предлоги, имена собственные, исправлены ошибки).
Содержание |
[править] Методика
- С сайта http://download.wikipedia.org был скачан образ русскоязычного раздела Энциклопедии в формате XML (ruwiki-20061023-pages-meta-current.xml), содержащий последние версии всех страниц.
- С помощью удобного Perl-модуля Parse::MediaWikiDump из массива всех страниц были выделены исходные тексты статей (страницы из основного пространства имён) и обсуждений (страницы из пространств имён «Обсуждение», «Обсуждение участника», «Обсуждение Энциклопедии», а также страницы, содержащие в названии «Энциклопедия:Форум», «Энциклопедия:К удалению», «Энциклопедия:Вниманию участников», «Энциклопедия:Опросы», «Энциклопедия:Обсуждения»). Эти тексты были сохранены в двух больших паллетных файлах, их размеры составили: 135 и 48 МБ (в кодировке UTF-8)
- Из текстов были удалены: изображения, перенаправления, категории, интерЭнцикло-ссылки, шаблоны, таблицы, комментарии, теги, многие небуквенные символы (кавычки, тире). Ссылки были заменены на свои заголовки ([[название страницы|заголовок ссылки]]).
- С сайта http://aot.ru был скачан и установлен морфологический анализатор и словари для него (LGPL версия под Linux).
- Из-за особенностей работы морфологического анализатора, тексты были дополнительно обработаны: символы подчёркивания были заменены на пробелы, убраны пустые строки; файлы были разбиты на множество маленьких, по 500 строк.
- Был произведён морфологический анализ текстов (то есть фраза «мама мыла раму» была преобразована в «мама мыть рама»), лексемы были записаны в файлы. Среди слов затесались также и отдельные буквы, например, «н» (вероятно, от «год до н. э.»), «т» (вероятно от «т. к.») и другие (например, инициалы).
- Анализатор допускает заметное число ошибок, например предлог «при» он посчитал за повелительное наклонение от глагола «переть», в итоге последннее оказалось аж на 26 месте. (я это исправил в списке на этой странице, но не в файлах с общим списком)
- Анализатор не справился с обсценной лексикой: таким образом, отметку в 100 словоупотреблений у нас преодолел глагол «ховать».
- Глокая куздра превратилась в «глокий куздр».
- Рассчитан частотный словник.
[править] Результаты
Было выявлено (вторая редакция):
- в статьях
- всего 22,5 млн слов
- 650 тыс. лексем
- 89 тыс. лексем встречаются 10 раз и более раз
- 17 тыс. лексем встречаются 100 раз и более раз.
- в обсуждениях
- всего 4 млн слов
- 135 тыс. лексем
- 18,5 тыс. лексем встречаются 10 раз и более раз
- 3,5 тыс. лексем встречаются 100 раз и более раз.
[править] Таблицы
- Полный частотный словник можно скачать здесь(ссылка не работает) (надо бы перенести куда-нибудь в более постоянное место).
250 наиболее популярных слов (вторая редакция)
| Ранг | Слово в статье | Частота | Ранг | Слово в обсужд. | Частота | |
|---|---|---|---|---|---|---|
| 1 | в | 907330 | 1 | в | 126580 | |
| 2 | и | 672533 | 2 | и | 117180 | |
| 3 | на | 281237 | 3 | не | 102234 | |
| 4 | с | 239353 | 4 | этот | 67911 | |
| 5 | быть | 139721 | 5 | что | 58993 | |
| 6 | по | 128939 | 6 | на | 55849 | |
| 7 | этот | 124553 | 7 | я | 45429 | |
| 8 | год | 124478 | 8 | а | 42498 | |
| 9 | не | 117176 | 9 | с | 36144 | |
| 10 | из | 105350 | 10 | быть | 33970 | |
| 11 | к | 101112 | 11 | статья | 33937 | |
| 12 | который | 92754 | 12 | как | 28624 | |
| 13 | для | 91126 | 13 | по | 27956 | |
| 14 | он | 88710 | 14 | но | 21871 | |
| 15 | а | 86882 | 15 | вы | 21801 | |
| 16 | что | 80812 | 16 | к | 20831 | |
| 17 | от | 80353 | 17 | если | 20599 | |
| 18 | как | 77090 | 18 | о | 20353 | |
| 19 | его | 74397 | 19 | весь | 19843 | |
| 20 | также | 73641 | 20 | то | 19792 | |
| 21 | они | 66690 | 21 | стать | 18613 | |
| 22 | до | 59253 | 22 | они | 18513 | |
| 23 | г | 58687 | 23 | так | 17900 | |
| 24 | или | 58012 | 24 | мочь | 17600 | |
| 25 | о | 56212 | 25 | для | 17020 | |
| 26 | при | 55060 | 26 | из | 16540 | |
| 27 | за | 50361 | 27 | или | 16289 | |
| 28 | один | 50218 | 28 | он | 15326 | |
| 29 | другой | 47641 | 29 | есть | 15007 | |
| 30 | город | 44643 | 30 | который | 14754 | |
| 31 | новый | 43794 | 31 | такой | 14302 | |
| 32 | первый | 43784 | 32 | же | 14123 | |
| 33 | но | 43170 | 33 | бы | 14096 | |
| 34 | свой | 42232 | 34 | у | 13702 | |
| 35 | время | 42047 | 35 | тот | 12862 | |
| 36 | см | 41945 | 36 | только | 11964 | |
| 37 | ссылка | 40959 | 37 | за | 11898 | |
| 38 | весь | 39855 | 38 | можно | 11747 | |
| 39 | человек | 37573 | 39 | Энциклопедия | 11741 | |
| 40 | после | 36085 | 40 | один | 10804 | |
| 41 | мочь | 34518 | 41 | его | 10495 | |
| 42 | у | 34167 | 42 | от | 10363 | |
| 43 | м | 33700 | 43 | еще | 10202 | |
| 44 | ngc | 33633 | 44 | нет | 10105 | |
| 45 | тот | 33422 | 45 | мы | 9927 | |
| 46 | являться | 32929 | 46 | ссылка | 9882 | |
| 47 | во | 32834 | 47 | другой | 9844 | |
| 48 | стать | 31763 | 48 | было | 8837 | |
| 49 | фильм | 30362 | 49 | слово | 8819 | |
| 50 | так | 30324 | 50 | участник | 8595 | |
| 51 | общий | 29695 | 51 | надо | 8537 | |
| 52 | россия | 29605 | 52 | уже | 8524 | |
| 53 | было | 29434 | 53 | человек | 8491 | |
| 54 | иметь | 29181 | 54 | сам | 8285 | |
| 55 | район | 29143 | 55 | простой | 7952 | |
| 56 | же | 29069 | 56 | написать | 7919 | |
| 57 | название | 28423 | 57 | до | 7713 | |
| 58 | область | 28315 | 58 | нужный | 7547 | |
| 59 | место | 28123 | 59 | удалить | 7519 | |
| 60 | число | 27824 | 60 | про | 7455 | |
| 61 | the | 27769 | 61 | т | 7432 | |
| 62 | то | 27714 | 62 | иметь | 7321 | |
| 63 | история | 27680 | 63 | вот | 7197 | |
| 64 | такой | 27081 | 64 | вопрос | 6915 | |
| 65 | of | 27025 | 65 | чем | 6897 | |
| 66 | система | 26934 | 66 | должен | 6787 | |
| 67 | язык | 26722 | 67 | свой | 6778 | |
| 68 | ее | 25956 | 68 | там | 6685 | |
| 69 | два | 25604 | 69 | хороший | 6607 | |
| 70 | более | 25320 | 70 | сделать | 6565 | |
| 71 | под | 25229 | 71 | страница | 6521 | |
| 72 | только | 24032 | 72 | более | 6520 | |
| 73 | группа | 23556 | 73 | ее | 6366 | |
| 74 | н | 23423 | 74 | ли | 6287 | |
| 75 | себя | 23401 | 75 | да | 6273 | |
| 76 | она | 23122 | 76 | чтобы | 6258 | |
| 77 | население | 22692 | 77 | при | 6222 | |
| 78 | война | 22411 | 78 | название | 6168 | |
| 79 | большой | 22041 | 79 | язык | 6081 | |
| 80 | вид | 21478 | 80 | писать | 6040 | |
| 81 | работа | 21108 | 81 | год | 6038 | |
| 82 | страна | 20419 | 82 | она | 5971 | |
| 83 | жизнь | 20095 | 83 | кто | 5944 | |
| 84 | известный | 19446 | 84 | текст | 5910 | |
| 85 | величина | 19443 | 85 | того | 5891 | |
| 86 | the | 19267 | 86 | оставить | 5888 | |
| 87 | тип | 19121 | 87 | очень | 5850 | |
| 88 | т | 19089 | 88 | являться | 5645 | |
| 89 | ошибка рег. выр. | 18981 | 89 | раз | 5638 | |
| 90 | некоторый | 18755 | 90 | например | 5505 | |
| 91 | получить | 18665 | 91 | мой | 5491 | |
| 92 | между | 18480 | 92 | даже | 5427 | |
| 93 | несколько | 18452 | 93 | the | 5422 | |
| 94 | александр | 18390 | 94 | вообще | 5421 | |
| 95 | свое | 18340 | 95 | обсуждение | 5398 | |
| 96 | со | 18264 | 96 | какой | 5381 | |
| 97 | однако | 18191 | 97 | случай | 5370 | |
| 98 | сам | 18152 | 98 | ваш | 5366 | |
| 99 | российский | 18094 | 99 | тоже | 5349 | |
| 100 | русский | 17999 | 100 | считать | 5349 | |
| 101 | список | 17990 | 101 | знать | 5330 | |
| 102 | день | 17904 | 102 | информация | 5271 | |
| 103 | обозначение | 17811 | 103 | мень | 5208 | |
| 104 | где | 17748 | 104 | данный | 5198 | |
| 105 | сайт | 17739 | 105 | себя | 5188 | |
| 106 | состав | 17628 | 106 | категория | 5185 | |
| 107 | мир | 17627 | 107 | правило | 5102 | |
| 108 | звездный | 17576 | 108 | большой | 5099 | |
| 109 | каталог | 17529 | 109 | ни | 5047 | |
| 110 | имя | 17302 | 110 | говорить | 5011 | |
| 111 | веко | 17237 | 111 | здесь | 4859 | |
| 112 | начало | 17130 | 112 | русский | 4801 | |
| 113 | того | 16612 | 113 | хотя | 4755 | |
| 114 | когда | 16391 | 114 | об | 4704 | |
| 115 | государственный | 16378 | 115 | думать | 4686 | |
| 116 | д | 16344 | 116 | источник | 4600 | |
| 117 | and | 16166 | 117 | именно | 4560 | |
| 118 | часть | 16059 | 118 | список | 4452 | |
| 119 | самый | 15944 | 119 | время | 4441 | |
| 120 | высокий | 15811 | 120 | шаблон | 4424 | |
| 121 | центр | 15810 | 121 | вид | 4400 | |
| 122 | основный | 15730 | 122 | ну | 4309 | |
| 123 | еще | 15426 | 123 | автор | 4262 | |
| 124 | находиться | 15415 | 124 | предлагать | 4227 | |
| 125 | конец | 15326 | 125 | все | 4223 | |
| 126 | ребенок | 15299 | 126 | где | 4191 | |
| 127 | последний | 15114 | 127 | новый | 4185 | |
| 128 | все | 15068 | 128 | английский | 4148 | |
| 129 | книга | 14995 | 129 | тем | 4142 | |
| 130 | если | 14991 | 130 | также | 4119 | |
| 131 | больший | 14833 | 131 | ты | 4094 | |
| 132 | советский | 14762 | 132 | когда | 4088 | |
| 133 | есть | 14721 | 133 | видеть | 4069 | |
| 134 | главный | 14720 | 134 | удаление | 4055 | |
| 135 | москва | 14687 | 135 | первый | 4054 | |
| 136 | ссср | 14474 | 136 | почему | 4031 | |
| 137 | входить | 14464 | 137 | сказать | 4030 | |
| 138 | река | 14440 | 138 | тут | 4016 | |
| 139 | игра | 14427 | 139 | пока | 3940 | |
| 140 | земля | 14394 | 140 | раздел | 3922 | |
| 141 | изображение | 14358 | 141 | со | 3918 | |
| 142 | i | 14268 | 142 | дело | 3902 | |
| 143 | слово | 14232 | 143 | сайт | 3891 | |
| 144 | образ | 14148 | 144 | без | 3883 | |
| 145 | км | 14068 | 145 | ничто | 3871 | |
| 146 | второй | 14004 | 146 | делать | 3811 | |
| 147 | через | 13938 | 147 | правка | 3768 | |
| 148 | можно | 13893 | 148 | термин | 3733 | |
| 149 | форма | 13802 | 149 | кстати | 3707 | |
| 150 | э | 13800 | 150 | казаться | 3689 | |
| 151 | университет | 13776 | 151 | хотеть | 3677 | |
| 152 | территория | 13701 | 152 | поэтому | 3630 | |
| 153 | около | 13661 | 153 | во | 3608 | |
| 154 | многие | 13371 | 154 | тогда | 3608 | |
| 155 | п | 13292 | 155 | тема | 3575 | |
| 156 | in | 13251 | 156 | мнение | 3574 | |
| 157 | сторона | 13238 | 157 | итог | 3573 | |
| 158 | размер | 13102 | 158 | под | 3571 | |
| 159 | чтобы | 13081 | 159 | против | 3571 | |
| 160 | родиться | 13059 | 160 | сейчас | 3566 | |
| 161 | уже | 12910 | 161 | существовать | 3544 | |
| 162 | pgc | 12895 | 162 | место | 3541 | |
| 163 | например | 12884 | 163 | любой | 3532 | |
| 164 | a | 12798 | 164 | история | 3523 | |
| 165 | существовать | 12692 | 165 | давать | 3471 | |
| 166 | каждый | 12687 | 166 | имя | 3431 | |
| 167 | использовать | 12687 | 167 | факт | 3404 | |
| 168 | всего | 12680 | 168 | два | 3402 | |
| 169 | сша | 12669 | 169 | of | 3390 | |
| 170 | данный | 12613 | 170 | после | 3378 | |
| 171 | сюжет | 12595 | 171 | право | 3325 | |
| 172 | школа | 12515 | 172 | смысл | 3320 | |
| 173 | видеть | 12506 | 173 | отдельный | 3286 | |
| 174 | использоваться | 12462 | 174 | некоторый | 3225 | |
| 175 | объект | 12450 | 175 | использовать | 3178 | |
| 176 | эпоха | 12404 | 176 | см | 3159 | |
| 177 | роль | 12391 | 177 | конечный | 3148 | |
| 178 | официальный | 12371 | 178 | голосование | 3123 | |
| 179 | развитие | 12340 | 179 | следовать | 3093 | |
| 180 | хороший | 12335 | 180 | добавить | 3077 | |
| 181 | ii | 12222 | 181 | россия | 3073 | |
| 182 | крупный | 12157 | 182 | сторона | 3071 | |
| 183 | род | 12126 | 183 | потому | 3068 | |
| 184 | литература | 12113 | 184 | никакой | 3050 | |
| 185 | результат | 12098 | 185 | несколько | 3031 | |
| 186 | положение | 11978 | 186 | согласный | 3030 | |
| 187 | р | 11968 | 187 | известный | 3016 | |
| 188 | наука | 11939 | 188 | никто | 3002 | |
| 189 | автор | 11915 | 189 | стоять | 2981 | |
| 190 | работать | 11895 | 190 | понимать | 2978 | |
| 191 | должен | 11882 | 191 | найти | 2966 | |
| 192 | церковь | 11796 | 192 | какой-то | 2954 | |
| 193 | остров | 11753 | 193 | наш | 2934 | |
| 194 | власть | 11751 | 194 | отношение | 2923 | |
| 195 | сын | 11711 | 195 | каждый | 2919 | |
| 196 | николай | 11662 | 196 | общий | 2912 | |
| 197 | действие | 11625 | 197 | привести | 2863 | |
| 198 | государство | 11586 | 198 | точка | 2840 | |
| 199 | иван | 11535 | 199 | энциклопедия | 2839 | |
| 200 | тем | 11520 | 200 | проект | 2824 | |
| 201 | временить | 11500 | 201 | проблема | 2821 | |
| 202 | расположить | 11466 | 202 | кроме | 2809 | |
| 203 | называть | 11455 | 203 | уж | 2808 | |
| 204 | современный | 11440 | 204 | что-то | 2797 | |
| 205 | различный | 11293 | 205 | много | 2776 | |
| 206 | чем | 11291 | 206 | всего | 2773 | |
| 207 | дата | 11285 | 207 | русская | 2763 | |
| 208 | я | 11282 | 208 | правильный | 2759 | |
| 209 | mcg | 11166 | 209 | мало | 2748 | |
| 210 | военный | 11157 | 210 | работа | 2719 | |
| 211 | период | 11146 | 211 | самый | 2717 | |
| 212 | король | 11109 | 212 | число | 2693 | |
| 213 | значение | 11103 | 213 | to | 2655 | |
| 214 | член | 11097 | 214 | идти | 2649 | |
| 215 | открытие | 11014 | 215 | версия | 2582 | |
| 216 | компания | 10897 | 216 | действительно | 2573 | |
| 217 | случай | 10832 | 217 | понять | 2570 | |
| 218 | очень | 10692 | 218 | свое | 2570 | |
| 219 | московский | 10678 | 219 | разный | 2570 | |
| 220 | партия | 10674 | 220 | понятие | 2564 | |
| 221 | русская | 10672 | 221 | вика | 2531 | |
| 222 | институт | 10616 | 222 | город | 2489 | |
| 223 | национальный | 10553 | 223 | вполне | 2480 | |
| 224 | созвездие | 10509 | 224 | администратор | 2474 | |
| 225 | создать | 10473 | 225 | материал | 2423 | |
| 226 | против | 10461 | 226 | е | 2416 | |
| 227 | владимир | 10451 | 227 | создать | 2390 | |
| 228 | без | 10415 | 228 | править | 2377 | |
| 229 | тыс | 10305 | 229 | and | 2362 | |
| 230 | путь | 10297 | 230 | определение | 2358 | |
| 231 | качество | 10255 | 231 | возможно | 2354 | |
| 232 | прямой | 10197 | 232 | повод | 2349 | |
| 233 | частить | 10187 | 233 | решение | 2338 | |
| 234 | отношение | 10180 | 234 | варианта | 2333 | |
| 235 | составлять | 10166 | 235 | д | 2317 | |
| 236 | связь | 10165 | 236 | зрение | 2315 | |
| 237 | армия | 10163 | 237 | ведь | 2311 | |
| 238 | затем | 10147 | 238 | a | 2308 | |
| 239 | факт | 10137 | 239 | убрать | 2278 | |
| 240 | поздний | 10108 | 240 | теперь | 2269 | |
| 241 | друг | 10014 | 241 | п | 2262 | |
| 242 | над | 9947 | 242 | лишь | 2243 | |
| 243 | станция | 9931 | 243 | значить | 2227 | |
| 244 | смерть | 9919 | 244 | дать | 2222 | |
| 245 | процесс | 9894 | 245 | называть | 2220 | |
| 246 | оригинальный | 9886 | 246 | достаточно | 2212 | |
| 247 | общество | 9860 | 247 | книга | 2189 | |
| 248 | наиболее | 9853 | 248 | г | 2182 | |
| 249 | ряд | 9848 | 249 | перевод | 2166 | |
| 250 | деятельность | 9828 | 250 | однако | 2165 |
[править] Закон Ципфа
Проверяем Закон Ципфа: «частота n-го слова в частотном словнике обратно пропорциональна его порядковому номеру».
График для частот слов из статей с рангами от 3 до 170.
[править] Интересные наблюдения
- Смело пополняйте список!
- «ВЫ» встречается в обсуждениях 21 801 раз, «ТЫ» в 4094 раз.
- Просматривая список с конца, можно искать среди редких слов слова с опечатками, затем находить их в статьях и исправлять.
- В статьях удивительно много «фильмов» (49 место). Ещё больше заготовок о космических объектах в «NGC», 44 место.
- Слово «Удалить» в обсуждениях (59-е место) встречается чаще, чем «Оставить» (86-е) (эти слова часто встречаются в обсуждениях на ВП:КУ).
- Чаще других в статьях встречается имя Александр (94 место), затем идут имена Николай (196 место), Иван (199 место) и Владимир (227 место).
- В статьях затесалось несколько английских слов - the, of, and, I, a и in. Видимо в непереводимых названиях...
- Слово "МЕНЬ" явно от "меня".
[править] См. также
- Энциклопедия:Анализ состояния Энциклопедии/Результаты
- Участник:Zserghei/Частотный словарь (без учёта словоформ)
- 1000 наиболее частотных слов в Русской Энциклопедии (на 20 февраля 2008) и 1000 слов Энциклопедии на английском упрощённом языке (на 14 февраля 2008)
