М.В. Арапов, Е.Н. Ефимова,  Ю.А. Шрейдер

О СМЫСЛЕ РАНГОВЫХ РАСПРЕДЕЛЕНИЙ

 

§ 1. СОЦИАЛЬНЫЕ ОРГАНИЗМЫ И РАНГОВЫЕ РАСПРЕДЕЛЕНИЯ

 

Сегодня понятие рангового распределения в информатике стало вполне привычным. Идея «распределения» информационных потоков по закону Ципфа – Мандельброта (иначе Брэдфорда, Лотка и т.д.) принята общественным мнением « является теоретической основой изучения этих потоков. Формы соответствующих распределений несколько варьируются, но понятно, что речь идет о некоем едином типе ранговых распределений. Тот же самый тип распределений известен в лингвистике, в биологии, в экономике и в социологии. Отсюда возникает желание понять механизм, вызывающий появление подобных распределений. Но есть и одно сильно мешающее такому пониманию обстоятельство – стремление обязательно использовать аналогию с известными из физики и техники задачами, в которых некий общий механизм – случайный, или стохастический, процесс – приводит к нормальному или пуассоновскому распределению.

Впрочем, и сама идея возникает из физико-кибернетических аналогий. Чтобы понять смысл явления, не обязательно отыскивать такой процесс или механизм. Нужно другое – установить его связь с более глубинными явлениями и, через это, – место в ряду других явлений.

Мы считаем, что ранговые распределения можно рассматривать не только как распределения случайных величин, привычные для классической статистики, но и в совершенно иной понятийной «парадигме». Выполнение на данном объекте (тексте) рангового распределения типа закона Ципфа – это, с нашей точки зрения, признак «правильности» (хорошей организации) данного текста, взятого как единое целое. При таком подходе, например, свойство законченного языкового текста быть «ципфовским» рассматривается в том же ряду («парадигме»), что и его свойство быть представимым в виде совокупности проективных фраз, или члениться на непосредственные составляющие, или, шире, вообще быть построенным по законам грамматики данного языка. Реальные тексты, конечно, несколько уклоняются от идеальных образцов, – например, не являются вполне «ципфовскими».

В данной работе мы сначала попытаемся сформулировать «классическую» вероятностную точку зрения на ранговые распределения. (Приводимые в связи с ней соображения не столько отвергают эту концепцию, сколько показывают ее недостаточность и, главное, – ее необязательность). Затем мы дадим более адекватную (с нашей точки зрения) постановку задачи. Различие между двумя подходами, коротко говоря, состоит в следующем: «классическая» точка зрения исходит из существования инвариантных статистических свойств неких элементов (слов данного языка, документов по данной тематике, имен авторов и т.д.) в некоторой не очень четко определяемой совокупности, в которую входят и в которой употребляются эти элементы.

Предлагаемая нами точка зрения состоит в том, что надо изучать форму целостных совокупностей (организмов) как составленных из не очень четко определенных элементов, а свойства последних не столько определяют эту форму, сколько определяются ею. С этой точки зрения законы типа Ципфа – это инвариантные свойства формы целого. (Далее в первой части работы мы постараемся дать более точную формулировку этой идеи). Во второй части мы попробуем выяснить смысл другой, тесно связанной с предыдущей, идеи, а именно: что в действительности означает «родство организмов» – принадлежность текстов одному языку.

 

 

§ 2. НЕСКОЛЬКО ПРИМЕРОВ РАНГОВОГО РАСПРЕДЕЛЕНИЯ

 

Начнем с рассмотрения примеров нескольких ситуа­ций, в которых возникает ранговое распределение тина закона Ципфа.

Пример I. Пусть Т – множество всех слов некоторого связного законченного текста, a V={x} – множест­во различных слов в этом тексте (словарь данного тек­ста). Под F(x) (понимается число вхождений слова x в текст Т (или, иначе – частота слова x).

Словарь V задает разбиение текста Т на надмноже­ства в каком-то смысле одинаковых слов. Каждому сло­ву xЄV соответствует подмножество Т(x) всех вхож­дений этого слова в текст Т. Очевидно, что F(x) =|Т(x)|.

Через L=|T| мы обозначим длину (объем) текста, а через N=|V| – объем его словаря.

Перенумеруем элементы словаря V={x1, x2, ...,xN} так, чтобы частота слова была невозрастающей функ­цией его номера:

                                F(x1)>F(x2)>...>F(xN).                                                        (1)

Ранговым распределением называется функция Ф(п)= F(xN), которая ставит в соответствие номеру или рангу п(х) слова xЄV частоту F(x) этого сло­ва. Итак,

Ф:ŊR,

где Ŋ – отрезок натурального ряда, a R – множество положительных вещественных чисел.

Пример II. Пусть Т – множество всех статей по определенной тематике, опубликованных за данный период в некотором множестве журналов V. Тогда для каждого журнала xЄV F(x) – это количество статей, опубликованных в данном журнале по данной тематике. Ранговое распределение характеризует здесь степень близости того или иного журнала данной тематике. Или, в соответствии с другой точкой зрения, – насколько публикации в данной области рассеяны по журналам**. И здесь V задает разбиение множества статей на подмножества опубликованных в одном журнале.

Пример III. Пусть V – коллектив ученых, а Т – множество выполненных в этом коллективе работ. Тогда F(x) – это число работ ученого x, и ранговое распре­деление характеризует распределение ученых по про­дуктивности или по престижу.

Множество статей Т здесь разбивается по авторам, хотя поскольку имеются общие статьи, эти классы пересекаются. Если существенно выполнение условия T=∑F(x), то «автором» можно считать любую группу соавторов.

Пример IV. Пусть V – множество журналов, Т множество имеющихся в некотором массиве докумен­тов по определенной тематике библиографических ссы­лок на статьи в этих журналах. Тогда F(x) – это чи­сло ссылок на работы, помещенные в журнале x, которое характеризует «авторитетность» этого журнала в данной тематической области (пример взят из рабо­ты [2]). Множество V задает разбиение множества всех ссылок Т.

Наряду с этим, можно рассматривать ранговые рас­пределения биологических родов определенного семей­ства по числу видов, принадлежащих данному роду; или людей по доходам; или морозных узоров различ­ных типов по их встречаемости на окнах (пример А. А. Любищева); или красок по площади, занимае­мой данной краской на картине; или городов по чис­ленности населения и т. д. Ряд других примеров ран­говых распределений можно найти, в частности, в ра­ботах [3] и [4].

Сравнение этих и им подобных примеров показывает, что во всех этих примерах функции Φ(n) имеют меж­ду собой настолько много общего, что часто считают возможным говорить о едином законе рангового рас­пределения, присваивая этому закону в разных его ва­риациях имена Ципфа, Брэдфорда, Лотки, Эсту, Вил­лиса, Мандельброта и т. д. (Иногда различие присваи­ваемых фамилий отражает некоторые отличия в фор­мулировке закона, а иногда – отличия в области его применения). Этот факт заставляет задуматься о том, что содержательно связывает примеры подобного ти­па.

Приведенные примеры имеют уже то общее, что в них выступает некоторая, хотя бы относительно замк­нутая, система объектов Т и множество V, с помощью которого эти объекты разбиваются на классы. О систе­ме Т мы будем говорить как о коллективе или, используя терминологию примера I, который в некото­ром смысле является универсальным, как о тексте; элементы множества V будет называть членами коллектива, а само множество V – словарем. Подмножество Т(х), сопоставлено элементу словаря х, назовем территорией, занимаемой этим членом коллектива, а объем этой территории F(x) =|Т(x)| частотой. Функция рангового распределения F при таком подходе несет определенную информацию о внут­ренней структуре коллектива, а именно: о распределе­нии территории между членами коллектива, о своего рода «статусе» его членов.

В некоторых случаях границы коллектива оказы­ваются достаточно размытыми. В примере II мы мо­жем различным образом определить временные грани­цы, в пределах которых анализируются периодические издания; в примере III – колебаться в том, следует ли относить работы данного ученого к рассматриваемой области или к смежной. Но у нас нет сомнений, что в примерах II и III мы хотели бы в идеале изучать два аспекта – «персональный» и «журнальный» – системы публикаций, сложившейся к определенному моменту в данной отрасли науки. Эта система может исторически смениться другой, с иным ранжированием журналов и авторов, но в каждый момент – это некоторый конеч­ный объект. Даже в примере I у нас могут возникнуть трудности, когда мы попытаемся решить, следует ли данное конкретное речевое произведение считать су­веренным целым или только частью более обширного текста, или, наоборот, конгломератом нескольких самостоятельных текстов.

Следует также заметить, что самый список членов коллектива зачастую формируется именно в процессе исследования этого коллектива (текста). Сначала име­ется территория Т, в которой выделяются места, а за­тем уже выясняется, какие места следует считать за­крепленными за одним членом коллектива. Так, когда мы имеем текст Т книги (или вообще некоторого до­кумента), то, составляя ее словник V, одновременно принимаем соглашение об отождествлении разных форм слов, встречающихся в тексте: в одних случаях вклю­чаем в словник словоформы, в других – отождествляем словоизменительные формы одной лексемы, иногда раз­личаем омонимы, а иногда – нет. При анализе ранго­вых распределений в текстах русских былин Ю. К. Ор­лов был вынужден отождествить в словнике формы оратай и ратай. Таким образом, в одном и том же тексте могут возникать различные ранговые распреде­ления. Даже если принцип отождествления выбран за­ранее, тем не менее, при его осуществлении всегда про­водится некоторая корректировка с тем, чтобы ран­говое распределение получилось более "правильным" (более «красивым»). Если эта корректировка может быть естественно мотивирована (ср. пример Ю. К. Ор­лова), то исследователь готов считать полученное ран­говое распределение разумным. В примере II можно, например, отождествлять или не отождествлять различ­ные серии одного и того же журнала (например, две серии сборника «Научно-техническая информация»). Выбор того или иного решения здесь оправдывается результатом*.

Наконец, для ситуаций, упомянутых в примерах IIV, характерно, что F(x)–целое число, причем среди членов коллектива значительную часть состав­ляют такие, для которых F(x) = 1. Последнее обстоя­тельство является отдельным, важным свойством кол­лективов, которое никак не предсказывается формой закона распределения. И действительно, в некоторых названных выше случаях F(x) изменяется, как кажет­ся, непрерывно: площадь, занимаемая данной краской или типом морозного узора измеряется в физических единицах, доход – в денежных единицах. Однако эти решения не так очевидны, как кажется: быть может, естественной единицей измерения и здесь является не мм2 или рубль, а площадь, занимаемая самым «мало­мощным», самым «редким» членом коллектива, т. е. наименее распространенным узором, или краской; или уровень минимального дохода, и т. п.

 

 

§ 3. ЕЩЕ ПРИМЕРЫ

 

Однако, кроме примеров, приведенных в §2, есть еще ряд ситуаций совсем иного рода, где обычно так­же усматривают распределение Ципфа.

Пример V. В качестве Т выступает случайным образом сформированная совокупность текстов и отрывков из текстов на данном языке общей длиной в L слов, а в качестве V – список всех различных слов, обнару­женный в этой совокупности текстов. Величину f (х) = F(x)/L интерпретируют как относительную частоту употребления слова х в данной выборке Т, а под ге­неральной совокупностью понимают язык или опреде­ленный стиль данного языка.

Пример VI. В качестве Т выступает случайным об­разом сформированная совокупность документов (на­пример, рефератов) данной тематики, а в качестве Vсписок ключевых слов, извлеченных из этих докумен­тов. Величина F(x) интерпретируется как число рефе­ратов из Т, в которых встретилось данное ключевое слово (ср. с работой [6]).

Сходство терминологии и близость графиков получен­ных распределений часто заставляют забыть, что в при­мерах IV и в примерах VVI мы задавали природе совершенно различные вопросы. В первой серии приме­ров нас интересовало "целое" – текст; инвариантом при переходе от одного текста к другому, от одного приме­ра к следующему являлась форма рангового распре­деления. Во второй серии примеров на первом плане – отдельный элемент словаря. Составление частотных словарей для языка (как в примере V) имеет смысл, ес­ли относительная частота отдельного слова не зависит от того, как скомпонована выборка Т, лишь бы ее мож­но было считать случайной и она имела бы достаточ­ный объем. В примерах IIV полной индивидуаль­ностью обладало только "целое" – текст, а членение его на части в какой-то мере (в меньшей для примера I и в большей для примеров IIIV) определялось этим "целым", тогда как в примерах VVI – индивидуаль­ность приписывается именно элементам словаря. В пер­вой серии примеров не только не предполагается, что при переходе от одного текста к другому сохраняется "статус" элемента словаря, но и не ясно, всегда ли можно отождествить членов различных коллективов; во второй серии примеров не представляет специальной ценности само понятие отдельного коллектива.

При отождествлении мы не всегда можем ориентиро­ваться на "имя". Действительно, ранжируя авторов (пример III), пишущих на данную тему, мы можем считать, "автором" некоторую устойчивую группу лиц, но в смежной области каждый из соавторов может вы­ступать по отдельности иметь собственные, а не коллек­тивное имя. Спрашивается, какова же связь между статусом "коллективного автора" и отдельных соавто­ров?

Вообще, пример с естественным языком является уни­версальным до тех пор, пока мы не выходим за грани­цы проблемы отдельного текста. Но то, что от примера I можно, не совершая насилия над своей интуицией, пе­рейти к примеру V, является, вероятно, некоторой спе­цифической особенностью естественного языка. То, что мы интуитивно ощущаем разницу между частыми и редкими словами, причем слово, которое оказывается частым в одном тексте, почти всегда оказывается ча­стым и в другом тексте, не представляется типичной си­туацией, если рассмотреть весь набор случаев, когда возникает ранговое распределение. Автор, который счи­тается ведущим в своей области, крайне редко сохраня­ет такой высокий статус в другой области. Журнал, профильный по данной тематике, очевидно, не является профильным по другой, он может перестать быть про­фильным по данной тематике с течением времени и т. п. Одним словом, устойчивость статуса сама есть вещь скорее нуждающаяся в объяснении, чем такая, которая может что-либо объяснить.

Однако  стохастическая  концепция   ранговых   распределений исходит именно из устойчивости статуса отдельного элемента, давая этой устойчивости теоретико-вероятностную интерпретацию. Ранговое распределение в отдельном тексте в рамках этой концепции вторично, распределение в выборке просто "повторяет" распределение в генеральной совокупности. Таким образом, для всей широкой области, где наблюдаются ранговые распределения, гипостазируется ситуация, якобы имеющая место в естественном языке. Поэтому важно разобраться, какая именно модель предлагается для естественного языка и насколько хорошо эта модель, согласуется с известными фактами.

 

§ 4. ОПЫТ ВЕРОЯТНОСТНОЙ ФОРМАЛИЗАЦИИ

 

Перейдем к рассмотрению некоторой устоявшейся точки зрения на ранговые распределения в языке, кото­рую сегодня уже можно назвать ортодоксальной. Для этой точки зрения существенно то, что ранг ("статус") члена коллектива рассматривается как его объективная характеристика. Это равносильно предположению о том, что каждое слово xЄV имеет в языке (или в одном из его диалектов или функциональных стилей) объектив­ную вероятность появления f(x). Тогда, если сами слова упорядочить по убыванию вероятностей, то можно го­ворить о вероятности fn=f(xn) появления слова ран­га п. Для этих вероятностей постулируется существо­вание теоретического закона распределения, форма ко­торого (на основе эмпирических соображений) прини­мается либо в виде классического закона Ципфа

                                                                                                    (2)

либо в виде закона Ципфа – Мандельброта

                                                                                                                      (2')

где п – ранг слова  х; а, γ, с – константы,  удовлетво­ряющие условию нормировки:

                                                                                                                     (3)

fn в данном случае является теоретической оценкой значения наблюдаемой частоты n-oгo по рангу слова в выборке Т длиной в L слов. То есть мы надеемся, что закон больших чисел гарантирует нам высокую вероят­ность выполнения серии неравенств:

|fnL-Fn|<ε,

при удовлетворяющих исследователя значениях ε.

Такой подход удобен уже тем, что нам не нужно обеспечивать целочисленности  fnL (напомним, что ве­личины F(x) во всех примерах IVI – целые числа). В то же время в экспериментах с совокупностями ре­альных текстов обнаружилось, что закон Ципфа плохо выполняется в области малых частот: число слов с малыми частотами оказывается регулярно меньше, чем он предсказывает. Поэтому в ряде работ либо в выражение (2) вводятся некоторые поправки, которые, в общем, не нужны для отдельных текстов, либо причина таких отклонений объясняется различны­ми вероятностными соображениями.

Кроме того, из условия нормировки (3) следует, что язык может иметь бесконечный словарь только при; условии γ>1 так как только тогда ряд (3) сходится; Если на отдельных текстах и представительных совокупностях текстов мы экспериментально обнаруживаем, что γ≤1, то это значит, что соответствующая генеральная совокупность (в рамках ортодоксальной теории!) должна иметь конечный словарь.

Но эти трудности не самые серьезные из них, которые стоят перед изложенной вероятностной концепцией; гораздо серьезнее то обстоятельство, что, принимая подобный подход, мы обязаны придать соответствующим вероятностям fn некоторую разумную содержательную интерпретацию. Чтобы имело смысл говорить о fn как о вероятности вхождения слова ранга n в текст T, необходимо,    чтобы    выполнялись    следующие предполо­жения:

1)      имеет смысл    говорить о статистическом ансамбле "однородных" текстов с общим словарем V;

2)      в этом   словаре каждому слову можно приписать ранг,  однозначно определяющий  вероятность  появления данного слова в любом тексте ансамбля.

Хотя уже в монографии Хердана [7] показано, что в различных текстах одни и те же слова имеют сущест­венно различные ранги, а общим является только вид закономерности (2), исследователи все же часто пред­полагают, что однородные статистические ансамбли тек­стов, в которых ранги слов согласованы, можно получить, подбирая тексты, скажем относящиеся к одному стилю, или жанру, или имеющие общую тематику, и т. п., т. е. выделяя в данном языке некоторые подъязыки. Между тем, те, что в языке можно найти такие подъязыки, та­кие потенциально бесконечные совокупности текстов с общим частотным словарем,– это лишь нетривиальная гипотеза. При этом основная причина, по которой эта гипотеза принимается большинством исследователей, состоит, по-видимому, в том, что она хорошо отвечает традиционным вероятностным представлениям о физи­ческих процессах.

В работе [8] была высказана гипотеза, что каждому элементу х словаря V имеет смысл сопоставить некото­рую характеристику сложности Е(х) – аналог энергии в термодинамике. Тогда можно искать наиболее вероятное состояние ансамбля при фиксированном среднем уровне сложности текста. Результат, как и следовало ожидать, совпадает с распределением Гиббса в статистической термодинамике:

                                                                                                                     (4)

где p(xi) – вероятность появления в данном тексте ансамбля слова xi, E(xi) –энергетическая характеристика этого слова, k и α – постоянные, характеризующие данный ансамбль текстов. В работе [8] показано, что вполне естественные соображения позволяют перейти от распределения (4) к законам типа (2). Впрочем, проведенные там рассуждения являются, по сути дела более абстрактной формулировкой рассуждений Мандельброта [9], которые, в свою очередь, перенесены из термодинамики. Новым же в работе [8] является лишь введение в лингвистику аналога энергии – абстрактного понятия сложности. У Мандельброта под Е(х) понималось число букв в слове, а при такой интерпретации его рассуждение вряд ли отвечает лингвистической реальности. Дело не столько в том, что Мандельброт рассматривал частный случай равновероятных букв (в работе [10] он сам указал способ учесть различие в "весе" букв), сколько в том, что частоты букв и соответствующих им в "устном" языке фонем так же нестабильны, как и частоты слов (см. [11]).

Интуитивно более убедительно было бы связать ве­личину энергии не с буквенной структурой слова, а с его семантикой: слова с большой частотой имеют широ­кий спектр значений, а слова редкие – в подавляющем большинстве – терминологичны. При этом рассматри­ваются скорее "словарные" значения, т. е. такой под­ход не учитывает изменчивости значения слова и того "вклада", который вносит контекст в значение данного слова.

Но при всех критических замечаниях, которые можно сделать по его поводу, "энергетический" подход не бессмыслен. Бессмысленным он становится лишь тогда, когда его пытаются "обогатить" некоторыми идеями, которые с ним просто не совместимы. Так, Л.С. Козачков в своей монографии [1] вводит понятие "древесной" структуры коллектива, которую делает ответственной за  возникновение ранговых распределений в информационных потоках. Но с другой стороны, эту древесную структуру он пытается описать в терминах, которые приобретают смысл только в предположении о сущест­вовании однородного статистического ансамбля таких коллективов.

 

 

§ 5. ЕЩЕ ОДНА ПОПЫТКА ВЕРОЯТНОСТЕЙ ФОРМАЛИЗАЦИИ

 

Кроме "энергетического", следует рассмотреть в об­щих чертах еще один вариант вероятностного подхода к ранговым распределениям – "процессуальный".

В книге [12] излагается следующая концепция текста. Предполагается, что существует вероятность появления определенного знака (буквы, слога, слова) после груп­пы из k знаков. Тогда можно говорить, что порождение данного текста "разыгрывается" в зависимости от нако­пившейся предыстории. Каждый текст приобретает при этом определенную вероятность, а совокупность реали­заций эргодического марковского процесса как раз и дает нам искомый однородный статистический ансамбль. Именно благодаря свойству эргодичности имеет смысл говорить и о вероятности того, что данный знак (эле­мент словаря V) появляется в данном месте текста.

В действительности и в этом подходе существенна только идея стохастического порождения текста, идея поиска механизма, гарантирующего статистическую однородность ансамбля текстов. В частности, следует обратить внимание на интересные попытки смоделиро­вать статистическую структуру текстов с помощью по­рождающих исчислений, где применение определенной подстановки рассматривается как случайный акт с вероятностью, зависящей от предыстории порожде­ния [13].

Нужно отметить, что убедительность конкретных вы­кладок, приводящих к обратно пропорциональной зави­симости между частотой и рангом на основе различ­ных допущений о структуре механизма порождения текста, – относительна. Дело а том, что благодаря своей исключительной простоте зависимость (2) содержит очень мало информации о своем "происхождении". Ее, как и массу сходных зависимостей, можно получить очень многими путями, допуская появление более или менее сложных промежуточных выражений. Остроумие чисто математических рассуждений оказывает иногда гипнотическое воздействие, тогда как настоящим крите­рием может быть лишь интерпретируемость выкладок в каждой из возможных ситуаций, в которых имеет место ранговое распределение типа (2).

Подводя итоги, перечислим те моменты, которые, с нашей точки зрения, не учитываются или не объяс­няются в рамках "ортодоксального" подхода.

1. Для объяснения существований ранговых распре­делений вероятностная теория предполагает сущест­вование гипотетического объекта – "ансамбля статис­тически однородных текстов".

Если даже согласиться с тем, что все тексты естест­венного языка или его "подъязыка" образуют такой ансамбль, то экстраполяция этой ситуации на дру­гие области, где наблюдается ранговое распределение, в том числе на информатику, не представляется до­статочно обоснованной.

2. В самом естественном языке устойчивость частот слов (=существование ансамбля статистически однородных текстов) вызывает сомнение.

Прежде всего, каждый целостный текст обладает индивидуальностью. Попытка найти реальные статистически однородные ансамбли текстов никому еще не удавалось. Точнее говоря, не удавалось наблюдать такой набор текстов, в которых слова встречались с одинаковым спектром частот. В то же время словник любого текста, который по разумным содержательным соображениям удается считать замкнутым, можно упоря­дочить, так, что для частот достаточно хорошо выпол­няется соотношение (2). Аналогично этому бессмыс­ленно говорить о вероятности того, что данный уче­ный напишет три научных статьи. Тем не менее, общая форма рангового распределения ученых по продуктив­ности вполне устойчива. Более того, в прикладных ис­следованиях, например, посвященных отбору слов для обучения иностранному языку, частота используется лишь как одни из критериев "важности" слова наряду, в частности, с его "рангом" – числом отдельных тек­стов в выборке, в которых было отмечено данное слово. Этот показатель в рамках концепции "ансамбля текстов" является, по меньшей мере, странным, но он становится вполне осмысленным, если признать за текстами определенную индивидуальность.

3. После работ Ю. К. Орлова [14], который прило­жил много усилий, чтобы показать, что в полных тек­стах высокохудожественных произведений закон ЦипфаМандельброта выполняется с большой точностью, возникает сомнение в том, что мы действительно на­блюдаем идентичные формы распределения слов по частоте в отдельном тексте и в совокупности текстов (в частотном словаре). Для описания распределения слов в частотном словаре приходится вводить допол­нительные поправки или, как это делает ряд иссле­дователей, – переходить к другим функциям, имеющим мало общего с законом обратной пропорциональности (ср. [15, 18]),

Если бы статистика распределения слов в тексте оп­ределялась случайным порождающим процессом мар­ковского типа, то норма состояла бы в том, что уве­личение объема текста (объема статистической выбор­ки) приводило бы к лучшим распределениям просто за счет закона больших чисел. Наоборот, для малых текстов мы никогда не наблюдали бы хороших эмпи­рических распределений. Но с текстами все происходит не так. На сравнительно небольших текстах наблюдает­ся хорошее согласие с законом Ципфа, в то время как на слишком длинных текстах, состоящих из большого числа относительно самостоятельных замкнутых частей, закон нарушается. Естественно предположить, что при порождении текста автор учитывает "текст в целом", а не только написанную часть. Возникает ситуация, когда процесс порождения зависит не только от прошлого, но и от будущего – от той части текста, которая еще не написана. Можно, конечно, от подобных фактов от­махнуться и стараться втискивать картину в привычные рамки марковских процессов. Но может быть разум­нее признать, что процессы, связанные с "живыми" системами, устроены по иным принципам. В частности, здесь вполне могут действовать целеполагающие фак­торы, и поэтому не нужно априори исключать возмож­ность учета будущего результата в процессе порождения.

В описании свойств рангового распределения авторы настоящей статьи не хотят связывать себя привычны­ми представлениями о статистических ансамблях, воз­никшими в рамках физики и стимулированных ею разделов математики.

 

§ 6. В ЧЕМ АЛЬТЕРНАТИВА "ОРТОДОКСАЛЬНОМУ"

 

Чтобы стать серьезной альтернативой описанному подходу, предлагаемая теория должна, как минимум, описывать как ситуации IIV и VVI, так и давать какое-то вразумительное объяснение связи между этими классами ситуаций. Первое соображение, уже неод­нократно высказывавшееся выше, состоит в том, что сходство ситуаций IIV, с одной стороны, и ситуаций VVI, с другой стороны, – чисто кажущееся, и проблему следует разделить на две части. В соответ­ствии с этим соображением, мы сначала рассмотрим ранговые распределения в замкнутых текстах. Здесь, как можно судить на основании примеров IIV, мы имеем ряд сходных ситуаций, возникающих в весьма различных и мало связанных друг с другом областях. Основная трудность заключается в том, чтобы по­нять, что именно нужно объяснять по отношению к ранговым распределениям и как должно выглядеть принципиально "не вероятностное" объяснение.

После этого мы обратимся (в части II настоящей статьи) к специфическому случаю естественного язы­ка с тем, чтобы на его примере отдельно обсудить си­туацию, когда статистические структуры отдельных тек­стов оказываются согласованными друг с другом, а именно: слово, имеющее "высокий статус" в одном тексте, с большой вероятностью сохраняет этот "ста­тус" и в другом тексте. При этом мы постараемся най­ти такой механизм согласования текстов, который не опирался бы на предположение о существовании "ста­тистически однородного ансамбля текстов".

Мы полагаем, что решение первой части проблемы будет достигнуто, если нам удастся:

1)       найти   подходящий   язык для  описания  совокуп­ности   ситуаций,   где   наблюдается   феномен   рангового,
распределения;

2)       найти подходящий язык для описания самого фе­номена  рангового  распределения, т.  к.  известный спо­соб  аналитического задания зависимости типа   (2)  хотя и удобен для некоторых целей, в то же   время   ока­зывается и слишком "жестким";

3)       найти другие сходные с ципфовским  распределе­нием  феномены   в  той  же  области  "живых"  организмов.

 

§ 7. НЕСКОЛЬКО СЛОВ О СОВОКУПНОСТИ СИТУАЦИИ С РАНГОВЫМ РАСПРЕДЕЛЕНИЕМ

 

Введя для описания примеров IIV термины "кол­лектива", "статуса" и т. д. мы фактически уже нача­ли решать первую из только что сформулированных трех вопросов. Теперь мы попытаемся оправдать эту терминологию, а затем в ходе решения второй задачи – развить и уточнить ее.

Традиция требует объяснять свойства целого из свойств элементов. При традиционном подходе основ­ным понятием является вероятность fn появления в тексте слова с рангом п, а задача состоит в том, чтобы найти механизм, объясняющий появление этих веро­ятностей. Понятие же текста вводится как вторичное, как нечто, случайным образом порождаемое из элементов, имеющих данные вероятности. При таком подходе одинаково имеют право называться текстом и весь роман "Евгений Онегин", и его первая глава, и даже совокупность всех строчек романа, имеющих женские рифмы.

И отличие от этого традиционного подхода предлагаем при изучении ранговых распределений взять в качестве первичного, не определяемого понятия – целостный текст. Тогда если в качестве целостного текста взят весь "Евгений Онегин", то любые его части, будь то отдельные главы или группы строчек, уже не образуют текста.

Наоборот, понятие "элемент текста" вводится как вторичное, производное и может оказаться более расплывчатым или существенно зависящим от задач и способа исследования. Это и есть цена, которую приходится платить за отказ от классических представ­лений. В биологии это соответствует морфологическо­му подходу, когда исходным считается понятие фор­мы целого, а элементы возникают в процессе чле­нения формы.

Практически, при изучении ранговых распределений устойчивыми являются лишь общие свойства формы распределения в целом; место же в этом распределе­нии отдельных элементов текста окказионально и не может быть объектом прогноза. Можно предсказывать форму рангового распределения в будущем тексте, не­которые свойства гармонических отношений между его лексическими, морфологическими, семантическими и синтаксическими элементами, но невозможно сколько-нибудь достаточно предсказать частоту появления в будущем тексте каких-либо определенных слов или кон­струкций.

 

§ 8. ВНОВЬ О КОЛЛЕКТИВЕ ИЗ N УЧАСТНИКОВ

 

В значительной части терминология и обозначения, которые будут нужны нам для описания рангового рас­пределения внутри конечного замкнутого текста, уже введены при обсуждении примеров IIV. В данном параграфе мы, во-первых, систематизируем некоторые простые результаты, относящиеся к текстам, в которых выполняется распределение Ципфа в его простейшей форме (2), и во вторых, постараемся выработать такой язык для описания ранговых распределений, который будет существенно использовать конечность текста Т.

Итак, пусть мы имеем текст (коллектив) Т длиной L = | Т |, словарь V = {х} объемом в N = | V | слов (участников), упорядоченный по убыванию частоты F(x). Отношения между текстом Т и словарем V можно описать несколькими эквивалентными способами. Словарь V можно интерпретировать как конечное разбиение X множества Т, содержащее N классов эквивалентности x1, x2, xn,  (При   этом   F(х)=| x |Иной способ описаний   заключается в том, что  задается ото­бражение φ множества  Т на множество V:

φ:TV

тогда F(х) = |φ-1 (x)| (под φ(х) имеется в виду, конеч­но, множество  всех таких у, что  φ (у) = x). Очевидно, что

Обратимся теперь к понятию ранга. Располагая эле­менты словаря, хЄV, по убыванию величины F(х), мы, вообще говоря, не определяем на V единственной нуме­рации слов, а именно: элементы словаря, имеющие оди­наковую частоту ("статус"), могут произвольно меняться местами. Обозначим через М(F) множество элементов словаря, имеющих в слове V одну и ту же частоту, а через μ(F) = | M (F) | – число таких элементов. Далее, пусть  – количество элементов словаря V, имеющих частоту, меньшую  F, a – количество элементов словаря, имеющих частоту, большую или равную F.

Очевидно, что

Тогда  есть по определению ранговый интервал, соответствующий  множеству M(F) элементов словаря с частотой F. Если μ(F) = 1, т. е. равно один участник имеет такую долю, то ранго­вый интервал состоит из одного числа μ1(F). В этом и только в этом случае вполне корректна простейшая фор­ма задания закона Ципфа (2). В более общей и реаль­ной ситуации, когда значительная часть интервалов содержит более одного числа, выражение (2) становится не более, чем "метафорой", поэтому, прежде чем зани­маться его обоснованием еще нужно придать точ­ный смысл.

На самом деле, ранговое распределение состоит не в выполнении формулы (2) или какой-либо другой аналогичной ей, а в том, чтобы каждому элементу хЄV сопоставлялся ранговый определенный интервал m(х, F).

Одним из способов придания смысла рангового рас­пределения выражению (2) была бы замена заданной этим выражением гиперболы на приближенную ее сту­пенчатую функцию  (рис. 1), у которой точки разрыва лежали бы в целых точках, а "скачки" и были бы также целыми числами. Начиная с некоторой абсциссы, скачки оказались бы равными единице:

где  Fk – ордината k-й ступеньки. Основание k-й сту­пеньки совпадает с k-м ранговым интервалом Соответственно размер основания этой ступень­ки равен  В начале оси абсцисс основания сту­пенек равны единице, а скачки – больше единицы. С некоторого момента, который соответствует частоте  скачки становятся равными единице, а осно­вания (ранговые интервалы) оказываются по длине боль­ше единицы.

 

Рис. 1. Гипербола и приближающая ее сту­пенчатая функция

 

Длина таких  интервалов  изменяется с F следующим образом;

где Fmax = c согласно закону (2).   

Итак, для частот меньших, чем  (соответствен­но, для рангов больших, чем ), вместо зависи­мости (2) надо брать ассоциированную с гиперболой ступенчатую функцию (по терминологии Л. С. Козачкова – гиперболическую лестницу). Для малых рангов ступеньки имеют основания, равные единице, хотя отсюда не следует, что известная формула (2) хорошо описывает ситуацию для начала словаря V. Если для района малых частот существенна целочисленность частот, то для района больших частот известные "отклонения" от непрерывного закона (2) вызываются целочисленностью рангов. Но, конечно, уточнить закон Ципфа важнее всего для малых частот. Такие уточнения предлагали − в различных редакциях − Ципф [16], Хайг [4], А. Бут [17] и др., эти уточнения вошли в литературу под названием "теоретического закона распределения для малых частот". Все эти модификации исходят из предпосылки, что "отклонения" от закона Ципфа, т.е. случаи, когда nFn не равно с, а больше или меньше этой величины, полностью объясняются целочисленностью F.

Такое уточнение наталкивается, в сущности, на един­ственную трудность, состоящую в том, как соотно­сится последняя ступенька F и последний отрезок ги­перболы (2). Если каким-то образом фиксировать вза­имное положение гиперболы и последней ступеньки F, то соотношение всех остальных ступенек с гиперболой почти что само собой определяется.

Поскольку все согласны, что минимальное значение функции, т. е. "высота" последней ступеньки, равна 1, то вопрос сводится к тому, какое значение прини­мает на правом конце интервала т(1) гипербола, т. е. каково значение FN = Fmin = β.

Допустим, что нам удается каким-либо образом найти значение β. Тогда, во-первых, можно будет найти связь между длиной текста L и объемом словаря N, как она предсказывается законом Ципфа в его непрерывной форме (однако это не та связь, которую задает ступен­чатая функция F). Действительно:

                                                                                              (5)

но

отсюда

                                                                                                                            (6)

Во-вторых, мы   сможем вычислить размеры интервалов:

                                                                                                     (7)

Из самых общих соображений   видно, что причем крайние значения  β соответствуют   показанным на рис. 2 положениям   "а" и "б" гиперболы относительно последней ступеньки функции F.

Отсюда, скажем, для длины интервала т (1) при заданной длине словаря N имеем неравенство

 

Аналогичные неравенства можно выписать для длины любого интервала m(F).

 

Рис. 2. Два крайних положения гиперболы относительно последней ступени: а)β=1, в) β=1/2

 

Однако, если мы выберем какое-либо конкретное зна­чение β и, вычислив длины интервалов m(F), построим функцию  площадь под этой функцией, как мож­но доказать, не будет совпадать со значением L, вы­численным по формуле (6) при том же β.

Естественно стремиться сохранить красивое соотноше­ние (6) между длиной текста и объемом словаря. Ока­зывается, это требование можно учесть при построении ступенчатой функции F, причем оно приводит к выбору единственного β, которое не зависит от N. "Ценой", которую нужно заплатить за сохранение формы зави­симости (6), является более сложное соотношение меж­ду фрагментами гиперболы и ступеньками F. Только одну ступеньку можно разместить так, чтобы границы интервала т(k) (k – целое число) совпадали с точками, где функция (2) принимает значения k+β–1 и k+β, и при этом соответствующий прямоугольник был бы равновелик по площади криволинейной фигуре, ограни­ченной участком гиперболы и опирающейся на данный интервал. Остальные ступеньки функции оказываются "сдвинутыми" на δk относительно соответствующих участков гиперболы (рис. 3), а в формулу (7) приходит­ся ввести дополнительный член δk который, правда, стремится к нулю при k →∞.

Рис.3.  Сдвиг δk ступенек   при   наложении   ступенчатой функции на гиперболу;   последняя ступенька не сдвинута и равна по площади криволинейной фигуре, опирающейся на интервал m(1)

 

Если   "несмещенной"   является   последняя   ступенька функции   , то β=0,651…. Выбирая в   качестве "несмещенной"   другую   ступеньку,  мы изменим   значе­ние β, правда незначительно. Если, например, выбрать в качестве "неподвижного" не последний, а предпоследний интервал, m(2), где принимает значение 2, то соответствующее значение β=0,649….

Важно отметить, что, требуя равновеликости m(1) и площади под последним фрагментом гиперболы, мы, в сущности, формулируем некоторое важное условие "правильности" текста: текст не только должен содержать слова с частотой 1, но доля таких слов в объеме всего словаря V строго определена:

Все рассуждения, относящиеся к замене закона Цип­фа в его простейшей форме (2) ступенчатой функцией, могут быть аналогично проведены и в случае, когда , причем оказывается, что β является функцией γ [5].

Параметр β (при фиксированном β) определяет в коллективе долю таких участников, которые в точности удовлетворяют минимальному "цензу", позволяющему им стать участниками коллектива, т.е. набрали частоту 1 (пример I), содержат по одной статье на данную тему (пример II) или написали по одной научной работе (пример III). Роль же параметра γ по-видимому, состо­ит в том, что он определяет "крупность" разбиения V, при котором данный текст становится "правильным", ципфовским, т. е. этот параметр имеет отношение к самому способу выделения участников коллектива.

Выше мы "модифицировали" закон Ципфа в его наи­более простой форме, не учитывая поправку Мандельброта. Мы имели на это некоторые основания. Если построить ступенчатую функцию F, равновеликую ги­перболе (2), а затем сравнить значения функции F в точках n =1,2.3... со значением непрерывной функции Fп, вычисленной по формуле (2), в тех же точках, то окажется:

Так, (при γ =1)  и т. д. В общем случае можно показать, что

Поскольку при n→∞ разность  логарифмов стремится к 1/n, то . Например, при п = 20, .

Уменьшить  по сравнению с F необходимо именно для того, чтобы сумма частот, накопленных на первых n ступеньках , совпала со значением интеграла (5). Это "отклонение" значений функции  очень сильно напоминает отклонение экспериментальных данных от теоретической ципфовской функции в области малых рангов (1÷20). Для их устранения Мандельброт и ввел свою поправку в формулу (2') (см. рис. 3). Но конечно, вопрос, насколько предлагаемая форма описания ранго­вого распределения соответствует разнообразным экспе­риментальным данным, остается открытым.

 

§ 9. ПРИБЛИЖЕННОЕ ОПИСАНИЕ РАНГОВОГО РАСПРЕДЕЛЕНИЯ В ЗАМКНУТОМ ТЕКСТЕ

 

В § 8 мы искали принципы перехода от непрерывной (или "точечной") формулировки закона Ципфа (2) к более корректной "интервальной" формулировке этого закона. Но даже если следовать тем принципам, которые были предложены, видно, что способов перехода много, а возможны и такие, когда соответствующая ступенчатая функция сохраняет не площадь, а какие-либо другие свойства гиперболы (подробнее см. об этом в работе [5]). Возможно, что некоторые из этих способов "продолжить" распределение Ципфа забракованы экспериментом, но очень трудно предпо­лагать, что эксперимент может дать здесь окончатель­ный ответ. Дело в том, что при сравнительной рас­плывчатости понятия замкнутого текста (коллектива) и неопределенности, возникающей в связи с членением его на элементы ("реализацией" разбиения V), весьма маловероятно, чтобы какое-либо, даже простое анали­тическое соотношение могло выполняться точно (в частности поэтому представляются такими непрактич­ными теории, приводящие к очень сложным соотноше­ниям между словарем и текстом). Даже в лингвостатистике, имеющей непрерывную традицию, восходящую к средневековым библеистам (если не к масоре), из­вестны курьезные расхождения в определении длины одного и того же текста и его словаря разными ис­следователями (см. таблицу), в которой использованы данные Ш. Мюллера. Что говорить об информатике, где аналогичные исследования, можно сказать, только качались, а сколько-нибудь четкая система понятий еще не выработана.

 

Текст

 

 

 

 

Исследователь текста

 

 

 

Длина текста

 

 

 

Объем словаря

 

П. Корнель, "Сид"

 

 

 

 

 

 

 

П.Корнель, "Полиэкт"

 

 

 

 

 

 

 

 

А.С. Пушкин "Капитанская дочка"

 

 

1)  П. Гиро

2)  Конкорданс, составленный а Безансоне

3)  Ш. Мюллер

 

 

15 300

16 424

16 690

 

 

1488

1536

1518

 

Вариация*, %

 

 

9

 

3

 

1)  П. Гиро

2)  Конкорданс, составленный а Безансоне

3)  Ш. Мюллер

 

 

14 176

16 227

16 511

 

 

1619

1614

1609

 

Вариация*, %

 

 

16,5

 

0,5

 

1)  Ю. К. Орлов

2)  Г. Йоссельсон

 

 

28  621

29  345

 

 

4783

4900

 

Вариация*, %

 

 

2,5

 

 

2,5

*Вариация определялась по формуле:

 

Эти расхождения не следует относить за счет арифметических ошибок в подсчетах. Все дело в том, что понятие слова как элемента текста достаточно рас­плывчато. Это еще раз подтверждает правильность выдвинутой выше идеи о том, что первичным поня­тием является целостный текст (коллектив ученых, тематическая область), а индивидуальные слова в этом тексте (авторы издания) не могут быть определены без известной доли произвола. Индивидуальностью обладает текст, а не слово − в противовес классической вероятностной концепции, считающей, что первоначальным понятием является как раз слово и можно говорить о "поведении" слова в разных текстах. При том подходе, который мы здесь предлагаем, индивидуальные характеристики слова (вообще, индивидуального элемента) принципиально имеют некоторую неопределенность.

В этих условиях методы, основанные на сравнении эмпирических распределений с теоретическими ступенчатыми функциями, которые строятся более или менее сложно, могут иногда оказаться "слишком точными". Наряду с ними нужны более грубые "робастные" способы описания ранговых распределений, где в центре внимания находятся некие интегральные свойства этих распределений.

Одним из таких способов остается известный метод построения графика распределения в билогарифмических координатах. Но он имеет существенный недостаток: отклонения от теоретического закона в области малых частот на таком графике из-за логарифмического масштаба видны плохо. Ниже мы сформулируем некоторый аналитический метод, который, как нам кажется, выдвигает на первый план выполнение наиболее существенных интегральных признаков распределения Ципфа.

Пусть n(x) – ранг слова х. Обозначим через λ(х)

сумму вида:    

                                                                                                                 (8)

т. е. объем текста, покрываемый первыми по рангу n словами. В случае γ= 1 имеем приближенное выражение для суммы (8):

 

Отсюда приходим к важной и легко проверяемой в экспериментах формулировке закона Ципфа:

                                                                                                                           (9)

Выражение (9) говорит нам, что объемы текста, покрываемые, соответственно, первыми лил, словами, относятся, как логарифмы lg n и lg n1, (выбор оснований логарифмов в этом случае безразличен).

Для экспериментальной проверки соотношения (9) естественно выбрать такие слова х и х1, для которых отношение порядка определено.

Если выбрать n1 = N, то отношение (9) можно интерпретировать как долю текста, покрываемую первыми по рангу словами:

 

                                                                                                                 (10)

Если, например, размеры словаря текста N=103, то для того, чтобы покрыть 2/3 этого текста, нужно выбрать n=102 для того, чтобы покрыть 3/4 текста, полный словарь которого содержит 104 слов, нужно 103 слов и т. д. Т. е. чем больше текст, тем большую роль в нем играют 10% самых частых слов – в сравнительно коротких текстах порядка N=103 (L=0,65  N lnN≈4500) они покрывают 2/3 текста, но если длина словаря возрастает на порядок, до N =104, то те же 10% слов покрывают уже 3/4 текста. Обратно: роль остальных 90% словаря соответственно уменьшается с увеличением длины текста.

Эта последняя особенность распределения Ципфа − свойство "падающей концентрации" − наглядно проявляется, если зафиксировать длину словаря в формуле (10) и, увеличивая Zn, следить за ростом n − числа слов, необходимых для того, чтобы покрыть Zn долю текста:

                                                                                                               (11)

Как видно из выражения (11), для того, чтобы увеличить Zn, нужно очень быстро наращивать n, приближая его к N, причем каждая следующая часть словаря, оказывается все более "бедной породой" (рис. 4).

 

Рис. 4. Число слов, необходимее для покрытия данной доли Zn текста с фиксированной общей длиной словаря N

 

Случаи, когда γ≠1, несложно преобразуется к виду (9). Интегрируя (2) в интервале [1, n] получаем

                                                                                                         (12)

Обозначим α=γ–1 и представим nα в виде еαlnn. Разложив последнее выражение в ряд Тейлора, после некоторых преобразований приходим к представлению (12) в виде ряда:

Следовательно, соотношение объемов текста λα(n) (я) и λα(n1),. покрываемых n и n1словами, можно представить в виде частного двух рядов:

                                                   (13)

При такой записи видно, что частное логарифмов (9) при любом играет роль "нулевого приближения", а α=γ–1–"малого параметра".

Специфика распределения Ципфа еще более четко прослеживается при сравнении его с экспоненциальным распределением. Рассмотрим экспоненциальное распределение, заданное соотношением:

                                                                                                                     (14)

Очевидно, что следующее соотношение будет для него аналогом соотношения (9):

Разлагая еα(n1) по степеням n–1 и сокращая, получаем:

                                   (15)

Выражение (15) совершенно аналогично выражению (13) при γ<1 с той разницей, что в (13) вместо самих рангов стоят их логарифмы. Любопытно, что роль "нулевого приближения" в (15) играет соотношение с помощью которого можно было бы охарактеризовать равномерное распределение, когда все элементы словаря имеют одинаковую частоту.

Таким образом, грубо можно противопоставлять два типа распределения: 1) распределения, где объемы текстов, покрываемые первыми по рангу п словами, пропорциональны логарифму п, и 2) такие, где объем текста, покрытый теми же п словами, пропорционален самому рангу п.

 

§ 10. ЗАКОН ЦИПФА И СЕМЕЙСТВО РАНГОВЫХ РАСПРЕДЕЛЕНИЙ

 

Обратим теперь внимание на другую особенность текстов с ципфовским распределением частот: вся информация о распределении, любые соотношения между его параметрами определяются всего двумя величинами – объемом словаря N и показателем γ. Выбрав значения для этих двух параметров, мы до самых мелких деталей определяем количественный лексический состав всего текста.

Далее мы считаем некоторый общий способ задания ранговых распределений и с его помощью постараемся "нащупать" и иные, хотя бы и виртуальные, но не ципфовские, распределения статуса в замкнутых текстах.

Рассмотрим каким-то образом упорядоченный словарь V={x} – происхождение этого порядка нас сейчас не интересует,– содержащий N слов. Функцию Е (п, N) назовем энергией п-го по порядку слова в словаре из N единиц (слова, между которыми отношение порядка не определено, имеют одинаковую энергию). Е (N, N) назовем полной энергией словаря, а разность:

Е1(n, N)=E(N, N)–E(n, N)

– дополнительной   энергией  п-го  слова.

Конечно, здесь понятие энергии используется в другом смысле, чем, например, в работе [8] (см. выше § 4). Для нас энергия – это не инвариантная характеристика данного слова, определяющая его частоту во всех текстах данного языка, а величина, сопоставленная рангу и предсказывающая только форму распределения частот в данном тексте. (Сохраняя термин "энергия", мы хотим подчеркнуть аналогии, возникающие с законом сохранения энергии в замкнутой системе).

Функции χ = еЕ(n, N) и χ1 = еЕ1(n, N) будем называть соответственно характеристикой и дополнительной характеристикой слова x ранга h.

Очевидно, что

χ· χ1= еЕ(n, N)· еЕ1(n, N)= еЕ(N, N)=const.

Это равенство не нарушится, если умножить обе части на константу и возвести в одинаковую степень γ:

                                                                                                     (16)

Выдвигаемая нами гипотеза ранговых распределений и предлагаемый способ описания заключается в том, что целый класс ранговых распределений можно представить в виде:

                                                                                                      (16)

если подходящим образом выбрать функцию Е (п, N). При этом χi интерпретируется как частота слова ранга п; N – длина словаря – определяет тип распределения, параметр β – имеет смысл минимальной частоты.

Когда мы переходим от непрерывного распределения к ступенчатой функции, появляются дополнительные условия, связывающие параметр β с остальными параметрами распределения и "затемняющие" его смысл (см. выше – переход от непрерывных гиперболического и экспоненциального распределений к соответствующим ступенчатым функциям).

Таким образом, частота п-го по рангу слова детерминирована его местом в словаре, но как именно – определяется размерами словаря. Можно предположить, что при маленьких размерах коллектива вступление нового члена сильно изменяет общую энергию коллектива, но для больших коллективов, включающих тысячи участников, прирост энергии должен быть уже очень слабым.

Пусть

                                               Е (п, N) = R(nR–l–1),                                                            (17)

где R ≥ 1 – монотонная функция от N; мы не будем рассматривать вопрос, какая конкретная функция наилучшим образом согласуется с опытными данными. Эту функцию разумно выбирать медленно растущей с ростом N, а соответствующие варианты распределений естественно классифицировать по значениям параметра R.

Рассмотрим частные случаи:

1) R=1, E(n)= γ(n–1).

Подставляя в (16) данное значение энергии, имеем

                                                                                                               (18)

Это уже известный нам из (14) случай экспоненциального распределения. При γ = 0 этот случай вырождается в равномерное распределение, где для всех xЄV, F(х) = β.

 

2) R→∞, E(n)=lim γR(n1/R-1)= γ lnn.

Подставляя в (16), имеем закон Ципфа:

3) Наконец, в общем случае, когда 1≤R<∞, имеем семейство распределений:

                                                                                                          (19)

Таким образом, мы нашли для описания закона Ципфа некоторый "контекст" виртуальных законов распределения. Постараемся показать, что, по крайней мере, некоторые из них имеют отношение к действительности.

 

§ 11. СЛУЧАЙ "MAЛЫХ ТЕКСТОВ"

 

Начнем с экспоненциального распределения (18). Более или менее установленным фактом можно считать, что по этому закону распределены частоты фонем и букв [14]. Размеры словаря здесь и впрямь ограничены несколькими десятками единиц (10<N<102), но сделать какие-то общие выводы все же трудно, так как традиция исследований в области фонологии не выдвинула никакого анализа, понятия замкнутого текста. Эксперименты здесь всегда проводились в предположении, что частота (ранг) являются объективной характеристикой, определяющей употребление фонемы в языке (ситуация примера V), хотя позднейшие исследования [11] ставят устойчивость частот в этой области под сомнение. Поэтому нам придется поискать примеры распределения (18) в другом месте.

"Подозрение" падает на тексты небольших, но легко обозримых художественных произведений: лирических стихотворений, коротких рассказов и выступлений. Эта гипотеза естественна в рамках предлагаемого подхода, так как именно в таких текстах завершенность, целостность, очевидна не только для теоретического сознания, но и для непосредственного чувственного восприятия читателем, и создание впечатления такой целостности часто является предметом специальных забот их авторов. С другой стороны, именно небольшие размеры этих текстов ставили их вне поля зрения традиционной лингвостатистики: статистический закон не может отчетливо проявиться в такой малой выборке.

Действительно, лексический состав кратких текстов резко отличается от состава ципфовских текстов, причем отклонения направлены всегда в одну сторон у,– в сторону гораздо большего разнообразия словаря, и соответственно, меньшей средней частоты слова в тексте. Если бы был справедлив стохастический подход, то наряду с текстами, имеющими богатый словарь, среди кратких текстов в таком же количестве примерно должны были бы встречаться и тексты с очень убогим словарем, являющиеся все же "не менее текстами", чем тексты с большим разнообразием словаря. Однако в действительности это не выполняется.

Средняя частота слова в ципфовском тексте (при γ=l) пропорциональна логарифму длины словаря этого текста:

В случае, когда γ≠l, эта величина может быть представлена в виде ряда:

При N=120 и параметре γ =0,95–1,05 величина  – для ципфовского текста заключена в пределах  (при γ =1, ). Но, например, для "малого" стихотворения "Анчар" А. С. Пушкина величина F составляет:

Еще более показательно сравнение объема словаря N и частоты самого частого слова. Теоретически она должна составлять 40–45% длины словаря N, но на самом деле частота самого частого слова в тексте "Анчара" – союза и – всего 15.

Однако прежде чем проверять гипотезу об экспоненциальном распределении для конкретных текстов, мы должны проделать с распределением (18) ту же работу по "проведению" его к дискретной интервальной форме, которую мы проделали выше с распределением Ципфа. Как и в том случае, мы заменим непрерывное распределение ступенчатой функцией, так чтобы площадь под ней была равна площади под экспонентой, и сохранялось отношение числа слов, имеющих частоту 1, к длине всего словаря N. Естественно, что и все изложенные соображения об известном произволе в выборе таких условий остаются в силе.

Для определения связи между параметрами распределения (18) имеем два уравнения:

                                                                                                                         (20)

                                                                                                                         (21)

где k–число слов с частотой 1–последняя  ступенька функции  (рис. 5).

Рис.5. Замена экспоненты ступенчатой функцией

 

Преобразуя (20), приходим к выражению

                                                                                                                          (22)

Далее, подставляя в (21) выражение для Fn: (18) и интегрируя, после образований имеем:

                                                                                                                           (23)

Сравнивая (22) и (23), приходим к следующим замечательным соотношениям:

                                                   γk=1;                                                                              (23а)

                                                                                                                 (236)

Т. е. в случае экспоненциального распределения β постоянно и не зависит от углового коэффициента γ. Параметр γ определяется только количеством слов с частотой 1, k = m(l). Распределение (18) можно переписать следующим образом:

Из последнего равенства сразу видно, что гипотеза об экспоненциальном распределении плохо согласуется с экспериментальными данными для "Анчара", но по совершенно противоположным причинам, нежели те, которые вытекают из гипотезы о ципфовском распределении. Соотношение между общей длиной словаря и числом слов с частотой 1 для "Анчара" составляет: , что приводит к значениям Fmax порядка 2, а средней частоты F лишь слегка большей 1. Таким образом, если распределение (2) для этого текста является слишком "крутым", то экспоненциальное распределение – слишком "пологим". Возможно, что мы взяли распределение для малых текстов в "вилку".

Посмотрим, не ближе ли к экспериментальным данным распределение класса (19). Мы ограничимся здесь расcсмотрением сравнительно простого случая такого распределения при R = 2. Обозначим произведение γR через h:

                                                                                   (24)

Так же, как и в случаях экспоненциального и ципфовского распределения, заменим (24) ступенчатой функцией . Для определения связи между параметрами воспользуемся уравнениями, аналогичными (20) и (21).

Преобразуя первое из них, получаем:

                                                                                                               (25)

Операции над вторым рассмотрим подробнее:

В подынтегральном   выражении в правой части   уравнения   произведем   замену   переменных:  n=t2; dn=2tdt;

                                                                                                  (26)

Возвращаясь к первоначальной  переменной h, подставляем пределы интегрирования:

Пользуясь равенством  получаем:

                                                                 (27)

Подставляя в (27)   результаты  преобразования   первого условия (25) окончательно имеем:

                                                                                               (28)

Можно доказать   (доказательство мы опускаем),   что обе части уравнения (28) порознь равны 0.   Отсюда:

и

где, как и выше,  Полагая  а =1,2   при µ(1)=100,   приходим к значениям   β≈0,65   и γ≈0,141 и несколько большим, по сравнению с распределением (18), значениям Fmax≈3. Приближается к экспериментальному значению и средняя частота, теперь она равна 1,2. Длина текста при этом вычисляется по формуле:

Возможно, что, выбирая несколько большие значения R=3, 4..., мы приблизились бы к наблюдаемому распределению еще ближе, но в этих случаях необходимы довольно громоздкие выкладки.

 

 ЛИТЕРАТУРА

1.         Козачков Л.С. Системы потоков научной информации. Киев, «Наукова Думка», 1973.

2.         Маркусова В.А. О формальном методе оценки информационной значимости научных журналов – «НТИ», сер. 1, 1973, № 10, с. 8–18

3.         Simоn Н.A. Some further notes on a class of skew distribution  functions.– «Information and control»,

1960, 3, p. 80–81.

4.         Haight T.A. Some statistical problems in connection with word association data.– «J. math, psychology», 1966, 3, p. 217–233.

5.         Арапов М.В., Ефимова Е. Н. Понятие лексической структуры текста. (В печати)

6.         Маршакова И.В. Классификация документов на основе лексики (по ключевым словам документов).– «НТИ», с. 3–10, сер. 2, 1974, № 5,

7.         Неrdаn G. The Advanced Theory of Language as Choice and Chance. BerlinHeidelbergNew York, 1966.

8.         Шpeидep Ю.А. О  возможности теоретического вывода статистических закономерностей текста.– В кн.: Проблемы передачи информации, М., 1967, вып. 1, 57–63.

9.         Мандельброт Б. О рекуррентном кодировании, ограничивающим влияние помех.– В кн.: Теория передачи сообщений. М.,  1957.

10.       Мандельброт Б. Теория информации и психолингвистическая теория частот слов.– В кн.: Математические методы в социальных науках. М., «Прогресс», 1973, с. 316–337.

11.       Сeгaл Д.М. Статистическая однородность текста на фонологическом уровне в польском языке. В кн.: Структурная типология языков. М., «Наука», с. 26–44.

12.       Яглом А.М., Яглом И.М. Вероятность и информация. Изд. 3-е, перераб. и дополн. М., «Наука», 1973.511с.

13.       Арсентьева Н.Г. О двух способах порождения предложений русского языка.– «Проблемы кибернетики», М„ 1965, № 14, с. 189–218.

14.       Орлов Ю.К. О статистической структуре сообщений, оптимальных для человеческого восприятия(к постановке вопроса) – «НТИ», № 8, 1970, сер. 2, с. 11–16.

15.       Саrrо11 I.В. A rationale for an asymptotic lognormal of word – frequency distribution. Princeton, 1969.

16.       Zipf G.K. Human Behaviour and the Principle of Least Effort. Cambridge, Mass., 1949.

17.      Booth A.D. A Law of Occurences for Words of Low Frequency.– In.: Introduction to Informational Science. New York–London, 1970, p. 219–222.