Ю.А. Шрейдер - Ранговые распределения как системное свойство

Ю.А. Шрейдер

РАНГОВЫЕ РАСПРЕДЕЛЕНИЯ КАК СИСТЕМНОЕ СВОЙСТВО

Уже к 50-м годам стало понятным, что многие статистические закономерности, наблюдавшиеся в различных социальных явлениях и получившие названия в честь их первооткрывателей (Ципфа, Эступа, Парето, Брэдфорда и др.), имеют общую математическую форму.

Эти закономерности удобно формулировать как некоторые свойства ранговых распределений. Именно с последнего понятия удобно начать дальнейший разговор, ибо само понятие рангового распределения допускает обобщенную формулировку, применимую при определенных ухищрениях ко всем случаям, где возникают те закономерности, которые сегодня чаще всего называют "законом Ципфа".

Основным объектом нашего рассмотрения является текст, понимаемый как список вхождений словоформ. Каждой словоформе соответствует некоторое слово. Совокупность (или список) всех слов, соответствующих словоформам, образующих текст Т, мы будем называть словарем V данного текста. Для каждого слова W из словаря V мы можем указать целое число n(W), равное количеству имеющихся в тексте Т словоформ, которым соответствует данное слово W. Величину n(W) уместно назвать встречаемостью слова W в тексте Т.

Ясно, что общая сумма встречаемости слов равна общему количеству словоформ N в тексте Т или объему этого текста:

где сумма берётся по всем словам, входящим в словарь V данного текста. Упорядочим теперь слова в словаре по убыванию величин n(W). Номер слова в таком списке назовём рангом К, а само слово ранга К мы будем обозначать W_k(порядок слов, имеющих одинаковую встречаемость, будем обозначать произвольно в пределах этого значения n(W) встречаемости. Важно лишь то, что разные слова получают разные ранги). Итак ранги, приписываемые словам в словаре, принимают значения от 1 до М, где М-объём словаря, т.е. общее количество слов в словаре.

Эта система понятий как общая схема описания ранговых распределений была введена нами в работе [1].

Пример I. Текст Т - это реальный письменный текст на русском, английском и т.д. языке. Словоформой называется последовательность букв между двумя пробелами, то есть вхождение формы слова в тексте, являющееся грамматической формой некоторой словарной единицы W соответствующего языка. Встречаемость W в тексте Т это общее количество соответствующих этой словарной единице словоформ в данном тексте.

Примечание. Можно по-разному определять, что является формой данного слова (словарной единицы). Например, является ли отглагольное существительное "ожидание" словоформой слова "ожидать" или самостоятельным словом? Ю.К.Орлов [2] при анализе былины вынужден был принять слово "ратай" (пахарь) формой слова "оратай".

Пример II. Текст Т состоит из списка видов некоторого семейства в биологической классификации. Словоформой является название вида из этого списка, а словом - название рода, к которому этот вид принадлежит.(Видовое латинское название состоит из имени рода и имени вида). Встречаемость слова - это количество видов в данном роде. Здесь каждая "словоформа" имеет одно вхождение.

Пример III. Текст Т состоит из списка предприятий [3,4] с указанием вида деятельности этого предприятия. Словом мы будем считать название вида деятельности, а его встречаемость равна количеству предприятий, выполняющих эту деятельность.

Введём теперь частоту слова W_к как частное

. (1)

Из равенства (1) следует, что

а это уже даёт недвусмысленный намёк, что величина Р_к - это частоты появления случайных событий, приближённо совпадающих с некоторыми вероятностями событий, возникающих в рамках какого-то стохастического механизма. Фактически открытие закона Ципфа состояло в том, что, грубо говоря, эти величины Р_к с возрастанием ранга убывают обратно пропорционально рангу:

. (2)

Это эмпирическое наблюдение, основанное как на материале текстов на естественном языке, так и на материале обобщённых текстов, дало толчок к поиску стохастических механизмов, обеспечивающих появление закономерностей типа (2). Так, широкое распространение нормального закона распределения объясняется тем, что он возникает при суммировании большого количества примерно равновеликих и слабо коррелированных случайных величин. Это уже даёт основание в ряде случаев ожидать появления нормальных распределений. Такая аналогия стимулирует поиск вероятностных механизмов, генерирующих тексты с частотами слов, распределёнными по закону Ципфа или близкими к нему. Такой объясняющий "ципфиаду" механизм был предложен Б.Мандельбротом [5]. В основе этого результата лежит предположение, что текст появляется как результат случайного выбора составляющих его слов с вероятностями, определяемыми количеством букв в данном слове. Мне удалось показать [1], что этот результат фактически основан на некоторых предположениях о "сложности" слова, определяющей его встречаемость в тексте. Тем самым можно было объяснить закономерность появления "ципфиады" более релевантными, чем число букв, характеристиками сложности слова (например, его семантическими свойствами) и перенести этот результат на тексты общей природы. Но сама вероятностная парадигма оказалась недостаточной, чтобы обосновать более тонкие закономерности ранговых распределений: наличие большого количества слов единичной встречаемости ("ноева каста" - по терминологии Б.И.Кудрина [6]), связь объёма текста N и объёма его словаря М и др.

Более того, Ю.К.Орлов [2], обративший впервые внимание на значимость этих моментов, указал и на то, что качество выполнения закона Ципфа для данного текста определяется не его объёмом, но свойством быть целостным текстом. Последнее уже явно не согласуется с вероятностной парадигмой, требующей, чтобы увеличение выборки влекло за собой улучшения соответствия между наблюдаемыми частотами и теоретически предсказанными вероятностями событий. Таким образом, если стохастические механизмы генерирования текста даже существуют в реальности, то они не являются общеязыковыми, но выбираются (кем? как?) каждый раз специально для порождения данного конкретного текста.

Изложенные соображения послужили основанием для того, чтобы искать природу появления ранговых распределений не в стохастических механизмах порождения текстов, но в системных свойствах целостных текстов. Изменение представления о самой природе явления привело к изменению используемых для его изучения методов. В этом проявился принцип методологического порочного круга [7, с.25]: "Методы научного познания характеризуются определёнными познавательными установками, опирающимися на онтологические представления о природе изучаемой действительности. В свою очередь использование этих методов позволяет познавать только те фрагменты действительности, которые удовлетворяют исходным онтологическим представлениям."

Нам пришлось сменить онтологические представления о текстах, как о результатах действия стохастических механизмов генерации, на представления об их системной природе, что привело к использованию совсем иного подхода в анализе "ципфиады". Более того, оказалось естественнее рассматривать текст как законченный целостный продукт, а не как неопределённо долгий процесс порождения. Впрочем, на конференции рассматривались ситуации с текстом, обладающим динамикой развития. Но характерно, что для этих ситуаций пришлось ввести дополнительный параметр. Вероятно, что попытка описать строение таких текстов с помощью каких-то принципов оптимума приведёт к рассмотрению чего-то вроде "градиента диссимметрии".

Соответствующие результаты для целостных (завершенных) текстов нами [8] были сформулированы в виде "принципа максимума диссимметрии" текста как системы, из которой были строго выведены не только "ципфовские", но и "орловские" закономерности возникающего рангового распределения, включая связь объёма текста с объёмом словаря, а также связь встречаемости первого слова с количеством слов единичной встречаемости. Этот вывод оказался достаточно изощрённым и потребовал серьёзных усилий и выдумки. Однако, использование данного принципа само по себе ставит новые вопросы.

Прежде всего сам текст - это не система, но продукт деятельности системы - человека или человеческого сообщества. В случае примера II текст оказывается продуктом деятельности биологической эволюции. Ясно, что человек, продуцируя свой текст, не заботится сознательно о соблюдении принципа максимума диссимметрии - этот принцип обнаруживает исследователь текста. Соблюдение этого принципа есть косвенный результат деятельности системы. Действия человека как системы вообще не определяются целями (такая "целеориентированность" есть скорее свойство "машинного интеллекта" - см. [9]), а человеку свойственно ориентироваться на ценности, выбирать между тем, что хорошо, и тем, что дурно.

Здесь появляется одно тонкое и весьма принципиальное обстоятельство. Реальный выбор между добром и злом возможен только в том случае, когда этот выбор не предопределяется ни действующими на субъект (систему) причинами, ни поставленной перед ним чётко определённой целью. Ориентация на ценности предполагает некое пространство свободы, в котором выбор не определяется полностью воздействующими естественными факторами, но в нём существенно задействована свободная воля субъекта - способность выбирать свои предпочтения "ни по чему", но по личному произволу. Этот произвол воли вступает в сложное взаимодействие с объективными обстоятельствами, поэтому фактически свободный выбор, совпадающий с намерением воли, осуществляется не всегда, но при определённых условиях, что продемонстрировано на модели, о которой пойдёт речь ниже.

Проблема, на мой взгляд, состоит в том, чтобы показать как действие системы, осуществляющей ценностный выбор на основе свободной воли, способно приводить к порождению текстов, удовлетворяющих максимуму диссимметрии. В этом случае мы отходим от представления о случайности, порождаемой свободным выбором во взаимодействии с другими факторами. Реалистичность решения поставленной проблемы подтверждается тем, что уже существует математическая модель ситуации ценностного выбора, в которой свободная воля субъекта играет существенную роль. Эта модель разработана В.А.Лефевром [10] и применена им к анализу большого количества ситуаций выбора. Ниже я излагаю модель Лефевра в несколько отличной от авторской интерпретации.

Сам Лефевр рассматривает ценности различной природы, но мне удобнее здесь рассуждать об этическом выборе. Именно в этом случае наличие свободной воли у человека играет принципиальную роль, так как только при этом предположении имеет смысл говорить об ответственности человека за свои поступки. Если же действия субъекта предопределены объективными (природными) причинами и неотменяемыми целями, то ни о какой ответственности речи быть не может. (Собственно, в этом случае бессмысленно говорить о поступках, ибо действия человека в этом случае полностью вынуждены чем-то, находящимся вне его личности).

Мы будем рассматривать акт выбора субъектом одного из двух полюсов: негативного и позитивного. Принцип "этической доброкачественности" субъекта состоит в том, что субъект выбирает негативный полюс только под влиянием соблазна, исходящего от внешней среды или из глубин подсознания. Обозначим через х₁вероятность отсутствия такого соблазна. Субъект может осознать наличие соблазна с вероятностью 1-х₂. В этом случае мы будем говорить, что совесть указывает на наличие соблазна. Далее вступает в действие свободная воля субъекта, который выбирает величину х₃-свой уровень готовности соглашаться с предупреждением совести. (Если такого предупреждения не поступает, то субъект никакого решения не принимает, но слепо следует соблазну, либо, в отсутствие такового, автоматически выбирает позитивный полюс).

Будем считать, что в распоряжении субъекта имеется генератор равномерно распределённых на отрезке (0,1) случайных чисел. Субъект получает от генератора число z и, если z<х₃, поступает так, как ему велит совесть. Вероятность этого равна х₃. Легко видеть, что вероятность выбора субъектом положительного полюса (реакция субъекта) по формуле полной вероятности равна

X ₁ = ( 1 - x₁) ( 1 - x₂ ) x₃ + x₁, (3)

что совпадает с "формулой человека" в цитированной работе Лефевра. Этот вывод отличается от вывода самого Лефевра, в частности, отсутствием одного из используемых им положений.

Свобода воли в этой модели реализуется в том, что субъект независимо от внешних воздействий и собственного состояния свободно назначает свою готовность повиноваться голосу совести. Но эта готовность, вообще говоря, не совпадает с вероятностью выбора позитивного полюса. Различие между реакцией субъекта х₁ и готовностью х₃связано с тем, что по свободной воле субъект реагирует на предупреждения голоса совести об имеющемся соблазне, а в ситуации, когда голос совести молчит или когда соблазн вообще отсутствует, тот фрагмент сознания, где действует свободная воля, вообще не включается.

Субъект, с которым соотнесена описываемая модель, имеет всегда возможность сделать "реалистический выбор", назначив вероятность х₃ так, чтобы она совпала с вероятностью Х₁ выбрать позитивный полюс ("добро"). Но свободный выбор он делает только, когда его реакция тождественно совпадает с его готовностью, т.е. когда Х₁=х₃. Вообще говоря, такое совпадение имеет место лишь при одном значении х₃, отвечающем "реалистическому выбору". Случай, когда уравнение Х₁=х₃ обращается в тождество - это свободный выбор. Он имеет место в случае х₁=х₂=0, т.е. когда соблазны с вероятностью 1 и с той же вероятностью замечаются совестью, в этом случае готовность повиноваться совести совпадает с вероятностью выбора позитивного полюса.

Естественно предложить в качестве "меры несвободы выбора" максимум по всем х₃ вероятностям отклонения готовности действовать по совести от вероятности позитивного выбора (качества реакции субъекта):

a=max ½X₁-x₃½=max(x₁,(1-x₁)x₂). (4)

x₃

Важно подчеркнуть, что модель Лефевра принципиально рефлективна. В ней есть параметр х₁, описывающий состояние окружения субъекта, включая его тело и низшие пласты сознания. Это и есть действительность, составляющая контекст поступков субъекта. Этот же параметр можно было бы считать ощущением субъекта. Следующий параметр х₂ является оценкой действительности - он характеризует реакцию "совести" на соблазны, возникающие в непосредственных ощущениях. А параметр х₃ выражает отношение субъекта к совести, то есть рефлексию следующего уровня.

Разумеется, чтобы получить модель достаточно сложного ценностно-ориентированного поведения, в результате которого могут получаться сложные тексты, вместо числовых параметров следует взять более сложные математические объекты. Некоторые гипотетические соображения об их алгебраической природе можно было бы высказать уже сейчас, но это потребовало бы гораздо больше места.

Как мы видим, модель Лефевра не исключает использования вероятностной случайности, но дополняет её свободным выбором вероятности действовать согласно совести. Иными словами остаётся возможность случайного генерирования реакции системы (в том числе, создаваемого ею текста), но выбор механизма генерации осуществляется уже не вероятностно, но по свободной воле. Я думаю, что путём развития этих идей сочетание вероятностных механизмов создаёт перспективу для продвижения в дальнейшем выяснении природы ранговых распределений, порождаемых системой по свободной воле.

Стоит здесь добавить такую наглядную иллюстрацию. Предположим, что человек объявил, что он принимает решение выбрать позитивный полюс, если он вынет из колоды карту красной масти. Это не будет его свободный выбор, но выбор, обусловленный стохастическим механизмом, не зависящим от воли данного субъекта. Представим себе, что человек взял не предложенную ему колоду с равным числом красных и чёрных карт, но заранее сам составил эту колоду. Этим способом он может добиться, что вероятность вынуть красную карту (и, тем самым, выбрать позитивный полюс) окажется равно такой, какой он хочет. То есть субъект следует диктату вероятностного механизма, но выбирает этот механизм по своей свободной воле. Свободная воля не исчезает, но лишь несколько размывается стохастикой. Иначе можно сказать, что воля определяет не сам выбор действия, а распределение вероятностей таких выборов.

Важно обратить внимание на то, что признание наличия у человека свободной воли ведёт к весьма существенным следствиям о природе самого мира, в котором мы живём. Дело в том, что попытки объяснить значения основных физических констант из существующих физических теорий оказались бесплодными. Зато выяснилось, что изменение фундаментальных констант на малую величину привело бы к невозможности существования в таком мире жизни и человека. Это привело к формулировке так называемого антропного принципа, который выводит значение физических постоянных в качестве следствия из самого существования в таком мире наблюдателя. Физические постоянные должны быть таковы, чтобы в мире было возможно необходимое для жизни многообразие молекул и биохимических процессов. Наличие свободной воли означает, что человек-наблюдатель творит новые состояния мира, не вытекающие из физических законов. В этом случае из существования наблюдателя вытекают необычные свойства Вселенной.

Формулировка антропного принципа, по Картеру [11], состоит в следующем: "То, что мы можем ожидать от наблюдения, должно быть ограничено условиями, необходимыми для нашего присутствия как наблюдателей".

Здесь ключевую роль играет слово "нашего", показывающее, что принцип требует соблюдения всех условий, необходимых для существования человека таким, каков он есть. До сих пор этот принцип применялся для того, чтобы определить допустимые пределы вариации физических констант, в которых возможно существование жизни в известном нам виде. Но сюда можно добавить ещё одно условие - необходимость существования человека, обладающего, по крайней мере иногда, возможностью свободного выбора. Такое дополнение недавно предложил В.А.Лефевр.

Формулировку Картера удобно переписывать более эксплицитно следующим образом: "Мир устроен так, что в нём возможно существование человека, способного по собственной воле наблюдать мир и этим на него воздействовать, избегая саморазрушения".

Возможна и более сильная формулировка (сильный антропный принцип): "Мир таков, каков он есть, в силу того, что в нём должен быть наблюдатель, способный по своей воле выбирать способ наблюдения, влияя этим на мир, но не разрушая себя и мир".

Первая формулировка вытекает из исходной формулировки Картера и предположения о том, что человек обладает свободной волей. Из этих двух формулировок вытекают не только ограничения на значения физических констант, но и более важное условие на природу мира. Наличие свободной воли означает, что некоторые действия человек совершает не в силу естественных причин, но без причин, и даже вопреки влиянию естественных факторов извне. Даже не потому, что ему так хочется или нравится (наши естественные предпочтения от воли не зависят), но потому, что он сознательно хочет поступить как надо.

С другой стороны, человек есть часть Вселенной. Тем самым из антропного принципа следует, что возможны явления, происходящие не по законам этого мира, но в силу актов свободной воли субъекта-наблюдателя, не разрушающих наблюдателя и мир. Итак, мир устроен так, что в нём возможно существование субъекта, не подчиняющегося целиком законам этого мира, но не разрушающего в то же время ни себя, ни эти законы. Отсюда уже следует, что мир не может полностью подчиняться ни скучному детерминизму классической механики, ни стохастическим принципам термодинамики, ведущим в болото энтропийного хаоса. Мир может быть квантово-механическим, ибо в этом случае наблюдение влечёт редукцию волнового пакета, изменяя мир. Тем самым мир творится из возможностей, отбираемых свободной волей.

Предлагаемая формулировка антропного принципа означает, что состояния нашей Вселенной определяются не только естественными законами, но и действующей беспричинно свободной волей субъекта. Однако свободный выбор возможен лишь при указанных выше условиях. Наблюдатель по своей воле производит редукцию волнового пакета и этим изменяет состояния мира. Если бы физические параметры наблюдателя были соизмеримы с масштабами микромира, то последний разрушался бы в акте наблюдения. Если бы наблюдатель был соизмерим со Вселенной, то его наблюдения разрушали бы Космос в целом. Из этих соображений можно было бы попытаться вывести допустимые характеристики наблюдателя и соотношения микро- и макромасштабов, более глубокие, чем полученные до сих пор из антропного принципа ограничения на физические константы.

Свободно возникающая мысль наблюдателя материализуется в его теле скорее всего как возбуждение каких-то ансамблей нейронов высших отделов головного мозга. (Влияние мысли на отдалённые объекты не очень достоверно. Конечно, можно нажатием кнопки воздействовать даже на объекты в космосе, но здесь свободная воля действует через усилительные устройства). Этим определяются энергетические и временные масштабы непосредственного воздействия свободной воли, при котором нарушается естественная причинность. В силу антропного принципа эти масштабы налагают ограничения на возможные физические свойства Вселенной.

Литература

1. Шрейдер Ю.А. О возможности теоретического вывода статистических закономерностей текста. (К обоснованию закона Ципфа.) Проблемы передачи информации, т. Ш, вып. I, 1967, с.58-63.

2. Орлов Ю.К. Частотные структуры конечных сообщений о некоторых естественных информационных системах. Дисс. на соиск. учёной степени канд. физ.-мат. наук. Тбилиси, 1975.

3. Ценологическое определение параметров электропотребления многономенклатурных производств.- Тула : Приокское кн. изд-во, 1994.

4. Фуфаев В.В., Кучинская О.А. Учет разнообразия электрических двигателей промышленных предприятий при организации электроремонта// Промышленная энергетика, 1995, N9, с. 42-48.

5. Мандельброт Б. О рекуррентном кодировании, ограничивающем влияние помех. В кн.: Теория передачи сообщений. М., 1957, с. 139-157.

6. Кудрин Б.И. Античность. Символизм. Технетика. - М.: Электрика, 1995.

7. Шрейдер Ю.А. Гносеологические особенности современной науки в свете системного подхода. Автореферат дисс. на соиск. учёной степени доктора философских наук. М., МГУ, 1980.

8. Арапов М.В., Шрейдер Ю.А. Закон Ципфа и принцип диссимметрии системы. Семиотика и информатика. Вып. 10. М., ВИНИТИ, 1978, с. 74-95.

9. Шрейдер Ю.А.Присущ ли машине разум? Вопросы философии, N 2, 1975, с.82-89.

10.Лефевр В.А. Формула человека. Контуры фундаментальной психологии. М., 1991. -107 с.

11.Carter B. Large number Coincedences and the Antropic prinсiple in cosmology. В кн. Zongair(ed), Confrontation of cosmologikal Theories with observational Data. Dordrecht, 1974.