Взаимосвязь статистики и социологии

Взаимосвязь статистики и социологии.

Статьи по теме
Искать по теме

Интересно заметить, что первоначально сами социальные процессы сподвигали математиков на разработку специальных методов анализа социологических данных. Примером может служить Бернулли. Также верно и обратное – изучая общество, ученые 17 века приходили к значимым открытиям, полезным с точки зрения социологии, то есть выступали социологами. Такие исследования проводили, например, Галлей, Лаплас, Пуассон. Политическая арифметика имела благоприятное воздействие и на развитие теории вероятностей, из которой позже родится математическая статистика. В этом ключе стоит подметить и еще один интересный факт. Долгое время (на протяжении примерно 200 лет) начиная с тех событий, которые мы описали выше, социология развивалась в тесном сотрудничестве с теорией вероятностей. Кроме того, как отмечает русский статистик-социолог Чупров, в этот период статистический подход был свойственен только социологии и социологическим исследованиям. Но, по его мнению, в середине 19 в. между социологией и математико-статистической теорией произошел некий раскол. Дело в том, что к середине 19 в. достижениями в области теории вероятностей заинтересовались физики в связи с проблемой изучения газов и появилась статистическая физика. Заручившись поддержкой физиков, математико-статистические теория стала развиваться бурными темпами, ее математический аппарат все более усложнялся. Это привело к как минимум двум печальным последствиям. Социологи утратили способность своевременно реагировать на новые теоретические разработки, по большому счету из-за нехватки глубокого математического образования. Кроме того, среди социологов зародился некий миф о том, что статистические методы – порождение естественных наук и что к социологическим исследованиям они имеют малое отношения. В итоге произошло своеобразное отторжение тех методов, которые изначально создавались именно для нужд социологии. Как доказательство такого раскола Чупров приводит типологизацию социлогов-практиков конца 19 века. Он выделил три класса специалистов: тех, кто отрицал возможность применения математико-статистических подходов в социологии, тех, кто признавал статистику, но не хотел вдаваться в сложные математические модели ("статистики-нематематики") и тех, кто считал, что социологу необходима не только статистика, но и математические алгоритмы, программы, модели, т.д. ("статистики-математики").

Интересы естественных наук подавили интересы социологов, которые в силу гуманитарного склада ума не были способны адекватно воспринять естественно-научные наработки. И на протяжении 100 лет у социологов не было возможности ставить перед математической статистикой вопросы, ответы на которые могли значительно улучшить исследовательский процесс в социологии. Как было подмечено выше, связь социологии и матстатистики стала слабеть, что выразилось в недостаточном использовании математического аппарата социологами. Мы бы хотели показать, что в наше время (начиная с середины 20 в.) ситуация стала улучшаться, социологи снова были обращены к математическим наукам. В то же время мы бы хотели вскрыть и критические моменты познания и применения социологических методов в наше время.

Выделим, на наш взгляд, основные события, которые имели решительное значение для социологии. Эти события способствовали возвращению математики в социологию, они расширяли спектр, используемых социологами методов, привлекали внимание исследователей к математическим достижениям.

Очень долгое время теория вероятностей рассматривала только дискретные данные, понятия непрерывной переменной не существовало. Впервые о непрерывной величине заговорил Декарт (1596-1650), ее изучением сквозь призму интегрального и дифференицального исчислений плотно занимались Ньютон и Лейбниц. Когда понятие непрерывной переменной стало рассматриваться в теории вероятностей, появилось понятие случайной величины. Далее этот элемент научного знания получает широкую известность благодаря тому, что многие ученые стали к нему обращаться. Большое значение имела работа Чебышева "О средних величинах", вышедшая в 1867 г. В результате того, что Лаплас работал над своим трудом "Аналитическая теория вероятностей", Лежандр и Гаусс изучали метод наименьших квадратов и теорию ошибок, а Фишер и Нейман в 20-30-е заложили основы современной теории оценивания и проверки гипотез – возникла математическая статистика, задачи которой формально объединил Вальд в 40-е годы 20 столетия.

На наш взгляд, появление математической статистики как отдельного научного направления как нельзя лучше подчеркнуло универсальность и необходимость математики для решения задач в абсолютно разнообразных прикладных областях – будь то физика, экология, управление, медицина или экономика – в каждой из этих дисциплин математические методы и приемы могут применяться с равным успехом и эффективностью.

Еще одним значимым событием для социологии стало возникновение методов анализа данных как самостоятельной науки, стоящей в одном ряду с математической статистикой. Методы анализа данных, сформировавшиеся к середине 20 в., обязаны своим существованием развитию теории вероятностей и математической статистики.

И третьей вехой в развитии социологических методов, важность которой трудно переоценить, было появление прикладной статистики, посвященной разработке и применению статистических методов и моделей.

Появление прикладной статистики связывают с тем, что после разработки основ математической статистики специалисты в данной отрасли ушли во "внутриматематические" исследования, в то время как прикладная статистика взяла на себя обязанность донести достижения в области математики до всех других наук, предоставляя теоретическую базу для проведения прикладного анализа данных. То есть математическая статистика служит всего лишь теоретическим фундаментом для прикладной статистики.

Как пишет Орлов, в нашей стране термин "прикладная статистика" приобрел широкую известность после публикации в 1981 г. сборника "Современные проблемы кибернетики (прикладная статистика)". Авторы сборника дали описание новой области знаний, выделили в ней три ведущих направления. Первая составляющая прикладной статистики относится к математическим методам анализа статистических данных (это направление "можно назвать прикладной математической статистикой и включать также и в прикладную математику "); это направление включает в себя математическую теорию, сопровождает необходимыми теоремами, обосновывает применяемые модели. Вторая составляющая отвечает за методологию исследования, то есть учит, как правильно собирать статистическую информацию, как планировать работу, как предоставлять полученные результаты. Наконец, третье направление прикладной статистики сфокусировано на компьютерной реализации методов обработки и анализа данных. Орлов также отмечает, что до 1981 г. термин "прикладная статистика" использовался в нашей стране, но только среди узкого круга специалистов.

Мы еще вернемся к вопросам прикладной статистики, но сейчас особое внимание хотелось бы уделить проблемам, с которыми, на наш взгляд, сталкивается современная социология, в частности методы анализа данных. Наше мнение заключается в том, что сейчас в какой-то степени может повториться ситуация середины 19 в. (про которую писал Чупров). Как нам кажется, сегодняшние российские социологи плохо адаптируют теоретические разработки в области статистики, диапазон применяемых ими математических методов сужен. То есть имеется некий разрыв между статистикой и социологией, а точнее запаздывание социологии по отношению к статистике.

Как отмечает Орлов, 70-е годы прошлого века характеризовались относительной активностью исследователей-социологов в области анализа данных. Этот период отличился тем, что было выпущено много учебной литературы прикладного толка, но с тех пор почти не появилось ничего нового, книги 70-х годов по-прежнему представляют первоочередной интерес для современного специалиста. То есть литература (особенно русскоязычная) носит устаревший характер, а прикладники реализуют на практике только то, что они изучили когда-то по учебникам и то, что содержится в самых популярных компьютерных программах, за методологическими дискуссиями в современных периодических изданиях они не следят, воспринимая его как "информационный шум".

По оценке Орлова, уровень применения прикладной статистики в нашей стране отстает от "переднего края" теории на не менее, чем 20 (но и не более, чем 100) лет.

Дрейпер и Смит констатируют тот факт, что в последнее время разнообразных модификаций статистических методов появилось столь много, что социологи утратили всякую возможность конструктивно в них разобраться.

Многие исследователи сходятся во мнении, что такое положение дел, в том числе, объясняется нехваткой математического образования у современных социологов. Что мы имеем на самом деле – это зарождение неких психологических барьеров, которые результируют в восприятии математических методов анализа данных на абстрактном уровне, то есть наблюдается тенденция, когда методы анализа применяются механически, отсутствует потребность в анализе задействованных в методах моделей, в сопряжении их со смыслом решаемой задачи. Это перекликается с проблемой, о которой мы писали выше, когда социологи начали отторгать те методы анализа данных, которые изначально предназначались для них. Мы видим возможное решение проблемы в качественном изменении преподавания анализа данных для социологов, а также в адаптировании ряда новейших направлений статистики специально для социологов-гуманитариев.

Если вернуться к проблемам образования, то хотелось привести цитату Орлова, который утверждает, что "в рамках научной специальности "теория вероятностей и математическая статистика" наблюдается четко выраженное игнорирование проблем статистического анализа реальных данных и уход в глубь узкоматематических исследований, которые ничего не могут дать практике ".

Весьма интересно будет привести статистику. В течение последних 15 лет российская социология бурно развивается по всем количественным параметрам. Если в 1989 г. в России было 6 социологических факультетов, отделений, кафедр, то в 2003 – уже 105. Число студентов-социологов возросло более, чем в 100 раз. Во всех вузах преподают социологию – она вошла в перечень "общих гуманитарных и социально-экономических дисциплин" образовательных стандартов высшего профессионального образования. Издается более 20 социологических журналов. Таким образом, социология развивается вширь, но весьма медленно – вглубь. Как свидетельствует анализ действительности, современные практики обходятся очень простыми методами, полевыми исследованиями на простом уровне и лишь постепенно приходят к необходимости использовать более сложные методы. Как показывает анализ тезисов докладов и выступлений на 2-ом Всероссийском социологическом конгрессе "Российское общество и социология в 21 в.: социальные вызовы и альтернативы", большинство участников конгресса не дозрело не только до применения математики, но и до проведения простейших полевых исследований.

Прежде чем перейти к следующему разделу, в котором мы чуть более детально рассмотрим прикладную статистику и ее "точки роста", хотелось бы сделать некоторые выводы.

На наш взгляд, в середине 19 в. произошел некий раскол между социологией и математикой, в результате которого социологи перестали интересоваться достижениями математической науки, что было обусловлено усложнением математического аппарата тех методов, которые изначально применялись для изучения общества. Но уже к середине 20 в. ситуация начала заметно улучшаться, о чем свидетельствовало появление и методов анализа данных как научного направления, и прикладной статистики в социологии, которая как бы развязала руки социологу-практику, снабдив его инструментами для проведения полноценного социологического исследования. Но такое положение дел слегка омрачается тем, что современным социологам не хватает математической подкованности, а также тем, что усвоение социологией математических достижений статистики проходит крайне замедленными темпами, что говорит о низкой эффективности кооперации двух наук – социологии и математической статистики.

Принципиальное значение для социологии имеет классификация методов статистики, в соответствии с которой прикладная статистика подразделяется на четыре направления:

- статистика (числовых) случайных величин;

- многомерный статистический анализ;

- статистика временных рядов и случайных процессов;

- статистика объектов нечисловой природы.

Первые три из этих областей являются классическими, они хорошо изучены. В то время как последнее направление ждет активное развитие в наше время. Если проанализировать историю развития прикладной статистики, то мы сможем увидеть, что в 21 в. статистика нечисловых данных будет представлять собой центральную часть прикладной статистики, так как включает в себя наиболее обширные подходы и выводы.

Напомним, что наблюдения в выборке считаются элементами нечисловой природы, при этом их нельзя умножать на числа или складывать. Иначе говоря, элементы нечисловой статистики находятся в пространствах, которые не обладают векторной структурой. Примерами таким элементов являются:

- Ранжировки

- Ответы на открытые вопросы

- Парные сравнения, то есть матрицы из нулей и единиц

- Закодированные значения анкетных ответов – результаты измерения качественных признаков

- Вектора, состоящие из координат, значениями которых являются результаты измерения разнородных признаков, одни из которых имеют качественный характер, другие – количественный

- Обычные и нечеткие множества

Бурное развитие статистики нечисловых объектов пришлось на 70-е годы прошлого столетия. Оно получило толчок под воздействием конкретных потребностей социологии, медицины, техники, экономики. В результате были исследованы связи между определенными типами таких нечисловых объектов, были получены для них вероятностные модели.

Наравне с появлением статистики нечисловых данных специалисты также выделяют следующие "точки роста" прикладной статистики, представляющие большое значение для современной социологии – методы снижения размерности, а также непараметрические и робастные методы анализа.

Мы сконцентрируем наше внимание на изучении непараметрических и робастных методов анализа, не только потому что они являются современными разрабатываемыми направлениями статистики, но и потому что, на наш взгляд, их значение для социологии недооценивается или же попросту игнорируется.

2) Непараметрика

Непараметрическая статистика – часть математической статистики, комплекс методов обработки данных, не требующих, чтобы распределение вероятностей было описано каким-либо нормальным законом распределения (напримерр, нормальным). Она опирается на более широкие и менее ограничительные свойства распределений вероятностей: статистическая независимость распределений (ошибок наблюдений), непрерывность этих распределений; иногда на ту или иную симметричность распределений и т.п.

Отрицание, содержащееся в названии этого направления, имеет свою историю; в прошлом (30-е годы) оно возникло как альтернатива господствовавшей тогда системе обработки данных, основанной на гауссовском (нормальном) распределении. Совокупность одномерных гауссовских распределений образует двупараметрическое семейство. Существуют и другие параметрические семейства распределения вероятностей, например, показательное, логнормальное, распределение Парето и т.д. "Непараметрические" как название для нового метода подчеркивало его универсальную применимость к непрерывным одномерным распределениям.

Впервые применение непараметрических методов было реализовано в работах Спирмена (первое десятилетие 20 в.) и Кендалла (1930-е годы); они были основаны коэффициентах ранговой корреляции. Но непараметрика, не обязывающая делать предположения о принадлежности распределений к тем или иным параметрическим семействам распределений, стала пользоваться заметным успехам среди специалистов лишь со второй трети 20 в., после работ А.Н. Колмогорова и Н.В. Смирнова. Именно тогда, по выражению Ю. Неймана, произошел первый из трех "прорывов" непараметрики – появление в 1933 г. теоремы А.Н. Колмогорова о предельном поведении наибольшего уклонения эмпирической функции распределения от теоретической (эту величину теперь называют статистикой Колмогорова). Второй "прорыв" был связан с открытием Ф. Уилкоксоном (1945 г.) ранговых критериев. После второй мировой войны развитие непараметрической статистики пошло быстрыми темпами. Третий "прорыв" относится к использованию Ходжесом и Леманом ранговых критериев для оценивания неизвестных параметров (1963 г.).

На данный момент непараметрические методы позволяют успешно решать почти тот же круг статистических задач, что и параметрические. "Все большую роль играют непараметрические оценки плотности, непараметрические методы регрессии и распознавания образов (дискриминантного анализа) ".

После того, как в 1965 г. вышел сборник статистических таблиц Л.Н. Большева и Н.В. Смирнова, популярность непараметрических методов пришла и в нашу страну. В этом сборнике были опубликованы таблицы для основных непараметрических критериев.

Так или иначе параметрические методы во много раз превосходят непараметрические по своей популярности. Очень часто стали публиковаться экспериментальные данные, свидетельствующие о том, что эмпирически наблюдаемые случайные величины (в частности, ошибки измерения) в подавляющем большинстве случаев не удовлетворяют условию нормального (гауссовского) распределения. Несмотря на это теоретики в области статистики продолжают разрабатывать и исследовать модели, основанные на гауссовском распределении, а практики – реализовывать эти модели и методы.

Холлендер и Вульф выделяют следующие достоинства непараметрического подхода:

1) Непараметрические методы не налагают много ограничений на рассматриваемую генеральную совокупность. В частности, непараметрические методы не требуют, чтобы генеральная совокупность была нормально распределена;

2) Непараметрические методы позволяют получать определенные уровни значимости для тестов, определенные доверительные интервалы, а также экспериментальные коэффициенты ошибок для методов множественного сравнения;

3) Непараметрические статистики зачастую (но не всегда) проще применять на практике нежели их параметрические варианты;

4) Непараметрические процедуры легче усвоить;

5) Хотя, с первого взгляда, может показаться, что применяя непараметрические методы, мы теряем некоторую информацию, заложенную в выборке, но теоретические исследования по этому вопросу спешат нас успокоить. Обычно непараметрические методы только слегка менее точны по сравнению с параметрическими, если данные нормальны; но эффективнее или даже намного эффективнее, если данные не подчиняются нормальному распределению;

6) Непараметрические методы являются устойчивыми к выбросам;

7) Непараметрическая статистика применима в случаях, когда параметрическая бессильна. Многие непараметрические методы используют только ранги наблюдений, в то время как параметрические методы запрашивают точных значений наблюдаемых величин.

8) Метод ножа (jackknife method, Quenoulli-Tukey), а также метод тиражирования выборки (bootstrap, Efron) позволяют использовать непараметрические методы в многочисленных сложных ситуациях, когда теория распределения, основанная на параметрических предположениях, практически не применима.

9) Развитие программного обеспечения способствует точному вычислению уровней значимости для непараметрических тестов. Такие точные результаты, в принципе, были доступны всегда. Тем не менее, до появления современных вычислительных машин обычно избегали трудоемких расчетов и полагались на оценки для больших выборок, которые предоставляли только приближенные значения уровней значимости.

Можно сказать, что непараметрические методы активно развиваются в технических областях знаний таких, как физика, экономика, биология, химия. Но их не особо жалуют в социологии. В то время как именно социологические данные, как правило, далеки от нормальных, гауссовских, распределений, при том, что непараметрические методы с успехом могут применяться именно на данных нечисловой природы – данных, с которыми сталкиваются социологи.

3) Отдельно стоит сказать о робастных методах статистики.

Робастные или помехоустойчивые методы получили свое развитие в работах П. Хубера и Ф. Хампеля, с 60-х годов они разрабатывали эту теорию. Из книг, вышедших на русском языке, затрагивающих проблемы робастности и устойчивости статистических процедур, первой и наиболее полной была книга Орлова А.И. "Устойчивость в социально-экономических моделях" (1979), следующей – монография Смоляк С.А., Титаренко Б.П. "Устойчивые методы оценивания: Статистическая обработка неоднородных совокупностей (1980).

Параметрические методы требуют соблюдения жестких условий – необходимо, чтобы распределение данных соответствовало определенному параметрическому семейству. С другой стороны, непараметрические методы предъявляют чересчур слабые требования – необходимо, чтобы функции распределения были непрерывны. При этом, с данной точки зрения, лишней оказывается информация о том, каким может быть примерный вид распределения. Можно предположить, что, если мы будет рассматривать эту информацию о примерном виде распределения, то это поможет нам улучшить качество применяемых статистических процедур. Теория робастных методов представляет собой развитие этой идеи. В рамках теории устойчивости постулируется, что распределение эмпирических данных не сильно отличается от некоторого параметрического семейства.

Существует довольно много моделей робастности, выбор которых обусловлен тем, какие именно отклонения от определенного параметрического семейства предполагаются. Среди теоретиков наибольшую популярность получила модель выбросов, которая допускает, что распределение в выборке искажается присутствием малого числа выбросов, которые имеют принципиально другое распределение. Но это модель никуда не приводит и бесполезна для практики, так как в большинстве случаев невозможно получить такие большие выбросы в связи с ограниченностью шкалы измерения; либо их можно легко ликвидировать, использую только статистики, основанные на анализе центральной части вариационного ряда. К тому же в таких моделях полагается, что частота засорения является известной, что в сочетании с вышесказанным делает модели этого класса малопригодным для практического применения.

Робастные методы более близки к параметрическим методам, нежели чем к непараметрическим. Их часто используют для корректировки устойчивости параметрических процедур. Термин "робастность" был введен для обозначения класса статистических процедур, слабочувствительных к небольшим изменениям начальных предположений о распределении данных.

П. Хубер определяет робастность метода через требования, налагаемые на получаемые робастные оценки. Таким образом, он выделяет 3 особенности робастной статистической процедуры:

1) Для выбранной модели процедура должна иметь достаточно хорошую (оптимальную или почти оптимальную) эффективность.

2) Процедура обязана быть робастной, иначе говоря, малым отклонения от предположений о модели должны ухудшать качество процедуры лишь в малой степени, т.е. характеристики процедуры (например, асимптотика дисперсии или уровень значимости и мощность критерия) должны быть близки к номинальным величинам, вычисленным для принятой модели.

3) Несколько большие отклонения от допущенной модели не должны приводить к катастрофическим последствиям.

Сборник научных статей под редакцией Р.Л. Лонера и Г.Н. Уилкинсона также критикует догматическое положение о нормальности распределений. В книге говорится о том, какое "гипнотическое" воздействие оказывает на исследователей-практиков метод наименьших квадратов, предложенный Гауссом. Широкому распространению МНК способствовало эффект, производимый теоремой Гаусса-Маркова и асимптотическими свойствами метода максимального правдоподобия, частным случаем которого является МНК для нормально распределенных данных. В итоге МНК получил огромную популярность как при преподавании, так и в реализации прикладных исследований, в которых он применялся зачастую без должного критического анализа. МНК присутствовал на страницах всех учебников, а отсутствие альтернативных методологических подходов привело к его догматическому усвоению начинающими специалистами. В тоже самое время давно известно, что МНК эффективен только на классе линейных оценок, а также на более широком классе в случае нормально распределенных случайных величин. И Гаусс признавал, что нормальность распределения данных далеко не всегда имеет место и причина, по которой может применяться МНК – его относительная вычислительная простота. Отсутствие мощных вычислительных средств в те годы также послужило толчком для повсеместного распространения МНК.

Метод наименьших квадратов весьма чувствителен даже к немногочисленным возмущениям исходных данных. Этот факт демонстрируется на очень простом примере. Допустим у нас имеется 7 наблюдений: 0,96; 1,01; 0,97; 1,02; 1,04; 1,00; 10,52. Последнее значение переменной явно является выбросом, но именно оно даст нам смещенное значение среднего арифметического μ = 2,36, которое, очевидно, имеет малое отношение к действительности. В то же время если за показатель положения взять медиану, то мы получим весьма адекватный результат μ = 1,01. Этот простой пример говорит о как минимум двух важных вещах: проблема неустойчивости оценок существуют, но также имеются и способы ее преодолеть.

Надо сказать, что на сегодняшний день математический аппарат робастных и непараметрических методов довольно хорошо развит, но в тоже время очень сложно найти русскоязычную публикацию, посвященную социологическому исследованию с применением этих статистических процедур. А ценность и необходимость данных методов очевидна. Таким образом, представляется необходимым обратить внимание на эти "точки роста" современной прикладной статистики.