Формирование статистических данных — традиционное поле для применения компьютерных систем. О том, как трансформировались задачи в области статистики и эволюционировали соответствующие программные технологии, TAdviser рассказал Константин Лайкам, председатель Межгосударственного статистического комитета Содружества Независимых Государств (Статкомитет СНГ).
Константин Эмильевич, как менялись задачи, которые ставились перед Статкомитетом СНГ за время его существования?
Константин Лайкам: Межгосударственный статистический комитет Содружества СНГ был создан 30 с лишним лет назад, одновременно с образованием СНГ. Это был первый межгосударственный орган Содружества, поскольку страны без статистики существовать не могут. Прежде всего, надо было срочно передать теперь уже независимым республикам статистическую методологию, научить их самостоятельно ее развивать с учетом местных особенностей и организовывать весь статистический процесс с нуля. Второй задачей, причем общей для всех постсоветских стран, был перевод статистики на международные стандарты, принятые в рыночной экономике. Нужно было решить и третью задачу - обеспечить органы управления Содружества, прежде всего Исполнительный комитет СНГ, а также власти государств СНГ информацией, необходимой для разработки интеграционных программ на пространстве Содружества.
С течением временем роль первой функции снижалась, и сейчас за нами осталась только вторая и третья задачи. Так, в части координации статистической деятельности мы делаем официальные переводы новых международных стандартов и рекомендаций на русский язык, адаптируем их к внедрению в национальных республиках, разрабатываем по заявкам стран различные методологические документы, оказываем помощь в их внедрении.
В рамках третьей задачи за тридцать лет работы Статкомитет СНГ накопил огромный массив статистических данных, позволяющих анализировать состояние и динамику развития каждой страны и в целом СНГ.
Тем не менее, по мере укрепления самостоятельности национальных статистических служб (не смотря на наличие международных стандартов) нарастала проблема несопоставимости разрабатываемой ими статистики. Это негативно сказывается на выработке и принятии странами согласованных решений. Год назад Правительство Российской Федерации приняло решение оказать содействие Статкомитету СНГ в координации статистической деятельности с целью повышения сопоставимости методологии и классификаций в СНГ. Возглавить эту работу было поручено мне (до этого я 19 лет работал заместителем руководителя Росстата). В прошлом году наш коллектив совместно с Росстатом разработал проект по развитию статистики в СНГ. Правительство РФ выделило финансирование на 2023-2025 гг., и мы приступили к реализации этого проекта.
Какие задачи поставлены в этом проекте?
Константин Лайкам: Проект предусматривает три крупных направления работ. Первое - развитие статистической методологии в СНГ, включая не только адаптацию международных стандартов, но и обмен опытом. Второе направление – создание международного статистического хаба данных и метаданных. И третье большое направление – формирование единого статистического сообщества СНГ. Мы хотим, чтобы статистики, эксперты, преподаватели вузов, студенты, СМИ общались, в том числе неформально, обменивались информацией и опытом, чтобы повышалась статистическая грамотность. В целом все эти три направления будут содействовать повышению сопоставимости статистики.
О «челлендже» для статистики в середине «нулевых»
Вы сказали про интересные задачи в области цифровизации статистики. Разве может возникнуть что-то неожиданное в отрасли, которая в течение многих десятилетий возглавляла процессы цифровизации, еще со времен СССР, и накопила громадный опыт в сборе и обработке огромных объемов данных?
Константин Лайкам: Действительно, статистика была флагманом информатизации в Советском Союзе. Более того, именно усилиями ЦСУ СССР в 70-х годах прошлого века на районном уровне была создана сеть машинно-счетных станций. Они оказывали помощь организациям района – промышленным и сельскохозяйственным предприятиям, учреждениям – сначала в механизации, а затем и в автоматизации бухгалтерского учета и статистической отчетности (которая в значительной мере базируется на бухучете). Кстати, популярная программа «1С» выросла из того программного обеспечения, которое в рамках системы ЦСУ СССР разрабатывалось для машинно-счетных станций.
Однако к началу «нулевых» стало понятно, что ПО для статистики оказалось «узким местом» отрасли. С одной стороны, расширение программы статистических наблюдений привело к тому, что нужно было обрабатывать гигантские объемы информации, причем в более сжатые сроки. С другой стороны, бюджет Росстата никогда не позволял широко использовать дорогие ИТ-платформы (например, уровня Oracle). Нужно было находить разумные компромиссы между стоимостью ПО и его функциональными характеристиками (объемами обрабатываемых данных, быстродействием, требованиями к квалификации персонала, сложностью обучения, сопровождения). До этого времени нас устраивала разработка прикладного ПО по нашим техническим заданиям, в котором, мы детально описывали все требования, включая исчерпывающий перечень выходных форм, их структуру и содержание. И если мы сталкивались с необходимостью их доработки, то необходимо было просить организацию–исполнителя внести в ПО соответствующие корректировки, на что требовалось дополнительное время и деньги.
Но наступил 2006 год – год проведения первой Всероссийской сельскохозяйственной переписи, которую мне пришлось возглавлять как методологу и организатору. Минсельхоз России как заказчик переписи потребовал, чтобы мы предоставили сотрудникам министерства и экспертам Россельхозакадемии (то есть многочисленным НИИ), во-первых, прямой доступ к обезличенным микро-данным переписи, а во-вторых, чтобы при этом у них была возможность самостоятельно формировать произвольные запросы к хранилищу и, соответственно, оперативно получать таблицы в нужном им виде и в любой разрезности.
Поскольку заказчик всегда прав, мы приступили к поиску подходящей ИТ- платформы.
О выборе программной платформы для проектов Статкомитета СНГ
Нашли?
Константин Лайкам: Мы поняли, что нужна платформа класса Business Intelligence. В то время на рынке были представлены три зарубежных BI-платформы, но все они для нас были запредельно дорогими. Кроме того, выяснилось, что BI в статистике еще никто не применял – и не только из-за дороговизны, а еще и по причине особенностей форматов распространения статистических данных. Но нам повезло - обнаружили российскую компанию «Контур Компонентс», которая предлагала только что созданный недорогой BI- продукт (Contour-BI), и которая смогла учесть в нем дополнительные требования со стороны статистики. При этом продукт базировался на собственной OLAP-машине с очень высоким быстродействием.
Начиная с успешного проведения той переписи, эта платформа используется в Росстате для различных статистических задач уже 17 лет.
Какие возможности получили статистики, работающие на BI-платформе?
Константин Лайкам: Статистик и аналитик могут работать с аналитическим многомерным кубом: настраивая фильтры, поворачивая куб, мгновенно строить любые отчеты. Причем, визуализация результатов возможна в виде таблиц, графиков, гистограмм, карт и т.д. И что очень важно, отчеты формируются и публикуются не из заранее сосчитанных показателей, а рассчитываются «на лету» непосредственно из первичных данных статистических обследований. Кроме того, платформа позволяет легко строить и перенастраивать дашборды, аналитические витрины в том виде, котором информация наиболее интересна пользователям.
Поэтому когда встал вопрос о выборе IT-платформы для создания международного хаба данных и метаданных в Статкомитете СНГ, мы без сомнений взяли этот продукт, конкурентоспособный и по цене и по качеству, проверенный на многочисленных объемных и сложных статистических задачах.
Пользователь может формировать свои собственные аналитические запросы? То, что называется ad hoc запросы?
Константин Лайкам: Конечно! Собственно, для этого и нужен BI. Наша система функционирует на основе OLAP-машины, которая позволяет самому пользователю формировать любые запросы, создавать любые разрезы и группировки. Кроме того, есть возможность искать ошибки в данных (например, странные выбросы) и понимать, почему этот выброс произошел - это функционал системы, ориентированный в том числе и на самих статистиков. Он помогает «чистить» свои базы данных от ошибок.
А внешним пользователям, которыми могут являться любые аналитики, важно иметь доступ к самим микро-данным на уровне базы данных статистики. Вновь приведу в пример сельхозперепись. Там опубликовали 17 томов по 200 страниц в каждом (в бумажном и электронном виде). И все равно невозможно предусмотреть все виды информации, которая может интересовать конкретного эксперта. Нужно дать доступ пользователю к самой базе данных (конечно, в обезличенном виде) и предоставить ему возможность фильтровать данные, смотреть визуализированные результаты, строить свои таблицы в любых разрезах, какие ему придут в голову. Использование BI-технологии позволило тогда предоставить экспертам-аграриям такие возможности.
Эти возможности реализованы и в аналитической системе Статкомитета СНГ.
О реализации международного статистического хаба данных и метаданных
Расскажите, пожалуйста, подробнее про международный статистический хаб данных и метаданных.
Константин Лайкам: Начиная с 1992 года, мы накопили большой объем данных по странам СНГ. Но статистической информации всегда не хватает: нужны новые данные, более подробные, за другие периоды, по другим странами и регионам, на других языках, наконец, просто в более удобной форме. Наш хаб нацелен на решение сразу всех этих проблем. Его внедрение позволит в ближайшие годы достичь нескольких значимых результатов:
впервые широким кругам пользователей будет предоставлена единая точка доступа (причем на одной платформе) не только к собранным нами данным, но сразу ко всем основным мировым статистическим ресурсам (ООН, Всемирный банк, Евростат, ФАО ООН, МВФ, ВОЗ, МЭА, …), - причем, не только по СНГ, но и по всем странам мира;
пользователям также будет дана возможность работать с этими данными на русском, английском языках и на государственных языках стран СНГ, причем работать не только с данными, но, что особенно важно, и с метаданными;
при этом пользователям будет предоставлен современный инструмент интерактивного многомерного анализа баз данных (с удобной визуализацией) для быстрого поиска и анализа нужных данных, выявления новых фактов и явлений;
хаб также позволит нам, статистикам выявлять и четко идентифицировать существующие проблемы в гармонизации методологии и классификаторов. Для этого в рамках хаба создается система управления знаниями;
хаб повысит открытость и доступность нашей статистики, сделает ее понятной (интерпретируемой) всем категориям пользователей – и человеку, и поисковым программам, и искусственному интеллекту – за счет тог, что выгрузка данных и метаданных в Интернет будет осуществляться в самом современном формате, так называемом формате «умные метаданные».
Мы осознаем, насколько сложной в реализации является эта амбициозная цель и что на это уйдет не один год. Но зато какой сервис мы вам предоставим!..
О представлении данных в формате «умные метаданные»
Я по своей работе знаю: ищешь какой-то статистический показатель и наталкиваешься на множество разрозненных, часто противоречивых значений. Более того, не всегда понятно, что представляет собой конкретный показатель в той или иной базе данных.
Константин Лайкам: Совершенно верно! Название показателя мало что говорит серьезному пользователю. Например, вам кто-то представил информацию о величине заработной платы. Но что именно означает полученная вами цифра? Это зарплата по всем юридическим лицам или только по крупным или средним организациям? По формальному сектору или включая также и неформальный сектор? За какой период – за текущий месяц, за квартал, за год?.. Зайдите на сайт Росстата и увидите, сколько самых разных зарплат существует: и по профессиям, и по видам деятельности, и по категориям работников, и по регионам. Есть масса нюансов, и если их не учитывать, вы придете к неверным выводам.
Некоторое время назад Сбербанк посчитал среднюю заработную плату по стране, благо, у него много данных о его клиентах. А потом ФНС, которая тоже обладает информацией о доходах работников, решила огласить свои цифры средней зарплаты и численности работающих россиян. Вот только цифры, полученные этими уважаемыми организациями, не бились ни друг с другом, ни с данными Росстата. А все очень просто: показатель с одним названием все считали по разным методикам (кстати, не опубликованным) и, по сути, каждая цифра подразумевала их собственное представление о том, что такое «средняя заработная плата».
Но грядущие вызовы куда серьезнее. И связаны они с надвигающимся «цифровым цунами». И если мы до сегодняшнего дня не смогли обеспечить гармонизацию статистической методологии и классификаторов, то завтра мы можем оказаться в условиях цифрового хаоса!
Уже сегодня искусственный интеллект играет в шахматы лучше чемпиона мира, пишет рассказы, музыку, стихи и песни, рисует картины, распознает лица, управляет самолетами, дронами, автомобилями…Он все больше берет на себя аналитические функции и при этом опирается на те данные и в том контексте, которые ему доступны. И если этих данных у него нет, или они имеются в непонятных ему форматах и не описаны в контексте, он будет брать то, что у него «под рукой» и генерировать контекст сам. И как он это сделает при расчете статистических показателей, нам будет неведомо. А кто-то будет принимать эти показатели за истину и в результате принимать неправильные решения…
Для статистиков это критически важно: чтобы нарастающий цифровой поток не разрушил статистику, нужно направить в правильное русло, описав статистические данные так, чтобы их однозначно понимали поисковые системы и искусственный интеллект.
Про Semantic Web
Эта проблема проявилась недавно?
Константин Лайкам: В общем, проблема не нова, просто в эпоху цифровизации она резко обострилась. Международные организации давно занимаются разработкой международных стандартов распространения данных, причем не только для самих данных, но и для метаданных. Наибольшее распространение получил стандарт SDMX (Statistical Data and Metadata eXchange) - открытый формат обмена статистическими данными. Однако его внедрение в статистическом мире по-прежнему идет тяжело. Цифровизация движется намного быстрее. И получается, что сегодняшний стандарт SDMX уже не удовлетворяет потребностям цифровой экономики. Но еще раньше с этой проблемой столкнулись разработчики поисковых программ в сети Интернет. Приведу простой личный пример. Недавно мне понадобилось найти в Интернете информацию об органе, музыкальном инструменте. Я забиваю в поисковик «органы» и получаю: органы власти, органы тела, органы чувств, органы пищеварения, правоохранительные органы (безопасности, прокуратуры, внутренних дел,..), органы местного самоуправления… И только где-то на десятой странице на экране компьютера, наконец, появились органы музыкальные. Хорошо, что получателем запроса был человек, который может понять различия в контексте. А если поисковый запрос сделает не человек, а машина, и не про органы, а про упомянутую выше зарплату, то никто не разберется, что на самом деле искусственный интеллект имел в виду, формируя ответ.
Решение проблемы есть?
Константин Лайкам: Да. Статистические показатели должны быть детально описаны и представлены в интернете в контексте, причем в специальном семантическом формате.
В 2017 году под эгидой консорциума Всемирной паутины World Wide Web Consortium (W3C) были разработаны принципы Semantic Web. Для реализации этих принципов в статистике создана Группа высокого уровня Европейской экономической комиссии ООН. Ее цель - подготовить рекомендации, как сделать метаданные, которые будут удовлетворять следующим требованиям: они должны быть находимыми, доступными, интероперабельными, пригодными для повторного использования, стандартными (чтобы их можно было понять и использовать везде) и активными (обеспечивали бы возможность генерации статистических процессов). Такие метаданные названы «умными» - Smart metadata.
Как я понимаю, ваш хаб нацелен на практическую реализацию этих рекомендаций? Насколько уникален этот проект?
Константин Лайкам: Идея, как я уже говорил, носится в воздухе уже не первый год. Есть международные организации и национальные статистические службы, которые уже публикуют часть своей информации в виде связанных данных. Но далеко не всякие связанные данные – «умные». Примеров публикации «умных метаданных» – единицы.
Мы планируем до конца года опубликовать первые метаданные в таком формате - на примере статистического домена «Рабочая сила».
Почему представление данных в формате умных метаданных — небыстрый процесс?
Константин Лайкам: Дело в том, что для каждой отрасли статистики требуется создать электронную библиотеку методологических материалов, затем на ее основе разработать глоссарий понятий, и, связав их между собой, сформировать семантические модели всех данных и используемых классификаторов. По сути, надо создать в цифровом виде онтологию каждой отрасли статистики, описав ее в специальном формате.
Дело оказалось труднее, чем мы ожидали. Мы рассчитывали на то, что по статистике труда имеются детальные рекомендации Международной организацией труда. Она каждые пять лет проводит международную конференцию статистиков труда, на которой статистики–трудовики детально прорабатывают каждый показатель, каждое понятие. Но даже эти тщательно проработанные рекомендации, но написанные «человеческим» языком, перевести в формат «умных» метаданных оказалось непростой методологической проблемой. Но, надеюсь, по мере приобретения опыта дело пойдет быстрее.
О формировании базы знаний по статистической методологии
Вложенные усилия по формализации, думается, предоставят новые возможности не только пользователям, но и самим статистикам?
Константин Лайкам: Конечно! Онтологические описания разных предметных областей статистики в цифровом виде создают уникальные пользовательские сервисы и функциональные возможности хаба данных и метаданных.
Раньше моделями данных статистики специально не занимались. Отдельные элементы онтологий, конечно же, создавались в ходе методологических проработок. Часть их опубликована на сайте Росстата, часть была «зашита» в методиках статистиков, которые утверждались приказами по ведомству, какие-то алгоритмы лежали в столах конкретных сотрудников в виде бумажных документов либо хранились в описаниях постановки задачи для программистов, а часть можно найти в научных публикациях в профильных журналах. По сути, детально статистической методологией по каждой отрасли статистики владел очень ограниченный круг специалистов, а обычным пользователям она была просто недоступна.
С созданием хаба появляется возможность увидеть всю онтологию конкретной отрасли статистики в одном месте.
О выявлении точек рассогласования в статданных и технологии связанных открытых данных
Почему нельзя медлить с созданием системы управления знаниями?
Константин Лайкам: Статистика, которую мы получаем из разных стран, по многим показателям не сопоставима – и между странами, и даже между годами в одном динамическом ряду по одной стране. Причин этому много, в том числе и объективных. А это значит, что мы сталкиваемся с острой проблемой – невозможно корректно проводить международные сопоставления, а также формировать сводную информацию по СНГ в целом.
Все элементы хаба – и информационно-аналитическая система, и система управления знаниями – позволяют четко выявлять причины несопоставимости, а значит, понимать, как можно их устранить или хотя бы оценить, каково их влияние.
О микромоделировании
Какие новые возможности использования статистических данных для практических управленческих целей при этом появляются?
Константин Лайкам: С удовольствием расскажу о конкретном проекте, который возник из реальной задачи, поставленной перед Росстатом несколько лет назад. Вы, наверное, помните, что когда Президент РФ формировал перечень национальных целей, в числе главной он определил снижение бедности в России почти в два раза. Тогда Минтруд России обратился в Росстат с просьбой помочь им сформировать оптимальный набор мер социальной поддержки, которые бы привели к максимальному снижению бедности в условиях ограниченности бюджетных ресурсов.
Надо сказать, что Росстат ежегодно проводит обследование доходов населения и участия в социальных программах, а по итогам итогом этого обследования по каждой социально-демографической группе населения (и домохозяйств) формируются показатели их доходов и уровень бедности. Используя платформу Contour-BI, специалисты Росстата разработали систему, которая позволила Минтруду определять набор мер поддержки населения, позволяющих реально сократить бедность.
Эта система поддерживает моделирование различных сценариев развития ситуации для различных категорий получателей, мер и размеров соцподдержки. Для каждого сценария рассчитывается уровень бедности и бюджетных затрат, и после сравнительного анализа сценариев выбирается наилучший вариант. Важно, что в этой системе имеется возможность использовать для прогнозирования и моделирования не только агрегированные статистические показатели, как это делается обычно, а непосредственно микро-данные из базы данных. Фактически вы интегрируете в микро-данные заданные вами сценарные условия и видите, как изменятся доходы и уровень бедности по каждой социальной группе, по каждому региону, в целом по стране, и сколько средств для этого понадобится.
Фактически реализуется анализ сценариев «что будет, если…»?
Константин Лайкам: Да. Причем, непосредственно на «живых» данных (подчеркну еще раз - обезличенных) и в интерактивном режиме.
В нашем проекте развития статистики СНГ на основе этого успешного опыта Росстата мы разработали рабочий прототип такой системы для демонстрации органам власти стран СНГ новых методов прогнозирования. Он был представлен на международной выставке «Евразия – наш дом», приуроченной к заседанию Совета глав правительств СНГ, которая проводилась 6-9 июня в Сочи, где вызвал большой интерес участников выставки.
О развитии статистического сообщества
То есть эти передовые методы в статистике и аналитике вы популяризируете в странах СНГ?
Константин Лайкам: Это важная часть работы нашего комитета. Например, в этом году мы уже провели две международные конференции и первый форум производителей и пользователей статистики, который недавно состоялся в Санкт-Петербурге. Это было крупное и важное для статистического сообщества мероприятие, где рассматривались и вопросы методологии и организации статистической деятельности, и цифровизации, и профессиональной подготовки статистиков и аналитиков, статистической грамотности населения. Нам также важно знать о проблемах пользователей и учитывать их интересы.
В этом году мы также провели первый молодежный студенческий фестиваль и олимпиаду. В ней соревновалось 12 команд из разных стран. Конечно, на это было положено немало сил, но результат нас радует – мы видим, как создается сообщество молодых статистиков – энергичных, задорных, с горящими глазами, нацеленных на развитие и научно-технические прорывы.
Поэтому мы объявили еще и конкурс на лучший BI-проект в области статистики. Его победители получат в качестве приза лицензии на ПО Contour-BI и право участвовать в нашем большом проекте «Развитие статистики СНГ».