Quantcast
Channel: Найцікавіше на DOU
Viewing all articles
Browse latest Browse all 8115

DOU Проектор: Papir - открытые данные о компаниях Украины в одной карточке

$
0
0

В рубрике DOU Проекторвсе желающие могут презентовать свой продукт (как стартап, так и ламповый pet-проект). Если вам есть о чем рассказать — приглашаем поучаствовать. Если нет — возможно, серия вдохновит на создание собственного made in Ukraine продукта. Вопросы и заявки на участие присылайте на valentina@dou.ua.

Идея

Привет, меня зовут Михаил Кашкин. Я расскажу о своем проекте Papir — это удобный сервис, собирающий все открытые данные о компаниях Украины в единую карточку компании.

Мой долг — сделать страну лучше.После того как в Украине произошел Майдан, у меня возникло очень сильное желание сделать что-то для страны, в которой я живу. Я искал проект, к которому можно было бы приложить мои навыки и экспертизу. Первый проект, который я реализовал, был сервис открытой криптографии и идентификации граждан на основе стандартов ДСТУ (уже потом Приватбанк сделали свой BankID). Проект быстро перерос из коммерческой плоскости в инициативу по изменению законодательства. Я получил начальный опыт коммуникации с органами власти, создал сеть инициативных групп в разных городах Украины и сам стал соучредителем инициативных групп в ОДА, сотрудничал с представителями демократических сил и партий, участвовал в проектах совместно с сотрудниками АП и даже выступал консультантом по критике законов децентрализации власти, разработал множество рекомендаций по изменению законодательства в сфере криптографии и шифрования.

Это был очень крутой 9-месячныйопыт эволюционирования из хорошего программиста в профессионального лоббиста. Самый главный урок, который я извлек из этого опыта: люди вообще ничего не понимают в криптографии. Но зато я знаю, как можно быстро стать скучным собеседником для совершенно любого человека.

Конечно, это не все выводы, которые я сделал. Стало понятно, что самая большая проблема не в том, что есть какая-то хорошая или плохая инициатива. Самое главное — это перевести ее на язык, понятный обычному человеку. У меня был период разочарования, депрессии и внутренних конфликтов, и какое-то время я не мог понять, в чем причина того, что я не смог довести этот вопрос до конца.

Я хочу подчеркнуть этот момент. Безусловно, тут можно было бы написать отдельную статью, потому что это важный период моего развития, с которым я столкнулся, или уже столкнулись многие. При том, что у меня были некоторые важные победы за этот период (типа получения половины призовых местна хакатоне, организованном Минюстом), но я разочаровался во всей своей волонтерской деятельности. Девять месяцев упорной работы с раннего утра и до изнеможения вечером, сотни звонков, упущенная выгода (я уволился и не получал ни копейки за свою работу). Моим драйвом было желание быть честным перед самим собой, сделать что-то для той страны, в которой должны были жить семьи бойцов, отдавших свои жизни в АТО. Это был мой долг — сделать страну лучше.

Научиться разбираться в себе.Это важный исторический момент, но почему он в проекте о стартапе? Потому что вы наверняка видели много людей, которые оказались в том же положении, что и я. Потому что Facebook и блоги были завалены постами разочарованных людей, которые писали о #зраде, о том, как наши «технократы» выдавливались из разных мест во власти. Думаю, многие из них до сих пор так же разочарованы, как тогда был я.

Мне понадобилось больше года, чтобы сделать выводы. На самом деле, только этой весной я понял, что именно помешало мне и на что надо было обращать особое внимание, чтобы не выгореть. Для того чтобы добраться до сути и сделать выводы, мне пришлось переступить порог того, что айтишники обычно предпочитают игнорировать: научиться разбираться в себе. Тут не об эзотерике и не о чакрах и прочем мракобесии. Точно так же, как надо заботиться о своем физическом состоянии, внутреннее психологическое состояние требует заботы.

Мой главный вывод: мне не хватило яиц. Власть — это реальная каждодневная борьба за ресурсы с более опытными, и, если хотите, злыми людьми. Бледные болезненные тела, изнеженные удобными креслами, сидящие перед мониторами и выбирающие какую новую игру купить для приставки после работы — слишком легкая еда для всей этой системы, которая управляет страной. Надо признаться самим себе, что я в тот момент был, как и большинство других хваленых технократов, обычным ссыкуном. Честно, у меня оказалась кишка тонка на тот момент. О себе и других реформаторах делайте выводы сами. Но то, что я продержался 9 месяцев подряд и потом еще несколько месяцев суммарной работы, говорит о том, что на самом деле уже тогда я был гораздо сильнее и круче многих.

Проблема: условно открытые данные.Сейчас Украина переживает период взросления и отрезвления. Мы находимся в уникальной ситуации, когда благодаря законам о публичности данных, органы власти (иногда, кажется, сами того не понимая) дали нам внутренние данные финансовых и социальных процессов, которыми они занимаются. И этот фарш уже нельзя будет провернуть назад, хотя многие будут пытаться. Мы видим, что на сайте data.gov.uaрегулярно публикуются большие массивы информации в ввиде огромных файлов, но на самом деле ими невозможно пользоваться.

Им необходима дополнительная кропотливая обработка, и даже потом их тяжело вовлечь в деловой оборот. Например, все то, что публикуется Минюстом, я называю «условно открытыми данными». Потому что информация вроде как есть, а пользоваться ей — невозможно, так как из 46 полей реестра в публичном дампе нам дают только 7. Я понимаю, что даже с ними можно было бы работать, но никто не дает нам инструменты для анализа этих крох информации. И я поставил перед собой задачу превратить залежи информации в удобные данные.

Так родился проект Papir, слоганом которого стал «Открытые данные — удобные данные».

Реализация

Удобными данными я называю такие данные, которыми можно пользоваться, вовлекать в анализ внутри компании, использовать как полноценный источник важной информации. Например, при работе с судами, в скоринг-моделях, при обращении в государственные органы и т.д.

Летом я взялся за обработку данных ЕГРПОУ Минюста. И потратил десятки часов, чтобы превратить условно открытые данные в удобные для анализа. Мне показалось, что если в стране есть такие же энтузиасты, то им для того, чтобы начать использовать данные для анализа, придется точно так же тратить десятки часов. Мне захотелось делиться накопленными результатами.

Буквально с первого дня стало понятно, что проблема гораздо шире, чем просто превратить информацию в удобные данные. Я столкнулся со множеством небольших неудобств. Например, юристы и бухгалтера пытаются пользоваться сайтом Минюста, у которого, по иронии тоже есть «приемные часы». Кроме того, даже когда все работает, доступ осуществляется только через Recapcha. Да и счастливчикам, которые все-таки добрались до данных, все равно сложно пользоваться информацией на нем, не говоря о том, чтобы использовать данные в системах автоматической проверки или анализа.

Я нашел нефть.Возможно все слышали фразу, что большие данные — это новая нефть. Papirрасшифровывается как Public API Robot. Это API, который позволит создать новую индустрию обработки информационного сырья в виде готовых данных для анализа. Иными словами, Papir — это и есть вышка для извлечения этой нефти. На текущем этапе я и моя команда наращиваем экспертизу по обработке и представлению данных.

Для того чтобы было понятно, как именно используются эти данные, скажу, что в проекте постоянно работают одни из лучших юристов в стране по тендерным процессам, происходящим вокруг Prozorro. К нам присоединились люди, помогающие создавать инструменты поиска на основе ИИ и машинного обучения. Есть люди, помогающие с парсингом и обработкой данных, и журналисты, с которыми мы будем делиться результатами поисков и с кем будем публиковать исследования.

Продукт.На текущий момент проект Papir уже создал небольшое количество публичных инструментов:
— Сайт с поискомпо реестру Минюста. Это основа карточки компаний, к которой будут привязываться другие данные.
— Плагин для браузера Chromeдля удобства людей, который позволяет одним кликом мышки проверить статус компании.
— Чат бот (в процессе окончательной отладки), который также позволяет отслеживать изменение статуса компаний.

Это те вещи, которые уже реализованы на данный момент и доступны. Но помимо них уникальным преимуществом являются инструменты, которые пока еще находятся в процессе подключения и обработки:
— База Минюста ЕГРПОУ;
— База банкротств;
— База решений Антимонопольного комитета;
— База реестра судебных решений;
— База решений о коррупционерах;
— База крупнейших новостных сайтов Украины;
— База закупок Prozorro;
— Множество других данных полученных в результате анализа разных источников волонтерами.

Это те базы, которые уже накапливаются и будут постепенно объединены и доступны в карточках компаний. Для обработки этих данных мы делаем инструменты полнотекстового поиска и извлечения данных на основе алгоритмов машинного обучения.

О технологиях.Все написано на Python 3.5, в качестве фреймворка используется aiohttp, шаблоны Jinja, база данных Postgres. Если кому-то интересны более серьезные подробности самого сайта, то я делал доклад об использовании aiohttp, и он доступен на Youtube. Для анализа и обработки данных применяем разные технологии, экспериментируем.

Электронная демократия: ожидания VS реальность.В этом году мой сын пошел в первый класс, и мы буквально сразу столкнулись с особенностями жизни этой системы. В нашем классе были старые, неудобные, неэргономичные парты, вредные для здоровья первоклашек, но одобренные государственной комиссией, которая должна следить за такими вещами. Как ответственные родители, заботящиеся о своих детях, мы начали решать эту задачу. В конце концов, мы решили ее, и сейчас у моего сына и у всего класса красивые новые парты. Меня пригласили в родительский комитет школы, и я отпраздновал первую победу.

Но эта история не является примером истории со счастливым концом. В Днепре все закупки от 3000 гривен идут через Prozorro. Предыдущий опыт директора школы показал, что красивая в теории процедура имеет множество проблем применения на практике. В поисках исполнителя мы вынуждены были сами обзванивать компании и мотивировать их подать заявку в систему, потому что многие владельцы бизнеса уже получили негативный опыт участия в тендерах и отказывались тратить время впустую.

Закупки через онлайн торги — один из основных инструментов открытой электронной демократии. Но он сейчас слишком сложен и непредсказуем для рядового бизнеса. Намеренно запутанные или просто неаккуратные условия заявок, попытка выдавливания конкурентов, договорняки, да и просто незрелость бизнеса и заказчика привели к тому, что показатель отказов от участия в тендерах среди тех, кто участвовал хоть один раз — 30% (по словам создателей Prozorro). Мы видим в этом свою возможность сделать более прозрачной и защищенной работу тех, кто участвует в тендерах.

Пока проект только выходит в общий доступ, но мы работаем с юристами и готовим для них инструменты поиска нарушений на рынке закупок. Это большой и важный конкурентный рынок.

Миссия Papir.Глобальной миссией Papir является внедрение инструментов электронной демократии для всех. Кроме того, мы в тесном контакте с профессиональным экспертным сообществом бухгалтеров и планируем серию совместных проектов для предоставления доступа к инструментам бухгалтерам и собственникам бизнеса. Как показывает практика, в нашей стране бизнесу важно следить за своими контрагентами, чтобы защититься или в целях создания более здорового делового климата.

Наличие конкурентов является признаком зрелого рынка. В Украине есть спрос на открытость, но пока предложение не очень большое. Есть узкоспециальные или дорогие инструменты, но при цунами-образном спросе на аналитику мы все еще наблюдаем очень низкое качество предложения. Примером является текущая ситуация вокруг анализа деклараций чиновников. В основном мы видим инфографику вокруг денежных сумм, глубже пока не сильно копают. И мы бы хотели в будущем видеть публикации такого уровня, как Panama Papers.

Команда.С первого дня работы над проектом я чувствую себя, как диснеевская принцесса, которая стоит на опушке леса и к которой слетаются птицы и ластятся звери. Текущая команда — это мой личный невероятный успех на сегодняшний день. Хотел бы похвастаться теми людьми, которые уже присоединились к команде:

— Наш маркетолог — это журналистка, которая имеет наибольшую цитируемость в интернете за прошлую неделю как независимый автор. Это просто офигеть, человек, который мне помогает в написании текстов — самый читаемый автор ноября во всем русскоязычном интернете!

— Главный специалист по машинному обучению — это человек, который в течение последних 10 лет занимается вопросами компьютерной лингвистики, анализа и извлечения данных. Который сам знает уже больше 4-хязыков (разговорных). Связанные с ИИ образовательные проекты, которые он разработал, были одними из первых в русскоязычном интернете. Это бриллиант нашей команды.

— Партнеры проекта — юристы, специализирующиеся на тендерах, они одни из лучших специалистов по этим вопросам в Украине и работают совместно с Антимонопольными комитетом, командой создателей Prozorro и другими ведомствами.

— Что касается лично меня, то я в отрасли с 2000 года, имею успешный опыт запуска десятков проектов, опыт работы в Google. Поскольку в Украине обязательно меряться длиной своих финансовых успехов, то скажу, что в тот момент, когда было модно заниматься разработкой сайтов, моя студия имела оборот больше миллиона долларов. Это во времена, когда средняя зарплата программиста была $400. После этого я управлял проектами с бюджетами от $2M до $10M. В моем портфолио крупнейшие телеканалы России, ГИБДД Москвы и Московской области, крупнейшее европейское агентство недвижимости и десятки других проектов, включая компании в Таиланде, США, России, Украине. Я выступал консультантом для правительственных организаций Таиланда, России, Армении и, конечно, Украины.

И в этой команде есть еще очень много мест для новых людей. И нам нужны аналитики, фронтендщики, люди, которые будут помогать в создании парсеров и роботов, специалист по полнотекстовому поиску, devops. Отдельно нам нужен специалист по 1С. Мы хотим создать инструменты, которые смогут побороть систему, сделав ее прозрачной и реагирующей на нарушения.

Результаты

На текущем этапе Papirсоздается как некоммерческий проект, мы рассчитываем на поддержку грантами и финансирование силами, заинтересованными в создании более открытой и чистой бизнес-среды в стране. Уже сейчас мы имеем первые контракты на создание небольших совместных проектов с партнерами. И это позволяет проекту оплачивать хостинг и вести небольшую операционную деятельность. Но в целом сейчас проект — это моя попытка проверить гипотезу, возможно ли создание подобного проекта в нашей стране. И мы уже получили первые успехи.

Papir вышел на конкурс проектов инкубатора 1991 в Днепре. И мы выиграли! Теперь мы будем учиться и продвигаться в сильнейшем инкубаторе Украины. Мы, как команда, будем совместно искать рынок и учиться создавать продукт, будем наращивать свою экспертизу на рынке аналитики и исследований с применением государственных реестров. Будем бороться за открытие важных реестров на равных условиях.

Если говорить о цифрах, то мы видим, как растет посещаемость страниц, как спустя два месяца после запуска на сайт ежедневно заходят тысячи людей, проверяющих статусы компаний и своих контрагентов.

Вы можете помочьмножеством способов, начиная от финансовой поддержки, вкладываясь своим временем, знаниями, советами и заканчивая просто тем, что будете следить за тем, что мы делаем. Мы хотим больше дружить с журналистами и теми, кто ведет расследования. Уважаемые чиновники, помогайте открытием данных, если у вас есть такие полномочия.

Приглашаю тех, кто хочет помогать, писать мне на m@askpapir.com.

Делитесь сайтом в социальных сетях, критикуйте или поддерживайте нас. Лайкните нашу страницуна Facebook, это наше основное маленькое персональное СМИ, каждый лайк и каждая нажатая кнопка «поделиться» очень важны для нас. И это действительно большая поддержка.

Инвестиции в Papir — это инвестиции в электронную демократию Украины. Спасибо вам!


Viewing all articles
Browse latest Browse all 8115

Trending Articles