На текущий момент в информационных системах Главгосэкспертизы принято почти 3 млн машиночитаемых файлов, в том числе около 190 тыс. заключений экспертизы. На основе этих данных сегодня в режиме пилотных испытаний производится обучение нейросетей. В дальнейшем они будут использоваться для обработки огромного массива неструктурированных документов (PDF), которые продолжают подаваться на экспертизу в составе проектной документации. В связи с тем, что перевести все документы в машиночитаемый вид на текущем этапе не представляется возможным (а в Главгосэкспертизу подается более 570 видов документов), в помощь экспертам и требуется привлечение искусственного интеллекта.
Первым пилотом Главгосэкспертизы в части подготовки данных для ИИ стала «База типовых замечаний» (БТЗ), в наполнении которой с января 2023 года приняли участие более 600 экспертов по всем направлениям деятельности ведомства. О востребованности БТЗ говорит тот факт, что доля использования типовых замечаний в экспертной деятельности сейчас приближается к 40%.
По тому же пути идут эксперты и при создании модуля ИИ для проверки неструктурированной документации. Они работают, в первую очередь, над формированием когнитивной части модуля ИИ, позволяющей обнаруживать, идентифицировать ошибки и давать предложения по их устранению. Это своего рода лингвистическая машина, отслеживающая ошибки, способная распознавать текст и графическую часть проектной документации и готовить на их основе аналитический продукт. В процессе ее создания эксперты участвуют в составлении и тестировании текстовых и графических катен — набора данных, увеличивающих производительность поисковых программ и снижающих вероятность ошибок по результатам поиска.
«Основная задача на этапе отбора и загрузки данных в нейросети — это найти оптимальный баланс между их избыточностью и достаточностью. При работе с катенами важно точно формулировать контекст задачи и четко обозначать машине цели и границы поиска. Это позволит не пропустить самое важное в проектной документации и вместе с тем отфильтровать все лишнее, чтобы снизить уровень так называемого «шума» при выдаче результата и в целом повысить его качество и достоверность для дальнейшей экспертной работы», — рассказал Андрей Тузлуков, главный специалист отдела информатизации, связи и инженерно-технических мероприятий антитеррористической защищенности Управления инженерного обеспечения Главгосэкспертизы России.
Фактически эксперты обучают машину, разработав и структурировав под формат машинного обучения около 1 800 видов замечаний по всем областям экспертизы и разделам проектной документации. При этом основу обучающих материалов для нейросетей составили 500 тыс. типовых замечаний и 130 тыс. заключений экспертизы в машиночитаемом формате. В так называемые датасеты, представляющие собой библиотеки данных для машинного обучения, было загружено более 12 млн текстовых фрагментов из заключений экспертизы и проектной документации.
В настоящее время «обученные» сотрудниками Главгосэкспертизы нейросети активно вовлекаются в рутинную часть работы по проверке и предиктивному анализу данных в системе экспертизы. В тестовом режиме на машину уже переложены задачи автоматизированного поиска несоответствий нормативным документам и других отклонений от требований к разделам проектной документации, что позволяет экспертам быстрее находить места возможных ошибок.
В 2024 году в ходе дальнейших пилотных испытаний модуля методологические наработки для автоматизации рутинных процессов в учреждении будут расширены. Для этого совершенствуется и «Методика применения технологий искусственного интеллекта в экспертной деятельности», принятая ведомством в 2023 году.
Вадим АНДРОПОВ, первый заместитель начальника Главгосэкспертизы России:
«С учетом того, что объем отдельных проектов, поступающих на экспертизу, может достигать 100 тыс. файлов, помощь искусственного интеллекта будет иметь огромное значение как для сокращения сроков проведения экспертизы, так и для повышения качества проектной документации»
Номер публикации: №47 15,12,2023