«Если мы позволим расчленить Украину, будет ли обеспечена независимость любой из стран?»

Байден на Генассамблее ООН призвал противостоять российской агрессии

pirmadienis, lapkričio 28, 2022

Technologijos. Искусственный интеллект от Meta научился вести переговоры в настольной игре

 



Услышать и уничтожить: как искусственный интеллект помогает сбивать крылатые ракеты в украинском небе

Интервью с участниками AI-стартапа Zvook, разрабатывающего радиолокационные системы для обнаружения вражеских ракет и дронов.


ПОНЕДЕЛЬНИК, 28 НОЯБРЯ 2022, 10:00 - ЯНА ЕГОРИ, ЭП
КОЛЛАЖ АНДРЕЯ КАЛИСТРАТЕНКО

С начала войны россияне выпустили по украинской территории более 4700 крылатых ракет. Вражеское оружие поражает не только критическую инфраструктуру Украины, но и жилые дома, школы, детские сады.

Жизнь многих мирных жителей оборвалась именно из-за авиа- и ракетных ударов. Последний масштабный обстрел территории Украины произошел 23 ноября 2022 года.

Во время массированного обстрела 15 ноября украинская ПВО сбила более 70 из 90 крылатых ракет и все 10 выпущенных "шахедов". Чтобы сделать украинское небо свободным от вражеских ракет, силы ПВО усиливают средства противовоздушной обороны и создают комплексы, состоящие из нескольких современных систем.

Чем масштабнее защитный комплекс, чем больше он включает в себя систем обнаружения, тем труднее их всех уничтожить.

Одной из таких систем является Zvook – AI-стартап, разрабатывающий аппаратно-программный комплекс, способный акустически обнаруживать крылатые ракеты, вертолеты, дроны и истребители врага на малых и средних высотах. Сегодня на территории Украины уже работает около 40 комплексов Zvook.

О том, как эта система защищает национальную безопасность Украины ЭП рассказали участники команды military-tech стартапа: Дмитрий Белевцов, участник проекта Zvook, CTO и Cofounder в Respeecher , Павел Цюпка, участник проекта, CEO в i3 Engineering и Марьян Сулим, участник проекта и военнослужащий 125-й бригады ТрО.

От ЭП: информация, предоставленная участниками проекта, согласована с военными.

— Что подтолкнуло вас к созданию проекта и какова его основная цель?

— Павел: Конечно, в первый же день войны в голове возникал только один вопрос – как помочь Вооруженным силам Украины? 

В телеграмм-чатах было много жутких видео с полетами крылатых ракет. Тогда я знал, что у нас существует система ПВО, но была осведомлена и в сфере военных технологий.

Я понимал, что на маленьких высотах ракеты сложно обнаружить с помощью радиолокационных систем. Можно зафиксировать пуск, из истребителя проследить, куда ракета летит, но перехватить невозможно.

Для обнаружения враждебных воздушных целей можно поставить тысячи людей по всей Украине, которые будут фиксировать перемещение ракет и передавать информацию, но это плохая идея.

Мы поняли, что лучше разработать автоматизированную систему, которая будет выполнять ту же функцию: информировать силы ПВО о времени и месте нахождения ракеты. Так родилась идея проекта.

Zvook – это аппаратно-программный комплекс, акустически обнаруживающий крылатые ракеты, вертолеты, дроны и истребители врага на малых и средних высотах.

В основе лежит технология машинного обучения (ML), распознающая звуки двигателей враждебных воздушных целей. В Украине работает около 40 комплексов Zvook.

Смонтированный звуковой датчик / ИСТОЧНИК: ZVOOK

 Кто составляет команду проекта Zvook?

 Павел: К нам присоединились ведущие украинские специалисты из сферы IT, телекома, а также военные.

Львовская областная военная администрация, в частности, заместитель председателя Александр Кулепин, в течение 30 минут после нашего обращения собрали представителей мобильных операторов и организовали работу с ними. Львовская ОВА до сих пор способствует развитию проекта.

Команда компании "Киевстар" также оперативно отозвалась на обращение и отправилась с нами в первое путешествие по стране. Итого мы установили первые системы Zvook. Специалисты "Киевстар" обеспечили нас круглосуточной поддержкой во время внештатных ситуаций.

Важно, что пролет крылатой ракеты был зафиксирован уже через 4 часа после установки комплекса Zvook и мы известили соответствующие военные структуры.

Также бессонные ночи делили с нами инженеры компаний i3 Engineering и GlobalLogic. "Украэрорух" помог в планировании сети и презентацией в военных структурах.

Модель искусственного интеллекта разрабатывали инженеры стартапа Respeecher: Владимир Сидорский (темлид ML-команды) и Валерий Заблоцкий-Дроган (звукоинженер, дата инженер).

Команда Label Your Data помогала с ручной разметкой сотен часов данных, являющихся одним из ключевых компонентов успеха ML алгоритмов, применяемых в системе Zvook.

Команда 125-го обр ТрО разрабатывала, тестировала и устанавливала станции детекции на башнях мобильной связи оператора "Киевстар".


— Марьян: В самом начале Павел нуждался в квалифицированных специалистах, которые могли бы реализовать идеи в производстве станций детекции, развертывать и поддерживать их сеть. Он обратился к командованию 125-й обр ТрО и получил полную поддержку.

Командование организовало подбор военнослужащих, имеющих в гражданской жизни опыт программной разработки и конструирования, обеспеченные условия для их действенного участия в проекте Zvook. 

От бригады привлечены 5 военнослужащих, это командир Артур Горбенко, Эдуард Лучук, я (Марьян Сулим), Максим Руденко и Илья Павлюк.

Сотрудничество с нашей бригадой облегчило коммуникацию проекта по военным линиям. Пригодился опыт военных, а также понимание специфики организации противовоздушной обороны городов и важных инфраструктурных объектов Украины.

 Как выглядит этот проект сейчас?

— Павел: Сейчас у нас функционируют два подразделения – hardware- и software-разработка.

Hardware-продукт (железо) – это система, физически размещенная в определенной локации на территории Украины. За железо у нас отвечают Марьян и Илья. Марьян координирует команду, придумывает разные усовершенствования, а Илья – мастер на все руки, которыми он и создает комплекты автоматизированного слушателя.

Основная задача состоит в получении звука из специального устройства, фокусировке его с помощью зеркала. После этого мы усиливаем этот звук и передаем его на обработку внутри защищенной сети передачи данных.

Единого центра обработки данных нет, ими могут быть много узлов, что исключает возможность уничтожения центра, будь он один. Такую сеть очень трудно уничтожить.

Для распознавания записанного сигнала приходит на помощь команда Дмитрия, работающая над ML-частью. Также Дмитрий помогает с продвижением продукта.

Остальное программное обеспечение разрабатывает команда Максима Руденко из 125 обр ТрО. Он координирует волонтеров, пишущих код. Максим сам программист с многолетним опытом, соучредителем IT-компании.

 Дмитрий: На самом деле, у нас нет четкой иерархии на этом этапе. Задач много, их подхватывают разные участники команды. 

Мы понимаем, что важной составляющей является не только разработка, но и коммуникация, Bizdev и маркетинг. А именно – поиск стейкхоледров, общение с военными, потенциальными заказчиками. Эту часть процессов в целом закрывают Марьян и Павел.

Сейчас мы собираем команду, которая будет заниматься операционными процессами и построением собственно компании. В настоящее время Zvook находится на раннем этапе развития, без глубокой структуры.

 С какими основными проблемами радиолокационного обнаружения целей противника сейчас приходится сталкиваться? Что изменилось с начала войны?

 Павел: С первых дней войны у нас было очень мало информации о самых крылатых ракетах, которые наносили удары по украинской инфраструктуре.

С этого времени произошли существенные изменения. Раньше мы не знали, по каким маршрутам они летают. Сейчас мы можем примерно спрогнозировать полетный маршрут. Во взаимодействии с ПВО покрываем те зоны, где есть большая потребность.

Кроме того, в начале войны радиолокационная сеть в Украине была построена иначе, чем сейчас. На сегодняшний день основные точки прохождения ракеты фиксируют радиолокаторы. ПВО видит гораздо больше.

Система Zvook производит доразведку вражеских воздушных целей по "мертвым зонам". Конечно, покрыть всю Украину радиолокаторами невозможно, поэтому мы разрабатываем новые системы, чтобы закрывать также те зоны, где радиолокаторов еще нет.
 
Готовы к установке комплекты оборудования. / ИСТОЧНИК: ZVOOK

Система дополняет сопровождение по воздушным целям в определенных зонах, что чрезвычайно важно для принятия правильных решений по противодействию враждебным воздушным целям.

 Дмитрий: Важно отслеживать как можно больший процент пути, потому что таким образом мы делаем больше попыток перехвата и ущерба. Так у нас вырастают шансы уничтожить ракету.

 Расскажите о технической архитектуре комплекса. Какая технология лежит в основе системы?

 Дмитрий: В основу системы Zvook заложено машинное обучение. Благодаря ML Zvook может обнаруживать неприятельские воздушные объекты.

Еще с 2006 года ML-технология повлекла за собой революцию в сфере обработки изображений. Благодаря ей машины получили практически человеческие возможности аналитики данных. 

В месте с тем машинное обучение способно обрабатывать гораздо большие массивы информации, чем человек. Что важно, нейронные сети способны не только анализировать данные, но и учиться на ошибках и совершенствовать свой опыт.

Исторически нейронная сеть имела дело с обнаружением объектов на изображениях. Также звук можно отождествить с изображением, что будет понятно для системы. Так начал развиваться аудионаправление.

Относительно Zvook. У нас есть аудиостр, в котором существуют определенные звуковые объекты: во времени, а не в пространстве. Таких объектов очень много. Это ветер, шум дороги, маленькие мушки, голоса инженеров, блеск коров, бензопилы, валящие лес.

Доля этих звуков составляет 99,9%. При этом мы отделяем очень маленький процент (0,1%) интересующих нас объектов: звуки, с которыми движутся враждебные воздушные цели.

Задача алгоритма – определить цель среди огромного количества других объектов и известить о ней пользователя станции.

Чтобы добиться нужного результата, мы постоянно тренируем сеть и обеспечиваем ее данными. Самая важная потребность ML-алгоритма заключается в ее доступе к правильным данным в необходимых количествах.

Несколько станций уже были установлены, когда мы присоединились к Zvook, поэтому у нас было с чем работать.


 С какими проблемами вам пришлось сталкиваться в процессе разработки? Как вы с ними ладили?

 Дмитрий: Сначала мы тренировали сеть на записях из Интернета. Мы имели дело с тем, что называется domain shift – сценарием, когда первичные характеристики отличаются от того, что нужно получить в конечном итоге.

Команда использовала видео близких пролетов ракет, снятых с телефона. Звук действительно отличается от далекого пролета, к тому же микрофон в телефоне не дает высокого качества.

В процессе система начала улучшаться. Ребята из 125-й бригады, Марьян и Максим, очень много времени уделяли прослушиванию и предоставляли постоянный фидбек по результатам, необходимым для обучения алгоритму.

 Павел: Когда все заработало в лаборатории на столе, и мы, счастливые, повезли систему в бригаду для монтажа на местах, это было только начало нашего пути. Впереди нас ждало много разных ложных фиксаций, поэтому мы возвращались в лабораторию и по ночам исправляли ошибки. 

Ранее вероятность правильного обнаружения равнялась около 50%, что недостаточно для перехвата вражеских воздушных целей. 

Сломанный момент настал, когда в проект поверила Львовская ОВА, которая мгновенно откликнулась на наш запрос сотрудничества, и собрала всех представителей мобильных операторов.

В этот день они разрешили устанавливать наши устройства на территории Украины. Вскоре, в течение нескольких дней, мы начали собирать данные настоящих пролетов ракет и передавать их соответствующим силам реагирования.

Затем возникла другая проблема: мы испытали сложности с передачей накопленных данных силам реагирования. Военные структуры нуждались в большей точности, потому что параллельно разворачивали свои комплексы наблюдения.

Мы решили эту проблему, когда к нам присоединилась команда Дмитрия. Процессы улучшились, и теперь вероятность погрешности идет к нулю.

 Дмитрий: Ошибки бывают двух родов. 

Первая (false positive) – система обозначает объект, не являющийся враждебной целью. К примеру, отождествляет звук мотора авто со звуком реактивного двигателя ракеты.

Вторая (false negative) – система распознает настоящую ракету как безопасный объект и говорит, что все хорошо.

Важно бороться с обеими погрешностями. Мы исправляем их, уча Zvook на собственных ошибках.

Также мы привлекли команду стартапа Label Your Data, маркирующую данные для искусственного интеллекта (ИИ). Ребята помогли с ручной разметкой данных, чтобы наполнить датасет примерами шума, отвечающего настоящим звукам ракет.

Данные должны быть четкими и соответствовать действительности, чтобы предотвратить ненужный расход ресурсов из-за ошибочной детекции вражеских воздушных целей. Также при частых ошибках к системе может возникнуть недоверие.

— (Павел) Украинские структуры перехвата развиваются, и пренебрегать этими погрешностями невозможно. Требования к системе очень высоки. Раньше было допустимо из пяти погрешностей получить один правильный результат, а сейчас – уже нет.

Сейчас система работает в достоверном режиме, следовательно, на нее можно потрепаться.

— (Марьян) В начале мы ступили в замкнутый круг. Чтобы хорошо распознавать вражеские объекты, у нас должны быть образцы пролетов. Их трудно собрать, потому что ты их не узнаешь в автоматическом режиме и не сможешь сохранить.

Чтобы решить это, нам понадобилось четыре месяца. Только тогда у нас накопилось достаточно записей пролетов, и мы смогли запустить автоматический режим.

Обычно разработчики пытаются предугадать ошибки своих систем еще в лабораториях. У нас на это не было времени. Мы делали все "на вчера". Когда у нас появилось готовое решение, его сразу стали применять.

Нас просили расширить сеть, поэтому мы не могли сидеть в лаборатории и тестировать продукт.

Были случаи, что тест был положительным, мы завозили станцию ​​в поле, а она не работала. Приходилось ехать назад, провожать, а это 300 км пути. Конечно, это демотивировало нас, но ненадолго.
 
Более старые версии комплекса Zvook / ИСТОЧНИК: ZVOOK

— Изучали ли вы аналоги системы Zvook при разработке комплекса?

— (Павел) Мы изучили много аналогов, начиная с кейсов двух последних мировых войн.

Когда радиолокаторы еще не были эффективны и не было автоматизированных систем, воздушные угрозы прослушивали люди. Они пытались услышать звуки ракет с реактивными двигателями на звуковых постах.

Слушали с помощью специальных зеркал, отражающих звук. На посту дежурили люди с очень хорошим слухом. Zvook – это цифровая версия такого поста.

Голландский персональный акустический локатор, 1930-е годы
ИСТОЧНИК: ZVOOK
 
Чешский акустический локатор, 1920-е годы
ИСТОЧНИК: ZVOOK

 (Мариан, смеется, показывает фото) Вот такие девайсы начала и середины 20 века. Интересно, что во время второй мировой войны, когда немцы запускали ракеты Фау-2 по Лондону, использовались именно такие системы.

Работая над Zvook, мне приходилось учить специализированную литературу по инжинирингу таковых систем.

Система состоит из зеркала, усиливающего сигнал и концентрирующего его в определенной точке фокуса, где расположен микрофон. Так микрофон может слышать больше. Зеркало является необходимым элементом станции, оно недорогое.

Также в комплексе, который упоминается в специализированной литературе, используются так называемые микрофонные решетки. Еще одна команда львовских волонтеров разрабатывает для нас такое решение. С его помощью комплекс будет определять угловые координаты воздушной цели.

Разрабатывая Zvook, мы ничего нового не изобрели. Просто в нужное время собрали вместе все имеющиеся кейсы человечества. С помощью Дмитрия мы дополнили систему искусственным интеллектом, потому что слышно – мало, нужно это делать автоматически.

— (Павел, смеется) Да, надо двадцать чуваков из филармонии, или одного Дмитрия.

— (Дмитрий) Уникальность Zvook – в обнаружении крылатых ракет. Их Россия использует очень многое. Не думаю, что где-то в мире есть подобные сети акустических сенсоров, которые столь чувствительны к этому виду оружия.

Даже если бы в войну против Украины вступила другая страна, Zvook мог обнаружить и эти воздушные цели. Крылатые ракеты построены по схожему принципу: у каждой есть реактивный двигатель.

– Сколько стоит разработка систем Zvook?

— (Марьян) В разработке есть три составляющие: программное обеспечение, модель ИИ и "железо". Hardware мы разрабатываем сами, без привлечения подрядчиков, поэтому работу над железом можно оценивать количеством часов привлечения инженеров.

— (Дмитрий) Zvook не является коммерческим продуктом, поэтому у нас нет unit-экономики. Для военных системы Zvook бесплатны. Строим станции за свои средства и за донаты. Планируем масштабировать производство на государственные средства.


— Если в Украине установить тысячу ваших систем, насколько надежной была бы защита?

— (Павел) Ни одна система не может дать стопроцентную гарантию, но каждая дополняет друг друга.

Очень важно иметь хорошую систему ПВО, это 90% успеха уничтожения вражеских воздушных целей. Остальные 10% должны компенсироваться другими технологиями, такими как Zvook.

— (Марьян) Наиболее целесообразным способом развертывания комплекса является рубежный, когда станции детекции устанавливаются линиями вдоль государственной границы и в глубине территории Украины.

Увеличение дальности обнаружения позволяет устанавливать станции с меньшей плотностью, что экономит ресурсы на изготовление и логистику.

Исходя из текущих технических характеристик комплекса и ориентировочной длины рубежей развертывания требуется около 600 станций детекции. Естественно, каждому средству защиты можно противодействовать.

Чем больше комплекс, чем больше он содержит систем обнаружения, тем труднее его уничтожить. Радиолокационные станции являются мишенью №1. Их можно вывести из строя, наводя ракеты на источник радиоизлучения.

Преимущество Zvook состоит в том, что это пассивная система, она ничего не излучает. Можно обнаружить локацию станции, однако каждая война имеет экономическую составляющую: средство уничтожения должно быть хотя бы немного дешевле, чем цель поражения. В противном случае ты останешься без ресурсов. Поэтому воевать с системой Zvook нерационально.

— (Дмитрий) Среди основных методов борьбы с акустическими и контрбатарейными системами – так называемые попугаи. Это создание дополнительного шума, отвлекающего противника от цели.

К примеру, когда российский снайпер стреляет, он может попросить коллег, чтобы они выстрелили в воздух в разных точках. Однако станции расположены на территории Украины, поэтому рашисты не могут использовать этот метод.
 
Разработана командой плата для контроля за охлаждением микрокомпьютера / ИСТОЧНИК: ZVOOK

— С какими нестандартными ситуациями вы сталкивались при работе над своей системой?

— (Марьян) Самые забавные случаи происходили во время сценария false positive (система обозначает объект, не являющийся ракетой).

Дмитрий тренировал модель на поиск крылатых ракет. Все работало хорошо, но было много false positive сценариев. Система искала схожие паттерны, чтобы выдать точный результат. Эти паттерны встречаются и в природе.

В частности, на начальной стадии Zvook отождествлял мычание коров с враждебной целью. Модель отсекала ветер, автомобили, но коровы обозначались как угроза.

Проблема была в том, что мы нашли мало записей мычания, и тренировать модель на них не получалось. Понадобился месяц, чтобы избавиться от этих коров (смеется).

— (Павел) Однажды мимо наших устройств пролетел майский жук или шмель, и от этого звука все вскакивали с мест. За день до этого мы установили новые зеркала, обеспечивающие очень качественный звуковой эфир.

Если сравнить наши ранние версии зеркал с тем, что у нас есть сейчас, то это как Full HD и 4K.

— (Марьян) В то время все были в отчаянии. Не было вариантов противодействия русским ракетам. У нас было решение – Zvook, и систему начали использовать даже с условием, что она может ошибаться, потому что другого пути не было.

Без этого опыта нам трудно было бы ее развивать. Благодаря этому, сейчас у нас уже не возникают false positive сценарии.

— Какие приоритеты по развитию проекта на ближайшее время?

— (Марьян) Мы видим много интересных направлений усовершенствования с технической стороны. Наиболее приоритетным для нас является определение координат, курса и скорости движения выявленной цели.

Это было бы значительным шагом вперед для выдачи целей указания подразделениям противовоздушной обороны на огневое поражение целей противника. Наша команда уже разработала концепцию акустического определения азимута (направления) цели и провела эксперимент, подтвердивший ее правильность.

– (Дмитрий) Нашим первым и основным приоритетом является применение системы Zvook для целей национальной безопасности. Мы планируем масштабировать проект, расширять коммуникацию с военными.

Также рассматриваем коммерческое направление развития проекта и привлечение инвестиций. В каком-нибудь классном будущем хотим продавать наш продукт на глобальный рынок.



Искусственный интеллект от Meta научился вести переговоры в настольной игре про дипломатию и войну. И делает это гораздо лучше, чем люди 

Он умеет врать и блефовать — но пригодится не только для этого

08:18, 27 ноября 2022 Источник: Meduza


22 ноября компания Meta, владеющая Facebook и Instagram, представила алгоритм искусственного интеллекта (ИИ) Cicero, который обыгрывает живых людей в настольную игру «Дипломатия». В отличие от большинства подобных алгоритмов, разработка Meta не просто знает правила игры и умеет им следовать, но еще и может вести переговоры как реальный человек — и даже лучше. «Медуза» рассказывает, как устроен Cicero и для чего его могут применить в будущем.


Алгоритм ИИ от Meta анонимно сыграл 40 партий в «Дипломатию» в онлайн-версии игры, на сайте webDiplomacy.net, и никто не догадался, что это не настоящий человек. Более того, Cicero набирал в среднем в два раза больше очков, чем живые игроки, а по итогам периода с 19 августа по 13 октября вошел в 10% лучших игроков. «Он безжалостен в реализации своей стратегии, но не настолько, чтобы раздражать или расстраивать других» — так о Cicero высказался чемпион мира по «Дипломатии» Эндрю Гофф.

Для начала разберемся, как играют в «Дипломатию»

«Дипломатия» — это настольная игра, которую в 1954 году придумал американец Алан Брайан Колхамер. Игровое поле — карта Европы начала XX века, а участники игры (максимум семь) берут на себя роль руководителей великих держав: Австро-Венгрии, Великобритании, Германии, Италии, России, Турции и Франции. В случае если игроков меньше семи, каждый управляет сразу несколькими странами. Побеждает тот, под чьим контролем оказывается половина так называемых центров поддержки — особых зон на поле, позволяющих производить и содержать военные единицы для дальнейшей экспансии. Одна зона — одна военная единица.

Всего на игровом поле таких зон 32, нейтральных на старте партии — лишь 12. Обычно их захватывают в самом начале, дальше державы вынуждены воевать друг с другом за территорию. 

Ходы в «Дипломатии» — в отличие от многих других настольных игр — совершаются не по очереди, а одновременно. Игровой ход разделен на весну и осень, а каждый из сезонов, в свою очередь, поделен на несколько фаз:
  • фаза дипломатии — игроки общаются, заключают альянсы (как открыто, так и тайно), продумывают дальнейшую стратегию или подслушивают планы оппонентов;
  • фаза написания приказов — игроки пишут на бумажках приказы о передвижении, поддержке, транспортировке своих войск или об удержании позиций;
  • фаза исполнения приказов — игроки зачитывают свои приказы и приводят их в исполнение, если возможно;
  • фаза отступления и расформирования — игроки отводят разбитые в бою формирования на безопасные территории;
  • фаза получения и потери войск — игроки оценивают, сколько «центров поддержки» они контролируют, и либо лишаются военных единиц, либо, наоборот, приобретают. Эта фаза играется только осенью. 

Так как же устроен искусственный интеллект Cicero

В отличие, например, от «Риска» в «Дипломатии» мало что решает простое везение. Да и перемещение фигурок по полю — это пусть важная, но не главная составляющая игры. Само название подсказывает, что основу игрового процесса составляет вербальное взаимодействие между игроками. «Главы государств» ведут переговоры, заключают союзы, предают, обманывают, блефуют — и всеми этими навыками (разумеется, не в настольной, а в онлайн-версии игры, доступной на webDiplomacy.net) овладел алгоритм ИИ Cicero. 

Если упрощать, то Cicero — это что-то вроде чат-бота, в основе работы которого лежат два модуля: обработки естественного языка и стратегического мышления. Помимо этого есть фильтры, отсеивающие «низкокачественные» реплики диалога, не подходящие текущей ситуации на поле или не ведущие к достижению цели, поставленной ИИ. Благодаря этим трем составляющим Cicero способен общаться с оппонентами по «Дипломатии», предсказывать их поступки, использовать игроков для достижения личной выгоды и выигрывать. 

Языковая модель Cicero включает в себя 2,7 миллиарда параметров, обучена на книгах, новостях, постах c Reddit, а также гигантского массива данных Common Crawl. В дополнение инженеры Meta использовали данные о 125 тысячах онлайн-партий в «Дипломатию», сыгранных на webDiplomacy.net. В 40,4 тысячи из этих 125 тысяч игроки общались друг с другом. Таким образом, Cicero научился еще и по 12,9 миллиона сообщений, относящихся напрямую к «Дипломатии». 

Однако, как отмечают в Meta, такая модель может лишь подражать сообщениям из корпуса данных, но не создавать на их основе более эффективные реплики. Другими словами, модель умеет врать, блефовать и «втыкать нож в спину», возможно, так же хорошо, как человек, но не лучше его.

Чтобы исправить этот изъян, инженеры ввели понятие «намерения» (intents). Они помогают контролировать диалог между ИИ и живым игроком. Каждому сообщению в датасете, на котором обучался Cicero, автоматически присвоена аннотация, отражающая собственно намерения отправителя и получателя на текущий ход и несколько последующих. Условно: намерение A присваивается сообщению, если A — это наиболее вероятные действия, которые предпримут участники диалога. В случае если диалог продолжается после сообщения A, намерения могут измениться. 

Как работает Cicero
Meta AI

За просчет дальнейших планов и выбор намерений отвечает модуль стратегического мышления Cicero — именно он анализирует обстановку на поле и состоявшиеся уже переговоры, а также предсказывает действия других игроков. Обычно для таких целей используют «поведенческое клонирование» — обучение ИИ на основе данных, полученных из наблюдений за людьми. 

В случае с «Дипломатией» такой подход не особенно работает, так как в итоге получаются расхождения между словами ИИ и его действиями. В Meta AI разработали итеративный алгоритм и назвали его piKL: он воспринимает каждый ход в «Дипломатии» как отдельную игру, в рамках которой участник стремится предпринять какое-то действие, чтобы в итоге достичь конкретной цели. И цель, и награду алгоритм предсказывает, исходя из предположения, что игрок будет выбирать лучшие из доступных ему вариантов. 

Cicero предлагает сопернику выгодное для себя решение и предполагает, что тот ответит. Основываясь на наиболее вероятных ответах противника, ИИ прогнозирует поведение оппонента, а также корректирует собственный план.

Здесь возникает одна загвоздка: Cicero по своей «природе» не умеет врать, поэтому нередко выдает противнику реальные планы. Чтобы нивелировать «утечку информации», в Meta разработали метод оценки сообщений в зависимости от того, насколько это навредит самому ИИ. В итоге, оценив 127 диалогов, инженеры пришли к выводу, что искусственный интеллект выбирает самые предпочтительные варианты реплик в 67% случаев.

Это как раз один из таких фильтров реплик, о которых мы писали выше. Среди других — фильтры, отсеивающие токсичные высказывания, а также повторы сообщений и офтоп. 

И зачем искусственному интеллекту играть в настольную игру

На протяжении десятилетий считалось, отмечают в Meta , что искусственный интеллект не сможет овладеть «Дипломатией». Но он смог — и, более того, прекрасно себя проявил. Игра, которая требует умения убеждать, заключать союзы и идти на компромиссы, стала отличным полигоном для исследования взаимодействия между ИИ и человеком. 

Если у кого-то есть желание поближе познакомиться с Cicero или улучшить его, то можно отправить заявку в Meta — она готова предоставить доступ. Компания призывает ответственно подходить к модификациям ИИ, чтобы избежать повторения ситуации с демоверсией нейросети Galactica, просуществовавшей в открытом доступе всего два дня.

И хотя сейчас Cicero годится только для игры в «Дипломатию», методы, использованные для его создания, применимы и в других областях. Способность вести осмысленный диалог с пользователем очень пригодится, например, голосовым помощникам, которые сейчас могут лишь отвечать на четко заданные вопросы. Кроме того, это нужно в образовательном процессе, где похожий ИИ будет способен взять на себя роль преподавателя. Наконец, технология Meta в теории поможет разработчикам видеоигр создавать по-настоящему живых NPC, беседы с которыми не будут сводиться к простому прокликиванию доступных реплик. 


4 месяца назад

Komentarų nėra: