aizen_tt (aizen_tt) wrote,
aizen_tt
aizen_tt

Categories:

Камеры слежения будут читать все что говорят люди по их губам

Технологические компании обучают искусственный интеллект читать по губам - в первую очередь через камеры слежения. Теперь ранняя форма искусственного интеллекта для чтения по губам внедряется в больницах, электростанциях, общественном транспорте и т.д.

VICE пишет:
"Сначала было распознавание лиц. Теперь ранняя форма ИИ для чтения по губам внедряется в больницах, на электростанциях, в общественном транспорте и т. Д.

Из-за недавней операции мужчина, изображенный в этом рекламном видео, не может говорить. Итак, врач держит смартфон и записывает, как пациент произносит короткую фразу. Приложение под названием SRAVI анализирует движения губ и примерно через две секунды возвращает свою интерпретацию: «Мне нужно отсосать».

Это кажется простым взаимодействием, и в некоторых отношениях SRAVI (приложение для распознавания речи для людей с ослабленным голосом) все еще довольно упрощено. Он может распознать только несколько десятков фраз, и делает это с точностью около 90 процентов. Но приложение, созданное ирландским стартапом Liopa, представляет собой огромный прорыв в области визуального распознавания речи (VSR), который включает в себя обучение искусственного интеллекта читать по губам без какого-либо аудиовхода. Скорее всего, это будет первое приложение ИИ для чтения по губам, доступное для публичной покупки.





Исследователи десятилетиями работали над обучением компьютеров чтению по губам, но это оказалось сложной задачей даже с учетом достижений в области систем глубокого обучения, которые помогли решить другие важные проблемы. В основе исследования лежит широкий спектр возможных коммерческих приложений - от инструментов наблюдения до приложений для бесшумной связи и улучшенной производительности виртуального помощника.

Liopa находится в процессе сертификации SRAVI как медицинского устройства класса I в Европе, и компания надеется завершить сертификацию к августу, что позволит ему начать продажи поставщикам медицинских услуг.

Хотя их намерения в отношении технологии неясны, многие технологические гиганты также работают над ИИ, читающим по губам. Ученые, связанные с Google, Huawei, Samsung и Sony или работающие на них напрямую, все исследуют системы VSR и, судя по интервью и обзору недавно опубликованных исследований и патентных заявок, проведенного компанией Motherboard, быстро продвигаются вперед. Компании либо не ответили, либо отказались от интервью для этой статьи.

По мере того как искусственный интеллект для чтения по губам становится жизнеспособным коммерческим продуктом, технологи и наблюдатели за конфиденциальностью все больше беспокоятся о том, как он будет разрабатываться и как его однажды можно будет развернуть. SRAVI, например, - не единственное приложение искусственного интеллекта для чтения по губам, над которым работает Liopa. Компания также находится на втором этапе проекта с британским оборонным исследовательским агентством по разработке инструмента, который позволил бы правоохранительным органам искать в немых видеозаписях с камер видеонаблюдения и определять, когда люди произносят определенные ключевые слова.

Компания Motorola Solutions, занимающаяся видеонаблюдением, имеет патент на систему чтения по губам, предназначенную для помощи полиции. Skylark Labs, стартап, основатель которого связан с Агентством перспективных исследовательских проектов Министерства обороны США (DARPA), сообщил Motherboard, что его система чтения по губам в настоящее время развернута в частных домах и государственной энергетической компании в Индии для выявления нецензурной лексики и ненормативной лексики. .

«Это одна из тех областей, с моей точки зрения, которая является хорошим примером того, что« то, что мы можем это сделать, не означает, что мы должны », - сказал Motherboard Фрейзер Сэмпсон, комиссар Великобритании по биометрии и камерам наблюдения. «Меня больше всего беспокоит в этой области не то, что технология может делать, а что не может, это будет леденящий душу эффект, когда люди верят, что она может делать то, что она говорит. Если это потом помешало им выступить публично, значит, мы находимся в гораздо большей области, чем просто конфиденциальность, и конфиденциальность достаточно велика ».


Появление ИИ для чтения по губам напоминает технологию распознавания лиц, которая была нишевой областью исследований в течение десятилетий, прежде чем она была тихо, но быстро коммерциализирована в качестве инструмента наблюдения, начиная с начала 2000-х годов.

Многие проблемы с распознаванием лиц стали достоянием общественности только в течение последних нескольких лет, во многом благодаря исследованиям и активности людей, которым это активно причиняло вред. В частности, знаменательная статья 2018 года, в которой Джой Буоламвини и Тимнит Гебру впервые показали, что распознавание лиц менее точное для женщин и цветных людей.

К тому времени, когда эти опасения вошли в общепринятый дискурс, распознавание лиц стало повсеместным в телефонах, в частных компаниях и камерах наблюдения, размещенных на углах улиц во многих американских городах. По крайней мере трое чернокожих были ложно арестованы из-за распознавания лиц - реальное число почти наверняка выше - и технология использовалась для отслеживания протестующих Black Lives Matter, среди множества других сомнительных целей. За последние два года и почти через 20 лет после первого крупного публичного внедрения технологии массовые кампании в более чем дюжине городов и штатов привели к запретам полиции и частного использования распознавания лиц.

Противодействие распознаванию лиц является символом движения, которое приводит к сдвигу в представлениях о том, как исследователи ИИ должны рассматривать будущее применение своих открытий. Например, престижная конференция NeurIPS потребовала от исследователей впервые в прошлом году представить заявления о том, как их результаты могут повлиять на общество, вместе с их статьями.

«Исследования - это потрясающе, но когда мы обнаруживаем, что определенная область знаний или исследований имеет разрушительные последствия, тогда, как исследователи, мы обязаны остановить их и внести изменения в политику», - Мередит Бруссард, автор книги «Искусственный неразум»: Как компьютеры неправильно понимают мир, рассказала Motherboard.

ИИ для чтения по губам все еще находится в зачаточном состоянии как коммерческая технология, но первоначальный акцент на слежке вызывает опасения, что наука развивается так быстро - и в некоторых случаях за закрытыми корпоративными дверями, - что последствия снова станут очевидными. поздно.

«Это правда, что наука вначале двигалась слишком быстро, но в прошлом году в опубликованной литературе есть несколько дискуссий, посвященных этическим соображениям для технологии VSR», - сказал Ставрос Петридис, который недавно начал работать в Facebook, но рассказал Motherboard о своем предыдущее исследование в Имперском колледже Лондона. «Учитывая, что доступных коммерческих приложений еще нет, есть довольно хорошие шансы, что на этот раз этические соображения будут приняты во внимание, прежде чем эта технология будет полностью коммерциализирована».

Родриго Мира, докторант Имперского колледжа Лондона (одна из ведущих групп, изучающих ИИ, читающий по губам), сказал Motherboard, что он и его коллеги «знают, что наша область противоречива». Он сравнил работу группы с тестированием на проникновение - практикой кибербезопасности по поиску уязвимостей в компьютерных системах для их устранения. Другими словами, исследование позволяет академическим учреждениям, связанным кодексами этики, открывать новые технологии до того, как они будут использованы злоумышленниками, такими как преступники.





«Главное в искусственном интеллекте - это то, что людям нужно постоянно говорить о политике», - сказала Мира. «Дело не в том, должны ли мы прекратить исследования, а в том, что у нас есть возможность понять, что говорят люди, просто взглянув на них. Для чего его использовать? Способ остановить [неэтичное использование технологии] - не закрыть Имперский колледж. Чтобы справиться с этим, нужно рассматривать это как политический вопрос ».

Специалисты по этике ИИ согласны с тем, что своевременное и надежное государственное регулирование технологий биометрического наблюдения, таких как распознавание лиц и ИИ для чтения по губам, необходимо для предотвращения дискриминации и вреда, но до сих пор многие правительства не приняли адекватных законов. Вот почему исследователи несут ответственность не только за рассмотрение возможных последствий, но и за активное включение групп людей, которым технология может нанести наибольший ущерб, в свои процессы принятия решений.

Пока эксперты говорят, что эти соображения не учитываются для систем визуального распознавания речи.

«Речь идет об активном создании технологии, которую можно использовать во вредных целях, а не об обнаружении и устранении уязвимостей в существующих технологиях», - сказала Motherboard Сара Майерс Уэст, исследователь из AI Now Institute. «Исследователи не всегда могут делать эти оценки самостоятельно. Вот почему так важно вовлекать сообщества, которые будут затронуты их исследованиями, на протяжении всего процесса, чтобы предвидеть и смягчать потенциально вредное вторичное использование.

Генеральный директор Liopa Лиам МакКуиллан сказал Motherboard, что компании осталось как минимум год до создания системы, которая могла бы удовлетворительно читать по губам ключевые слова из беззвучных кадров видеонаблюдения - проект, который финансируется British Defense and Security Accelerator - и что компания рассмотрела возможность нарушения конфиденциальности. «Здесь могут быть проблемы, которые фактически запрещают использование этой технологии в конечном итоге. ... Мы, конечно, не делаем ставки на Liopa на этот вариант использования, но она предоставляет финансирование ».

МакКуиллан также сказал, что компания активно стремится устранить потенциал расовой или гендерной предвзятости, обучая свои алгоритмы на данных, собранных из разнообразного набора клипов YouTube, волонтеров, которые предлагают размещать видео через приложение для сбора данных, и компании, которая курирует наборы данных. специально разработан для людей разных рас и национальностей. Компания еще не опубликовала никаких исследований о том, как ее системы работают в демографических группах.

Компания Motherboard действительно нашла одну компанию, которая утверждает, что активно продает системы искусственного интеллекта для чтения по губам, и полностью охватила рынок видеонаблюдения. Амарджот Сингх, основатель и генеральный директор Skylark Labs, сказал Motherboard, что компания изначально представила свой технологический пакет, который также включает в себя алгоритмы распознавания лиц и насилия и обнаружения оружия, полицейским агентствам Индии. Но компания не нашла аппетита к функции чтения по губам из-за проблем, связанных с ее развертыванием в людных общественных местах.

С тех пор Skylark переключился на другое использование. Сингх сказал, что технология искусственного интеллекта для чтения по губам компании в настоящее время апробируется государственной корпорацией Punjab State Power Corporation Limited, контролируемой правительством, для выявления случаев домогательства сотрудников друг к другу. По его словам, несколько человек также приобрели технологию для наблюдения за своими нянями.

Skylark говорит, что его ИИ для чтения по губам может обнаруживать около 50 различных слов, связанных с проклятиями, оскорблениями и насилием. По сообщениям местных СМИ, Сингх опубликовал исследование об обнаружении насилия и распознавании лиц, а индийская полиция использовала дроны Skylark для обеспечения социального дистанцирования. Но ни Сингх, ни компания не опубликовали никаких исследований искусственного интеллекта для чтения по губам.

Компания Motherboard связалась с Punjab State Power Corporation Limited, и, по словам Сингха, человек использует эту технологию дома, но не получил ответа до публикации.

«Мы делаем это в условиях дикой природы и пытаемся решить варианты использования, которые имеют прямое отношение к безопасности людей», - сказал Сингх. «Я думаю, что в этом есть заслуга, поскольку дизайнер может контролировать слова, которые система должна отмечать, так что я думаю, что это все еще в порядке. Риск здесь состоит в том, что как только вы начнете откалибровать системы, чтобы улавливать повседневную речь в дикой природе, это станет очень опасным [этически] ».


Исследователи и руководители компаний, опрошенные для этой истории, сказали Motherboard, что пройдут годы, прежде чем искусственный интеллект для чтения по губам станет достаточно продвинутым, чтобы интерпретировать полные разговоры, если это вообще произойдет.

Задача невероятно сложная - даже опытные люди, читающие по губам, на самом деле довольно плохо понимают слово в слово. В 2018 году дочерняя компания Google Deepmind опубликовала исследование, в котором была представлена ​​новейшая система чтения по губам с полным предложением. ИИ достиг 41 процента ошибок в словах (процента ошибочных слов) в видеороликах, содержащих полные предложения. Читатели, читающие по губам человека, просматривающие подобный образец видеоклипов, имели процент ошибок слов в 93 процента, когда не было никакого контекста по теме, и 86 процентов, когда были указаны заголовок видео, тематическая категория и несколько слов в предложении. Это исследование проводилось с использованием большого специально подобранного набора данных.

Группа Имперского колледжа Лондона в этом месяце представила доклад, в котором описывается система чтения по губам с полным предложением, обученная на небольшом общедоступном наборе данных из 400 часов видео, который может достичь коэффициента ошибок в словах всего 37,9 процента.

Когда дело доходит до чтения по губам с одним ключевым словом - такого инструмента, который используют Liopa и Skylark Labs, - точность намного выше, и только за последний год она значительно улучшилась. В 2017 году наивысшая точность, полученная при тестировании набора данных Lip Reading in the Wild, составила 83 процента. Этот зенит оставался практически неизменным до 2020 года, когда несколько групп в быстрой последовательности доказали, что могут достигать 83-процентной точности. Согласно докладу, опубликованному в этом месяце, рекорд в настоящее время составляет 88,5% точности, достигнутый группой Imperial College London в партнерстве с Samsung.

Однако трудно понять, что такое настоящая вершина. Deepmind, который многие эксперты до сих пор считают ведущим игроком в этой области, не публиковал никаких дальнейших исследований своей программы чтения по губам с момента публикации статьи 2018 года, и компания отказалась обсуждать это направление работы.

Многие исследователи, с которыми беседовала Motherboard, не решались строить предположения о том, что крупные технологические компании намерены делать с этой новой технологией, или где и когда она начнет оказывать заметное влияние на широкую публику.

«Одна из вещей, которые показали нам последние 10 лет в области искусственного интеллекта и [машинного обучения], - это невозможность сколько-нибудь значимого предсказания будущего», - сказала Мира. «Но недооценивать вещи действительно неразумно»."


https://www.vice.com/en/article/bvzvdw/tech-companies-are-training-ai-to-read-your-lips?utm_source=reddit.com
Tags: Цифровой концлагерь
Subscribe

Recent Posts from This Journal

Buy for 10 tokens
Buy promo for minimal price.
  • Post a new comment

    Error

    default userpic
    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 1 comment