Общение с компьютерами и искусственным интеллектом началось задолго до появления современных голосовых помощников. Раньше взаимодействие с машинами было куда более сложным и ограниченным, но оно уже тогда привлекало людей своим особым шармом. Человечество постоянно стремилось сделать искусственный интеллект более понятным и отзывчивым к человеческой речи и командам. Давайте посмотрим, как развивалась эта связь и чего ожидать в будущем.
Двоичный код и командная строка
Первоначально общение с машинами было односторонним процессом: человек вводил данные, а компьютер выполнял расчеты. С появлением первых программных оболочек и расширением функций компьютеров возникли более продвинутые способы ввода, которые сохраняются и сегодня. Например, командная строка или терминал, который до сих пор доступен на любом компьютере. Это черное окно, в которое пользователи вводили команды, и если что-то шло не так, компьютер выдавал ошибку.
Эту форму общения трудно назвать диалогом. Однако стремление к созданию более человекоподобного общения с машинами не прекращалось, и инженеры продолжали развивать интерфейсы.
Когда компьютеры начали отвечать
Первые попытки создать диалог с компьютером появились уже в 1960-х годах. Одной из первых подобных систем стала ELIZA — программа, разработанная как диалоговая система-психоаналитик. Принцип работы ELIZA заключался в том, что пользователь вводил фразу, например, «У меня болит голова», а ELIZA анализировала ее, выделяя ключевые слова и перефразируя их в ответный вопрос вроде «Почему у вас болит голова?». Если ключевые слова не распознавались, программа использовала заранее подготовленные ответы.
ELIZA не предназначалась для замены психологов, но позволяла разработчикам наблюдать за тем, как искусственный интеллект может обрабатывать и структурировать информацию для диалога. Несмотря на то что ELIZA не прошла тест Тьюринга и быстро распознавалась как машина, она вызвала огромный интерес в своем время.
С развитием персональных компьютеров в 1970-х годах общение с машинами стало более привычным. Компьютеры могли приветствовать пользователя, сообщать об ошибках и выполнять простые команды. Принципы, заложенные в ELIZA, нашли применение в чат-ботах и современных голосовых помощниках, которые сейчас используются на таких платформах, как Telegram, AliExpress и «Яндекс.Алиса», с тысячами возможных ответов, записанных в их системах.
Первый жест, первый взгляд
Следующим этапом взаимодействия между человеком и компьютером стало общение через жесты, чему способствовало развитие сенсорных технологий начиная с 1972 года. В то время основные движения при использовании жестов еще были схожи с клавиатурными командами. Современное же управление жестами стало возможным благодаря игровым технологиям и сенсорам для захвата движений, а также развитию смартфонов. Мы привыкли связывать управление жестами со смартфонами последних поколений с безрамочными экранами и минимальным количеством кнопок. Однако стоит вспомнить первые шаги смартфонов, когда такие простые жесты, как смахивание, свайп или увеличение изображения двумя пальцами, казались чем-то удивительным.
Хотя управление жестами уже укрепилось как способ взаимодействия, оно остается достаточно молодым и требует доработок для большей эффективности. Этот способ коммуникации нуждается в высокой точности и быстром отклике устройства. Если экран зависает, нетерпеливый пользователь начинает нервничать и даже прибегает к «лечебному встряхиванию» устройства.
Общение голосом
Голос является самым естественным средством общения для человека, которым мы пользуемся на протяжении тысячелетий. В основе технологии распознавания речи лежит естественно-языковой интерфейс (NLP), который преобразует наши голосовые команды в понятные для машин сигналы. Совершенный NLP сможет учитывать не только слова, но и громкость, интонацию и другие факторы, чтобы точнее интерпретировать наши намерения.
Тем не менее, перед разработчиками стоит еще немало задач. Как отмечает исследователь компьютерных систем Шивали Гоэль, работающий с SYSTRAN и Adobe, ИИ до сих пор может ошибаться при выборе нужного ответа, особенно в телефонных диалогах. А пользователи не склонны терпеливо ждать, пока робот озвучит подготовленную фразу, когда задача могла бы решиться быстрее.
Наиболее успешные технологии, такие как Google Duplex, могут полностью имитировать человеческий голос, например, для назначения встреч. Также голосовые помощники, такие как «Алиса» и Siri, обладают функциями, позволяющими вести диалоги с оттенком сарказма или юмора. Некоторые модели роботов-пылесосов могут быть настроены на общение в стиле «злобного робота», что доставляет радость их владельцам.
Многие исследователи считают, что за голосовыми технологиями — будущее. Пандемия показала, что люди нередко используют голосовых помощников просто как собеседников. Однако создание полноценного диалогового робота, который был бы близок к человеку, до сих пор остается вызовом, подобным проблемам, с которыми столкнулась ELIZA в свое время. Современные технологии нередко сталкиваются с эффектом «зловещей долины»: слишком механичный голос вызывает недоверие, а слишком человекоподобный — неприязнь из-за заметных мелких несоответствий. Возникает ощущение, что машина притворяется.
Важно помнить, что мы опасаемся не самих машин, а потери контроля над ними. Настоящая свобода воли возможна лишь при наличии сознания, а его природа остается загадкой для человечества. Пока машины не обретут полноценного сознания, как у человека, им не грозит самостоятельность или замыслы против человечества.
Обсуждение