Первое десятилетие дополненной реальности

В феврале 2006 года Джефф Хан на конференции TED показал экспериментальный интерфейс «мультитач» — см. прикрепленное ниже видео. Сегодня показанное им кажется довольно банальным, ведь это умеет любой 50-долларовый «андроид»! Тем не менее зрители — а это в основном вполне подкованные в современных технологиях люди — восхищенно аплодируют: банальное сегодня раньше казалось удивительным. А год спустя Apple представила iPhone — и мультитач начал завоевывать технологическую отрасль.

Оригинал: http://ben-evans.com/benedictevans/2017/4/10/the-first-decade-of-augmented-reality

Переведено в Alconost

Оглядываясь на десятилетие назад, можно заметить, что технология эта прошла четыре этапа. Сначала идеей «мультитач» заинтересовались в исследовательских лабораториях; затем были первые публичные демонстрации того, что это действительно можно реализовать; далее — появился первый по-настоящему жизнеспособный потребительский продукт — iPhone; наконец, несколько лет спустя продажи резко пошли вверх — с развитием детища Apple и шедшими следом Android-смартфонами. На следующем графике можно увидеть некоторую задержку: после того как в 2007 году представили первый iPhone, прошло несколько лет, прежде чем продажи взлетели (задержка есть даже после изменения модели ценообразования). Большинство революционных технологий именно так и входят в нашу жизнь — поэтапно: редко можно увидеть, чтобы что-то внезапно возникло в полностью сформированном виде. В те годы одновременно существовали и другие подходы, которые оказались ошибочными, например Symbian на западе и iMode и другие — в Японии.

Сегодня мне кажется, что дополненная реальность* находится где-то на втором этапе: мы видели отличные демонстрации и первые прототипы, массового коммерческого продукта нет, но ждать уже недолго.

И вот Microsoft начинает поставки Hololens: вычисления проводятся в самой гарнитуре (из-за чего устройство стало громоздким), очень хорошее отслеживание положения, однако совсем небольшое поле зрения (гораздо меньше, чем можно предположить по маркетинговым видео от Microsoft) — и стоит эта штука 3000 долларов. Вторую версию запланировано выпустить, по-видимому, где-то в 2019 году. Очевидно, и Apple работает над чем-то подобным — судя по публичной информации об открывающихся вакансиях и приобретениях, а также по комментариям генерального директора (подозреваю, здесь будут применимы наработки по миниатюризации, снижению энергопотреблению и совершенствованию беспроводной связи, сделанные для Apple Watch и AirPods). Может быть, что-то еще предложит Google или, возможно, Facebook, Amazon… Интересная работа идет в ряде меньших компаний и стартапов.

Тем временем Magic Leap (в которую вложились a16z) разрабатывает собственный носимый продукт и выпустила несколько видео, в которых показывает, что уже сейчас умеет такое устройство. Ниже прикреплено одно из таких видео: в нем всё классно, однако как между просмотром видео про iPhone и использованием этого смартфона есть огромная разница, так и посмотреть видео о дополненной реальности — совсем не то же самое, что носить такие гаджеты, пользоваться ими на ходу и наблюдать, как прямо перед глазами появляются всякие штуки. Я пробовал — надо сказать, это и правда неплохо.

В итоге получается, что если сегодня мы на этапе, условно говоря, Джеффа Хана, то недалеко уже и до этапа «iPhone 1», а затем — за десятилетие или около того — мы сможем перейти к действительно массовому продукту.

Как это будет выглядеть для массового пользователя?

Первый уровень дополненной реальности — то, что показали очки Google Glass: экран помещает в поле зрения картинку, которая никак не связана с окружением. По своей сути Google Glass напоминают смарт-часы, разве что взгляд нужно направлять вверх и вправо, а не вниз и влево. У вас появлялся новый экран, который, однако, понятия не имел о том, что находилось перед вами в реальном мире. Впрочем, более продвинутая технология позволила бы расширить возможности — чтобы поле зрения стало сферой, на которой отображались бы висящие в пространстве окна, 3D-объекты и прочее.

При этом устройства «истинной» дополненной реальности, или «смешанной реальности», начинают понемногу понимать окружающее пользователя пространство и могут размещать предметы в поле зрения таким образом, что, отбросив недоверие, можно представить, что они действительно находятся в настоящем мире. В отличие от Google Glass, такая гарнитура будет строить отображение трехмерного пространства вокруг и постоянно отслеживать положение головы. Это позволит повесить на стену «виртуальный телевизор» — и он останется там, даже если вертеть головой и двигаться. Можно превратить в дисплей и стену целиком. А еще можно разместить на журнальном столике Minecraft (или Populous) и собственными руками двигать горы — как если бы они были из глины. Кроме того, если у других будут такие же очки, они смогут видеть то же, что и вы, а это позволит превратить в дисплей стену или стол для конференций и работать с ними сразу всей командой. А можно вместе с детьми поиграть в бога на карте Minecraft. Или спрятать того маленького робота из видео за диваном или в таком месте, где его смогут найти дети. (Понятно, что частично такое применение перекрывается с виртуальной реальностью, особенно когда речь идет о добавлении внешних камер.) В этом случае смешанная реальность представляется в виде экрана — как возможность превратить весь мир вокруг в бесконечных размеров экран.

Однако так мы остаемся в рамках задачи одновременной локализации и картирования — строим отображение трехмерных поверхностей помещения, но не понимаем, что они собой представляют. А теперь предположим, что я встречаю вас на мероприятии по налаживанию контактов, и у вас над головой появляется карточка профиля LinkedIn, или заметка от Salesforce, в которой указано, что вы — ключевой потенциальный клиент, или примечание от Truecaller о том, что вы попытаетесь впихнуть мне страховку и смыться. Можно и просто «блокировать» людей — как в сериале «Черное зеркало». Иными словами, блок видеодатчиков в таких очках не только представляет объекты вокруг как поверхности, но и распознает их. Это и есть настоящее дополнение реальности — когда картинка отображается не просто «параллельно» реальному миру, но как часть его. Такие очки будут и показывать то, что можно увидеть на смартфоне или 2000-дюймовом экране, и смогут внедрить изображение в реальность — и изменить ее. Итак, с одной стороны, можно обогатить (или захламить) весь мир и превратить все в экран, а с другой стороны, можно добавлять в реальный мир незаметные подсказки или изменения — и не просто перевести все надписи на незнакомом языке, а даже исправить «американский английский» на нормальный английский. Если сегодня можно установить расширение для браузера Chrome, заменяющее все картинки на фото Николаса Кейджа, что же будет, когда появятся расширения для смешанной реальности? Как насчет того, чтобы заставить начальника блевать радугой? (В конце концов, развлечение — это основная поставленная перед этой технологией задача.)

Если такие очки станут достаточно миниатюрными, будут ли их носить весь день, не снимая? Если нет, многие способы использования с бо́льшим «погружением» не сработают. Можно использовать «постоянно включенное» устройство (часы или телефон) в сочетании с очками, которые надеваются в определенных случаях — как очки для чтения. Это помогло бы решить некоторые вопросы социального взаимодействия, с которыми пришлось столкнуться очкам Google Glass: вынимая телефон, глядя на часы или надевая пару очков, вы будете давать четкий и понятный сигнал, которого ношение Google Glass в баре не дает.

Сольются ли дополненная реальность и виртуальная реальность?

Это, безусловно, возможно, поскольку обе технологии решают похожие вопросы и сталкиваются с похожими техническими задачами. И одна из таких задач — поместить пользователя в другой мир: ВР для этого «убирает» остальной мир, поэтому очки должны быть полностью закрыты по краям, а дополненная реальность в таком решении не нуждается. При этом основная цель дополненной реальности заключается в том, чтобы оставить реальный мир видимым и закрыть ненужное (и это, наверное, не очень хорошо при ярком солнечном свете) — ВР же начинает с черного экрана. Одевая очки дополненной реальности, вы не теряете зрительный контакт с людьми вокруг. Так что сегодня, похоже, это два различных технологических пути — хотя за десяток-другой лет многое может измениться. В конце 90-х много спорили о том, как будут выглядеть устройства «мобильного интернета»: как отдельный блок радиосвязи с экраном, с наушником или, возможно, клавиатурой — или как «раскладушка» с клавиатурой и экраном… Мы искали форм-фактор, и чтобы прийти к решению в виде моноблока, понадобилось ждать до 2007 года (и даже больше). Подобный же поиск решения может идти сейчас и в технологиях дополненной и виртуальной реальности.

Есть и другие вопросы: например, как управлять не имеющими физического воплощения предметами и взаимодействовать с ними? Нужны ли физические контроллеры или хватит самой ВР? Достаточно ли будет отслеживания рук (учитывая, что пользователь не видит собственных пальцев)? Мультитач в смартфонах дает непосредственное физическое взаимодействие: мы прикасаемся к нужному объекту на экране, вместо того, чтобы перетаскивать мышь в паре десятков сантиметров от него. Но можно ли коснуться объектов дополненной реальности, которые парят в воздухе? Удобно ли будет пользоваться такой моделью интерфейса постоянно? Magic Leap, безусловно, может создать ощущение глубины, чтобы вы поверили, что можете касаться предметов — но нужен ли такой интерфейс, если рука проходит сквозь эти кажущиеся твердыми предметы? Вместо этого можно использовать голосовое управление — и здесь тоже вопросы: насколько будут ограничены возможности такого взаимодействия? (Даже если речь будет распознаваться качественно, просто представьте, как вы пытаетесь полностью управлять телефоном или ПК посредством голосовых команд.) Или ключевым элементом интерфейса окажется отслеживание движения глаз: если очки умеют отслеживать радужную оболочку, то чтобы выбрать нужный объект, достаточно будет посмотреть на него и дотронуться, например, до часов. Понятно, что такие же вопросы решались и для смартфонов, и — еще раньше — для персональных компьютеров (форм-фактор, например). В случае дополненной реальности ответы на них сегодня не очевидны (как в 1990 году для ПК или в 2000 году для смартфонов), — да и сами вопросы не совсем те же.

Мне кажется, что чем больше изучаешь способы размещения объектов и данных дополненной реальности в окружающем мире, тем становится очевиднее, что это настолько же вопрос искусственного интеллекта, насколько и вопрос физического интерфейса. Что нужно мне показывать, когда я подхожу конкретно к вам? LinkedIn или Tinder? И когда показывать: сейчас или позже? Придется ли, стоя перед рестораном, говорить «Эй, Foursquare, это хорошее место?» — или операционная система устройства сделает запрос автоматически? Посредством чего реализовать такую функциональность: в самой ОС, с помощью добавляемых пользователем сервисов или единым облачным «гугломозгом» Google Brain? У компаний Google, Apple, Microsoft и Magic Leap в этом отношении может быть разная философия, но мне кажется, что многие из таких функций должны быть автоматическими и работать с помощью ИИ — только тогда они найдут применение.

Если вспомнить слова Эрика Рэймонда о том, что машина не должна спрашивать то, что она должна уметь вычислить, то в течение следующего десятилетия развития машинного обучения компьютер, который может видеть все, что видите вы, и знать, на что вы смотрите, сможет сделать неактуальными целые пласты вопросов, с которыми нам сегодня приходится иметь дело самостоятельно. Так, когда мы перешли с модели пользовательских интерфейсов в виде окон, клавиатуры и мыши на сенсорное управление и прямое взаимодействие со смартфонами, исчез целый пласт вопросов — изменился уровень абстракции. Смартфон не спрашивает, где сохранять фото, или где вы находитесь, когда заказываете такси, или какое приложение электронной почты использовать, и даже не спрашивает пароль (а использует сканер отпечатков пальцев) — он устраняет эти вопросы (а также соответствующий выбор). Дополненная реальность должна стать еще одним шагом в этом направлении: она представляет собой нечто много большее, чем просто размещение смартфонных приложений в квадратных окошках перед глазами пользователя. Snapchat работает не так, как ПК-версия сайта Facebook, и когда появится вездесущий и неосязаемый интерфейс, опирающийся на ИИ, это изменит все — в который уже раз.

А пока чем больше очки дополненной реальности пытаются понять мир вокруг вас (и вас самих), тем больше они видят — и частично отправляют увиденное на несметное число разных облачных сервисов, в зависимости от контекста, сценария использования и модели приложения. Вы разговариваете с кем-то лицом к лицу — очки отправляют изображение (или сжатое описание лица — да, тут требования к скорости интернет-подключения серьезно увеличиваются) на Salesforce, LinkedIn, Facebook, в Truecaller и Tinder. Рассматриваете пару ботинок? — Pinterest, Amazon и, скажем, Яндекс.Маркет. Ну или просто все отправится в Google. А если на совещании всем жутко скучно — почему бы не отметить это на корпоративном HR-портале SuccessFactors? Такой подход создает некоторые вполне очевидные проблемы конфиденциальности и безопасности. В предыдущей статье я предположил, что из-за большого числа автономных автомобилей, постоянно снимающих панорамное HD-видео, города превратятся в огромные паноптикумы. А что, если все вокруг будут носить очки дополненной реальности — мыслимо ли будет скрыться от органов правопорядка? А если вас взломают? Когда хакнут «умный дом», появится полтергейст, а если взломают очки дополненной реальности — начнутся галлюцинации.

Наконец, довольно важный вопрос: многие ли будут пользоваться такими очками? Станет ли дополненная реальность одним из аксессуаров для мобильных телефонов (как, например, смарт-часы)? Или даже в самых захудалых городишках Бразилии и Индонезии магазины, продающие сегодня «андроиды», начнут продавать десятки самых разных 50-долларовых китайских очков дополненной реальности? (И сколько к тому времени будет стоить Интернет?) Опять же, говорить об этом пока рано. Но есть еще один практический вопрос из конца девяностых — начала нулевых: будут ли у всех однотипные мобильные устройства передачи данных — или же кто-то будет пользоваться чем-то аналогичным сегодняшним смартфонам, а у большинства будет что-то вроде «обычной звонилки» (вплоть до простых устройств без камеры и даже цветного экрана). Если оглянуться назад, это напоминает споры о том, появятся ли ПК в каждом доме, или кто-то все же останется на «железных» текстовых процессорах. Закономерности масштабирования и неспециализированность вычислений привели к тому, что сначала ПК, а затем и смартфоны стали единым универсальным устройством: сегодня мобильные телефоны есть у 5 млрд человек, смартфоны — у 2,5–3 млрд. Понятно, что остальные в основном последуют этой тенденции. Итак, останется ли большинство на смартфонах и лишь некоторые (100 миллионов? 500? миллиард?) начнут использовать очки как аксессуар — или это все же новое универсальное устройство? Любой ответ на этот вопрос сегодня — не более чем догадки: анализ пока невозможен. Но стоит помнить: в 1995 году говорили, что телефон будет у каждого на земле.

*Что, собственно, означает термин «дополненная реальность»? Часто так называют и игры вроде Pokemon Go, и линзы мессенджера Snapchat (и даже, например, голосовые путеводители по музеям, использующие местоположение), но в этой статье я говорю исключительно о надеваемых по принципу очков устройствах, через которые нужно смотреть и которые накладывают изображение на реальный мир. Где-то здесь есть место и термину «смешанная реальность», но для моих целей достаточно понятия «дополненная реальность».

Хотите применять AR в FunTech? Писылайте заявки на https://funcubator.co.

О переводчике

Перевод статьи выполнен в Alconost.

Alconost занимается локализацией приложений, игр и сайтов на 68 языков. Переводчики-носители языка, лингвистическое тестирование, облачная платформа с API, непрерывная локализация, менеджеры проектов 24/7, любые форматы строковых ресурсов, перевод технических текстов.

Мы также делаем рекламные и обучающие видеоролики — для сайтов, продающие, имиджевые, рекламные, обучающие, тизеры, эксплейнеры, трейлеры для Google Play и App Store.

Подробнее: https://alconost.com