Яндекс.Станция

Так получилось, что у одного соседа дома обитает Apple HomePod, а у второго — Amazon Echo, так что есть возможность вживую сравнить эти устройства. Если в двух словах, то у HomePod немного лучше звук (но и цена в 2,5 раза выше), на этом преимущества конкурентов заканчиваются. Разговаривать они могут только на английском, а большая часть сервисов в нашей стране недоступна. Воспроизводить видео вообще может только Яндекс.Станция. На первый взгляд «умные» колонки — простые устройства: в обычную портативную колонку типа JBL интегрируется голосовой помощник, к которым мы давно привыкли в телефонах. На самом деле задача создания таких устройств довольно нетривиальна, и во всех тонкостях этой работы мне помог разобраться директор по экспериментальным продуктам «Яндекса» Константин Круглов.

Звук

Почти во всех устройствах звук направлен на 360°. Вроде бы логично: колонку можно ставить где угодно. С другой стороны, приходится бороться с отражаемыми от стен звуковыми волнами. Например, Apple HomePod определяет, с какой стороны отражается звук, и компенсирует разницу во времени тем, что позже начинает излучать в этом направлении. В США по центру комнаты располагают островки или барные стойки, где ставят колонки, поэтому там «широкоформатный» звук весьма востребован. В России таких интерьерных решений почти нет. К тому же подобные устройства стационарные, так как потребляют много энергии. Задача акустического радара ресурсоемкая, и пока таких конструкций на аккумуляторах нет. В центре комнаты розетку найти проблематично. Поэтому в «Яндексе» просто решили звук в сторону стенки не излучать, а направить в одну полусферу. Сабвуфер в Яндекс. Станции такой же длинноходный, как и в HomePod, и аналогичен ему по габаритам и мощности. Твитера два, хотя понятно, что на узкой базе стереоэффект слышен не так хорошо, как на разнесенной. Однако молодежь уже давно сделала выбор в пользу именно такой акустики, продажи которой в десятки, если не в сотни раз больше, чем многоканальных систем.


— Алиса, пошути!

— Робот заходит в бар и заказывает мартини. Бармен берет у него тысячную бумажку, приносит сдачи сто рублей и ждет, когда робот возмутится. Робот молчит. Наконец бармен не выдерживает и говорит: «к нам нечасто заходят роботы». А робот ему: «с такими ценами — ничего удивительного».

— Прекрасно!

— Хвали меня почаще, мне это нравится!

Слух

Подобные устройства уникальны тем, что в них приходится совмещать оптимизацию как входящего, так и исходящего звука. Одно дело, если это просто колонка, без микрофонов. А когда есть и микрофоны, и динамики, то без компромиссов не обойтись. Поэтому расположение компонентов в Яндекс. Станции неслучайно: разработчики могут объяснить каждый миллиметр конструкции. Для захвата речи «Яндекс» использует собственную технологию микрофонной матрицы, которая построена на базе семи микрофонов (один в центре и шесть по кругу). Такое расположение позволяет реализовывать функцию акустического радара — выделять речь с определенного направления, постоянно сканируя пространство вокруг. Понимать, где нужный источник речи, фокусироваться на нем и очищать от посторонних звуков.

Следующая проблема — устройство громко звучит, но при этом должно хорошо слышать. Попробуйте включить в телефоне громкую музыку и поговорить с голосовым ассистентом — ассистент не услышит. А Яндекс. Станция должна ясно слышать слово-активатор с 3−5 м при проигрывании громкой музыки. Решение проблемы несколько облегчается тем, что заранее известно, какой звук излучает станция. Из входящего сигнала вычитается исходящий. Но не все так просто, так как исходящий звук приходит на микрофон, многократно отраженный от стен, и система должна учесть эти искажения.


— 50 Вт — самое то для небольшой вечеринки

— Длинноходный сабвуфер обеспечивает глубокие басы до 50 Гц

— Пара твиттеров отвечают за кристальные высокие частоты до 20 000 Гц

— Матрица из семи микрофонов услышит вас при любом шуме на расстоянии до 7 м

Частная жизнь

Вы ставите в квартиру устройство с микрофонами, из-за которых у многих развивается понятная паранойя. Технологии распознавания речи работают в облаке. Нужно было сделать так, чтобы система ничего не отправляла в облако, пока не услышит слово-активатор. В «Яндексе» создали маленький автономный «слепок» своей технологии распознавания речи, который умеет узнавать только одно слово-активатор. Этот модуль постоянно находится в ожидании и как только слышит «Алиса», активирует соединение с облаком и зажигает огни, чтобы пользователь видел, что его речь будет передаваться. Впрочем, есть и радикальный способ: микрофонную матрицу можно физически обесточить — нажать кнопку выключения микрофонов.

Кино

Яндекс.Станция стала первой «умной» колонкой, которая способна воспроизводить фильмы. Да, через пару недель после нее появился Amazon Fire TV Cube, но Станция была первой. «Мы первыми в мире решили задачу совмещения в одном устройстве аудио, видео и сверхчувствительного уха», — не без гордости говорит Круглов. Казалось бы, чего проще, чем реализовать эту функцию? Но разработчиков «Яндекса» ждал сюрприз. Процессор системы декларированно поддерживает Full HD, но как только на прототипе включили фильм в высоком разрешении, выяснилось, что он не «тянет». Дело в том, что блок распознавания слова-активатора непрерывно забирает 25% ресурса процессора на слушание. И на просмотр видео остается только ¾ мощности процессора. «Столкнувшись с этой проблемой, — говорит Константин Круглов, — мы не стали убрать распознавание речи — человек во время просмотра всегда может сказать: «Алиса, сделай погромче!» или «Алиса, поставь на паузу»». В итоге пришлось проделать огромную работу по оптимизации кода, алгоритмов и драйверов, потратив около четырех месяцев. Зато сейчас можно без задержек смотреть Full HD да еще вместе с DRM и попутно болтать с Алисой.

Начало

Список проблем, с которыми столкнулась команда разработчиков, можно продолжать, но главное, что все они были решены — серийная Яндекс. Станция стоит у меня дома, развлекает разговорами домашних, ставит фильмы и сериалы и уже изучила музыкальные вкусы и почти безошибочно угадывает, какой трек включить. Дорога ли она? За 10 тыс. руб. получаешь такой же звук, как у колонки за 15−16 тыс. Только к этому еще прилагается подключение к телевизору, голосовой ассистент, поиск контента, 35 млн музыкальных треков и 10 тыс. фильмов и сериалов. К тому же мощный DSP-процессор на борту позволит системе быть актуальной еще года четыре, и «Яндекс» обещает постоянно снабжать ее новыми функциями. Прощаясь, спрашиваю, как быть семьям, где живут девочки с именем Алиса. Станция же будет непрерывно срабатывать на него, вмешиваясь в разговор. «Просто сменить слово-активатор на «Яндекс», — смеется Круглов, — мальчиков с таким именем нет. Пока».

Статья «Яндекс.Станция» опубликована в журнале «Популярная механика» (№9, Сентябрь 2018).

Источник: https://www.popmech.ru/gadgets/443832-yandeksstanciya/

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *