РБК Life теперь можно не только читать, но и слушать

. Рассказываем, как работает наша новая функция от платформы SaluteSpeech
Обновлено 10 декабря 2024, 10:55
Unsplash
Фото: Unsplash

Возможности нейросетевых моделей не перестают удивлять: ИИ научился писать тексты, рисовать иллюстрации, развернуто отвечать на вопросы, делать суммаризацию из огромных массивов данных и многое другое. Некоторые нейросети даже умеют не хуже людей передавать интонацию или распознавать смыслы слов, которые могут иметь двойное значение. Ну а насколько хорошо это у них получается, вы можете проверить прямо сейчас на сайте РБК Life.

Слушайте, если неудобно читать

Постоянные пользователи нашего сайта уже заметили, что чуть ниже заголовка статей появилась кнопка «Слушать». Это отличный способ ознакомиться с текстовой информацией в аудиоформате — удобно, если вы, к примеру, едете в автомобиле и вам нельзя отвлекаться на чтение. Озвучивает наши материалы, конечно, нейросеть. Но первой попавшейся мы такое важное дело не доверили бы — существующие платформы прошли «кастинг», после которого выбор был сделан в пользу SaluteSpeech от «Сбера». После долгой и тщательной проверки сервис запустили, и теперь озвучку можно слушать на любом устройстве, будь то ПК, ноутбук, планшет или смартфон. Функция работает месяц после публикации материала.

Модель потребления новостного контента в Рунете продолжает быстро меняться, аудитория становится все более требовательной к форме подачи. Возможность озвучивания новостей — это дополнительный инструмент привлечения новых пользователей, которым прослушать новость удобнее, чем ее прочитать.

Что такого особенного в SaluteSpeech? Эта платформа не просто зачитывает текст, а еще и разбирается в смыслах и правильно их транслирует.

«SaluteSpeech понимает, что «ул.» в тексте — это «улица». А «елка» — это «ёлка». А еще платформа корректно реагирует на знаки препинания: делает паузу, если стоит запятая, или меняет интонацию, если встречает предложение с восклицательным знаком. И уж точно знает, где именно делать ударения в словах. В итоге речь максимально похожа на человеческую, как если бы текст зачитывал живой диктор», — рассказала Светлана Сафронова, исполнительный директор, начальник управления по b2b-коммуникациям SberDevices.

Каждый голос — уникальный

Мы выбрали, каким именно голосом будут озвучены наши новости. Это стало возможно благодаря услуге SaluteSpeech YourVoice, которая включает в себя готовый каталог из 80 мужских, женских и даже детских голосов. После того как компания выбирает для себя голос, он исчезает из каталога и в дальнейшем ассоциируется только с ее бизнесом. Для тех, кто не может выбрать из этого изобилия, YourVoice позволяет всего за месяц создать новый голос. Допустим, у компании есть амбассадор-селебрити и ей хотелось бы, чтобы именно он озвучивал все тексты. Не вопрос — понадобится около трех часов его записи в студии, а дальше этим голосом можно озвучивать тексты любого объема и сложности. Кроме того, SaluteSpeech поддерживает SSML, язык разметки, позволяющий менять интонацию, громкость, скорость и многие другие параметры речи. Важно отметить, что это не запись готовых фраз конкретного человека, а именно обучение нейросети. То есть, если в будущем потребуются новые фразы, снова вызывать диктора в студию не придется, а новые озвученные реплики будет сложно отличить от живой речи.

Кстати, SaluteSpeech работает и в обратную сторону. С помощью технологии распознавания можно преобразовывать речь в текст. Скажем, вам нужно получить расшифровку интервью или совещания — просто загружаете аудиофайл, и SaluteSpeech выдает вам текст. А потом этот текст можно суммаризировать, то есть выделить главное. С такой задачей отлично справляется другой сервис от «Сбера» — GigaChat. Протестировать эти возможности комплексно можно в новом приложении — SaluteSpeech App.

Наверняка вы еще не раз встретите технологии SaluteSpeech в других сервисах. А пока слушайте статьи на РБК Life и делитесь самыми интересными материалами в соцсетях. Пусть и другие послушают.

Поделиться
Авторы
Теги