Technologia rozpoznawania mowy staje się coraz doskonalsza. Obecne możliwości uczenia maszynowego pozwalają na realne wsparcie kolejnych branż, w tym obsługi klienta, tłumaczeń czy transkrypcji wideo. Na czym polega działanie narzędzia Speech-to-Text od Google Cloud i jak można je wykorzystać?
Rozwijana przez Google usługa Speech-to-Text (nazywana też Voice-to-Text) to oparte na modelach uczenia maszynowego narzędzie do zautomatyzowanego przetwarzania mowy na tekst. Usługa ta jest interfejsem API i umożliwia przesyłanie krótszych lub dłuższych plików dźwiękowych, na podstawie których tworzona jest transkrypcja.
Obecnie narzędzie z gamy usług Google Cloud obsługuje już 127 języków oraz dialektów, a także zapewnia automatyczną interpunkcję, poprawiającą czytelność transkrypcji. Z kolei dzięki adaptacji mowy mamy możliwość rozpoznania nazw własnych czy nazw konkretnych produktów. Możemy też udzielać API wskazówek, co poprawi jakość pracy narzędzia w przyszłości.
Speech-to-Text można wykorzystywać zarówno w czasie rzeczywistym, kiedy użytkownik na bieżąco mówi do aplikacji, która przetwarza jego mowę na tekst, jak i prowadzić transkrypcję z mowy na wgranym pliku audio lub wideo.
Jak firmy wykorzystują potencjał usługi Speech-to-Text?
Niejednokrotnie żmudny proces tłumaczeń może być przyspieszony dzięki wykorzystaniu usługi Speech-to-Text. Aplikacja przeprowadza transkrypcję nagranego materiału, a następnie tłumaczy tekst. To przydatna opcja chociażby w przypadku dodawania przetłumaczonych napisów do filmów.
Wspomniane napisy do filmów mogą być dodawane w czasie rzeczywistym - również dzięki usłudze Speech-to-Text. Z tej możliwości chętnie skorzystają zarówno influencerzy, jak i marki udzielające się w mediach społecznościowych. Obecnie napisy dodawane do filmów są coraz bardziej wymagane przez odbiorców, którzy wolą oglądać materiały z wyciszonym dźwiękiem. Dzięki Speech-to-Text dodasz napisy w czasie rzeczywistym do treści przesyłanych strumieniowo.
Możliwości AI są wykorzystywane we wsparciu obsługi klienta na dużą skalę. Sztuczna inteligencja pozwala na prowadzenie rozmów z klientami i odciążenie pracowników. Również technologia rozpoznawania mowy może ulepszyć odczucia klientów i zapewnić obsługę na jeszcze wyższym poziomie.
W tym zakresie Speech-to-Text pozwala na wykorzystanie interaktywnych odpowiedzi głosowych (IVR), na podstawie których możemy zbudować automatyczne call center. Dodatkowo, program w czasie rzeczywistym prowadzi transkrypcję rozmowy z klientem i analizuje ją. Na tej podstawie może podsuwać konsultantowi podpowiedzi i materiały, które pomogą szybciej rozwiązać problem lub zaoferować najlepsze rozwiązanie.
Możliwości Speech-to-Text zgłębisz, korzystając ze wsparcia Partnera Google Fly On The Cloud, oferującego voucher w wysokości 500$ do wykorzystania na usługi platformy Google.
O autorze
Artykuł powstał we współpracy z Fly On The Cloud
Data publikacji: 2020-11-23, ostatnia zmiana: 2020-11-23