Говорещи машини

By Антон Оруш Sandacite Говорещ компютър, Говореща машина, Говорещи компютри, Говорещи машини, Синтез на говор, Синтезатори на говор, Синтезатори на реч 0 Comments

Говорещи машини

Хората са се удивлявали винаги на умението си да говорят, феноменът човешки език отличава Хомо сапиенс от всички останали живи същества. И затова съобщенията за хора, които упорито се опитват да направят от кучетата си папагали, винаги предизвикват усмивка. Съвсем други са постиженията на учените, влагащи своите усилия в създаването на говорещи машини, което е една от вековните мечти на човечеството.

През 1978 г. група японски специалисти заявяват, че 80-те години ще предизвикат истинска революция в развитието на диалога „човек—машина„, като той постепенно ще премине към естествения човешки говор. Специализираните издания по електроника и изчислителна техника, пък и не само те, поместват множество съобщения за нови и нови устройства за синтез на човешка реч с почти естествено звучене. Сензацията постепенно отстъпва място на все по-задълбочени и сериозни разработки. Сферата на приложение е огромна — от автоматични електронни телефонни централи и големи информационни центрове до устройства за четене, предназначени за слепи хора, и говорещи джобни калкулатори. Само няколко години преди това създаването на подобни устройства изглежда излишен лукс. На какво се дължат бързите промени в тази област? Синтезаторите на реч придобиват актуалност вследствие стремителното навлизане на електронноизчислителната техника във всички сфери на човешкия живот. Тяхното създаване става възможно благодарение на изключителните функционални възможности и бързодействие на т.н. големи интегрални схеми. Усъвършенстването на машините обаче прибавя нови затруднения при диалога с тях. Необходими са например огромен брой оператори със специална подготовка, способни да влизат в „интелектуален“ контакт с компютрите. Днес човешките ръце и очи се нуждаят и от помощта на речта при въвеждането и извеждането на данни от гладните за информация машини.

За да може да се осъществи подобен диалог, необходима е динамична адаптация на машината към човека. Той трябва да я научи да разпознава неговата естествена реч и сама да синтезира речеви сигнали на понятен език.. Засега от говорещата машина все още не се изисква да придава на своите съобщения интонационни оттенъци, емоционална окраска, изменящ се ритъм. Дори на лаконично и сухо съобщение човекът реагира по-бързо и по-точно, отколкото при който и да е от останалите неречеви сигнали.

Малко лингвистика

Както е известно, езикът се описва с краен брой различими и взаимно изключващи се звуци. Тези основни лингвистични елементи се наричат фонеми и са характерни за всеки език. Отделната фонема притежава специфични акустични характеристики: тонова област, формантно разпределение, амплитудни характеристики и др. Всеки произнася отделните фонеми по различен начин и ние все пак се разбираме. Например, фонемата „а“, произнесена от мъж, жена или дете звучи в различни честотни области, но при възприемане се разпознава точно. Това е така, защото при произнасянето фонемите запазват своите „акустични степени на свобода“. Тези отделни различими варианти на фонемите се наричат алофони. Те могат да бъдат позиционни, индивидуални, интонационни и пр. Това твърде много затруднява машините, които трябва да помнят всички варианти на фонемите и да знаят къде да ги използуват.

Другото основно препятствие при синтеза е, че речта представлява почти непрекъснат поток и между отделните звуци няма точна граница. Средно човек произнася около 80 до 130 думи в минута или около 10 фонеми в секунда. Ако разглеждаме само фонетичната транскрипция на речта, можем да приемем, че средната информация, съдържаща се в една фонема, е от 1 до 4 бита. Но на спектрограма може да се види, че всеки звук има преходи и установени периоди. Например една трибуквена дума може да съдържа 50—60 градации на звуците, всяка от които носи определен обем информация, Ако към тези амплитудно-временни параметри прибавим и фазовите съотношения, ще се окаже, че за да запишем пълния набор признаци, съдържащи се в една дума за една секунда, ще ни бъдат необходими над 200 000 бита. А това е доста тежка задача дори компютри от т.н. трето поколение.

Принципна схема на съвременен синтезатор, работещ по метода на линейното кодиране с предсказване от нестационарния характер на сигналите.

Във всеки език съществуват две основна групи звуци — гласни (вокали) и съгласни (консонанти). Учленяването на гласните е съпроводено с промяна в обема на устната кухина и формата на нейния отвор. Получава се резонатор, през който преминава издишаната въздушна струя. Гласните нямат строго определено място на учлемяване и по своята формантна структура те много приличат на музикални тонове (форманти се наричат максимумите на концентрация на енергията от спектъра на речевия звук). При учленяването на всяка гласна звучат два тона — основен и характеристичен. Основният тон определя индивидуалния тембър на гласа. Той се образува в гръкляна под действието на гласните струни и характеризира единствено индивидуалните особености на говорещия. Затова пък характеристичният тон, образуван в устната кухина, е различен за всяка гласна и по него тя се оформя като отделен самостоятелен звук. Съставът му е доста сложен, тъй като включва редица тонове, групирани във форманти. Обикновено формантите са няколко, но най-голямо значение имат трите най-ниски.

Съгласните имат строго определено учленително място. При тяхното произнасяне говорните органи създават различни препятствия, които издишваната струя преодолява чрез търкане или избух. При това се образуват шумове. Някои от съгласните се състоят от характеристичен шум и основен тон, други само от характеристичен шум, който е типичен за всяка съгласна. Тези фонеми най-често образуват двойки звуци, различаващи се само по едно свое качество: мекост, звучност, носовост и т. н.

Що се отнася до българската реч, може да се каже, че тя е твърде удобна за получаването на изкуствена реч. Вокалната ни система се състои от 6 фонеми — И, Е, Ъ, А, О, У. При това те се различават само по едно качество — тембър, за разлика от вокалите в английския език например. Тяхната дължина, отвореност и затвореност нямат смислоразделително значение. Консонантната система на българския език се състои от 38 фонеми, които се различават само по качеството си мекост.

Тайните на акустиката

Уникалните акустични свойства на човешкия артикулационен апарат продължават да бъдат обект на редица изследвания. Въпреки че е добре известно от кои органи се състои речевият тракт и как функционират те, около акустичните му свойства все още се спори. Всички генерирани звуци могат да се описват чрез свойствата на източника на възбуждане и предавателната функция на акустичната система. За тази цел се използва много сложен математически апарат, което се налага от факта, че речевият тракт не може да бъде разглеждан като система със съсредоточени параметри. Това следва от неговата дължина, която е около 17 сантиметра и е напълно съизмерима с дължините на звуковите вълни в говорния спектър. Затова се прибягва към използуване на модели на системи с разпределени параметри, които трудно се поддават на описание. Няма да се спираме подробно на акустичните процеси, тъй като с част от тях ще се запознаем при описанието на няколко от първите синтезатори на реч.

През 1779 година в Русия е обявен конкурс за създаване на устройство, което да показва разликата при образуването на отделните гласни. За най-добър е отличен проектът на Кратцеинщайм, който създава акустични резонатори, аналогични по форма на гласовия тракт. Малко по-късно унгарецът Кемпелен прави своята прочута говореща машина. В нея се подава въздух от кожени мехове към езиче, което на свой ред възбужда управляван с ръка единичен резонатор. Една от забележителните механични машини е създадена в началото на ХХ век от американеца Риш. Тя се управлява с клавиши, а за моделиране на устата и зъбите има по един орган за управление, работещ с пара.

Многобройни са и експериментите с електрически синтезатори. Първите опити има за цел да предадат цялото говорно колебание. За изобретателите е ясно, че за да се постигне добра разбираемост, е от особена важност да се запази моментният спектър от амплитуди. Първи Хелмхолц, Милер и Къонинг стигат до идеята, че при синтезирането на говорни звуци не е задължително да се копира речевия тракт на човека, а трябва да се намери начин за възпроизвеждане на техните характеристики.

Първият електрически синтезатор на свързана реч е т. нар. „Вокодер“, създаден от американците Дадли, Риш и Уоткинс. Той синтезира сигнали с определен спектър под управлението на ръчна клавиатура. При него е отчетена важната физиологична особеност на говорния механизъм — наличието на гласови и шумови възбуждания. Всички тези методи принадлежат на историята. В голямата си част те са създадени за изследване на тайните на говора. И най-големите фантазьори сред техните създатели едва ли са си представяли това, което днес наричаме просто първи крачки в електронното синтезиране на реч.

Говорещата машина на американеца Риш. Затъмнените участъци представляват меки гумени покрития, чрез които се осъществяват сгъстявания и затихвания, близки до реалните.

Говорещият кристал

През 80-те години светът вече е пред прага да превърне интелигентните машини в свои полезни събеседници. Тогавашните електронно-изчислителни машини предоставят много нови възможности за говорен анализ и синтез. Създадени са няколко цифрови методи за изследване на речеви сигнали. Всеки от тях използва такива параметри на говора, които позволяват по резултатите от анализа речта да се възстановява без съществени изменения. Най-често те са в честотната област. Основното математическо преобразование, което се прилага при тях, е бързата трансформация на Фурие. Тя отразява не само спектралните, а и временните особености на изследвания сигнал. При този метод трудностите произтичат от непрекъснатите промени на спектъра във времето, т. е. от нестационарния характер на сигналите.

През 1980 г. се заговорва за друг по-съвършен метод на анализ и синтез на говор, наречен линейно кодиране с предсказване. При него формата на говорната вълна се представя директно в зависимост от променящите се параметри на предавателната характеристика на вокалния тракт и характеристиката на източника. Много по-удобно е да се моделира формата на говорната вълна, отколкото нейния спектър. В това се състои предимството на метода. При него моделът на вокалния тракт представлява изменящ се във времето линеен филтър. Най-често се използуват рекурсивни филтри, които отчитат едновременно влиянието на въздушния поток, вокалния тракт и излъчването. Всеки говорен сегмент се представя адекватно чрез определен брой коефициенти на филтъра. Твърде важно е, че те се определят за даден момент от говорните събития в предходния момент.

Какво представляват създадените на базата на тези методи устройства за синтез на говор? Това са формантни синтезатори, синтезатори с линейно предиктивно кодиране. През 1981 г. научни списания съобщават за синтезатори, преобразуващи речевия сигнал в цифров вид със свиване на информацията. Речевите процесори и на трите устройства са изградени на базата на една голяма интегрална схема, която действува по съответния за всеки метод алгоритъм. Според учените в наши дни икономически оправдани са синтезиpaщи системи, чийто речник надхвърля 200 думи.

Формантният синтез

Той моделира естествените резонансни характеристики на гласовия тракт. При това, за да се осигури разбираемост, всеки звук се синтезира най-малко от три форманта. Гласните звуци се генерират от импулсен източник, който може да се модулира по амплитуда и вследствие на това се управлява интензивността на звука, влияеща върху интонацията. Сигналът преминава през две нива на филтрация. Първото ниво композира вокалните звуци. То представлява филтър с изменящи се във бремето параметри и е образуван от последователни резонатори, които се съгласувани със спектралните и гласовита характеристики на речевия сигнал. Глухите звуци се генерират при преминаване на бял шум през филтър с регулируеми полюси. За получаването на преходните звуци {звънки съгласни и консонантизирани съгласни) се използуват и двата филтъра. Коефициентите на филтрите се пазят 6 постоянна памет, която представлява отделна интегрална схема. Ориентировъчно обемът на паметта за синтезиране на една секунда реч по този метод е около 400 бита.

Първият електрически синтезатор на свързана реч е създаден от американските учени Дадли, Риш и Хопкинс. При него е била отчетена твърде важна физиологическа особеност – наличието на два вида възбуждания – гласови и шумови.

Синтезатори на линейно кодиране с предсказване

Тези синтезатори донякъде напомнят формантните и дори биха могли да се осъществят с едни и същи апаратни средства. Но докато формантният синтезатор има отделни филтри за всеки формант, при синтезаторите с предсказващо кодиране всички форманти се образуват заедно в един активен рекурсивен филтър. Нещо повече, едновременно с това се регулират и амплитудите на импулсите на основния тон и белия шум, осигуряващо точност при възпроизвеждането.

Както споменахме вече, коефициентите, на филтъра се определят в зависимост от предходните му състояния. Качеството на синтезираната реч зависи право пропорционално от броя на коефициентите. При 10 коефициента за кодиране на речта е необходима памет от около 1200 бито за 1 секунда реч.

Реч в цифров вид

Синтезаторите, преобразуващи речевия сигнал в цифров вид със свиване на информацията, осъществяват дискретизация на сигнала с честота два пъти по-голяма от най-високата честота в спектъра, след което получената цифрова информация се свива. Този процес се осъществява с по-прости апаратни средства, но за сметка на това обемът на необходимата памет значително нараства. Осигурява се добра разбираемост и дори се запазват индивидуалните особености на възпроизвежданите гласове. След подходящо свиване на информацията паметта може да се сведе до 1000 бита на дума за мъжките гласове. Женските гласове изискват по-голяма памет, защото съдържат по-високочестотен спектър. Речевият процесор стеснява информацията, като се премахват излишните тонални периоди, фонеми и части от тях. Следва делта-модулация на сигнала и накрая се изменят фазовите му съотношения така, че да може да се разложи в ред на Фурие. При тези синтезатори е задължително първо да се запише и анализира естествена човешка реч в цифров вид, след което речевият процесор я обработва. Въвежда я в паметта на компютъра и при нужда се възстановява.

Никой не може да отрече значителните успехи на специалистите от цял свят в областта на получаването на изкуствена реч. Първите стъпки са твърде недостатъчни, за да се осъществи наистина пълноценен диалог с машините. Затрудненията идват главно от това, че те са лишени от слух, а всички знаем колко усилия са необходими да се разбереш дори с глух човек. Решението на този проблем зависи в изключителна степен от напредъка при създаването на изкуствен интелект. Днес практически всеки робот би могъл да се „научи да говори”, но да чува означава да разбира, което пък от своя страна е свързано с асимилиране на непрекъсната реч. Все пак, чуващи-машини отдавна има на световния пазар, макар и с доста скромни възможности. Още през 80-те в Япония е създаден телевизор, който се подчинява само на гласа на собственика си. В Германия горе-долу по същото време съществува телефонна информационна служба, която отговаря автоматично на запитвания за полетите на самолетите. Още в романа на Артър Хейли ,,Банкери“, писан през 1975 г., в САЩ борсови посредници предават по телефона информация, която автоматично се записва от компютър.

А повече за едно малко известно, но българско устройство за синтез на говор можете да научите от тази статия: ТУК