|
Loquendo, dopo essere stata
tra le primissime aziende ad adottare la tecnica
di Unit Selection, e' ora la prima azienda a
mettere sul mercato voci sintetiche espressive.
Le voci sono arricchite da un repertorio di
"expressive cues", utilizzabili dagli
utenti per ravvivare i messaggi vocali. Si tratta
di un primo concreto passo verso la sintesi
espressiva.
Loquendo da tempo studia la
sintesi espressiva (sia stilistica che emozionale),
tanto sul fronte della modellizzazione che su
quello della sperimentazione di tecniche che
restituiscano manipolabilità ai sw TTS,
senza privarli della naturalezza timbrica conquistata
con la Unit Selection. Si tratta di attività
di ricerca che nel prossimo futuro consentiranno
di sintetizzare qualsiasi testo con lo stile
preferito (p.es. enfatico, formale, informale,
etc.) e con la desiderata coloritura emotiva
(allegro, triste, arrabbiato, etc.). Rendendo
quindi possibile la lettura stilisticamente
marcata, accanto a quella neutra, l'unica oggi
offerta dai TTS.
Attualmente il mercato non
offre soluzioni che siano capaci di variare
(a comando o in base alla natura del testo)
le caratteristiche stilistiche e intonative
delle voci sintetiche senza guastarne la qualità
acustica. Loquendo però già da
oggi offre ai propri clienti la possibilità
di ottenere messaggi vocali espressivi e vivaci.
Così come avviene nella conversazione
umana, l'intenzione espressiva è veicolata
da formule convenzionali e interiezioni, pronunciate
con intonazione naturale e colorita. L'intero
messaggio ne risulta caricato di espressività.
Audio
1
Provate. Prego! Scrivete ciò che volete.
È difficile? Assolutamente no!! Anzi,
è mitico. O meglio ancora, Mitico!!
Auguri. Cioè, Auguri!
Il repertorio di "expressive
cues" comprende formule convenzionali,
come saluti ed eclamazioni ("ciao!",
"accidenti!" "mi dispiace!"),
interiezioni ("Ah!" "Beh!"
"Uhm...") ed eventi paralinguistici
(e.g. breath, cough, laugh, etc.), capaci di
suggerire un'intenzione espressiva (confermare,
dubitare, stupirsi, ringraziare, etc).
Audio
2
Supponiamo che sia arrabbiata. Se io ti dicessi:
Uffa. Che guaio. Accidenti. Mi crederesti?
No!
Ma adesso posso dirlo anche così: Uffa!!
Che guaio!! Accidenti!! Terribile!
Che ne dici? Suona già molto più
umano. Vero? A presto!
Gli stessi elementi possono
comparire in più varianti, per ottenere
la massima naturalezza. La stessa frase potrà
essere pronunciata con stili intonativi diversi,
dal neutro all'enfatico, dallo spiaciuto allo
stupito.
Audio
3
Perfetto! Eccomi! Parlo quasi come
un umano. Ora potete scegliere: Fantastico,
oppure, Fantastico!
Spero di sentirvi presto! Grazie e scusate
ancora!
Audio
4
Paola: Salve! Il mio nome è Paola.
Luca: Ed io sono Luca! eccomi! Siamo voci
italiane di Loquendo TTS. Utilizziamo espressioni
marcate, che rendono la nostra voce più
naturale.
Paola: Posso dire, per esempio: dai, che sorpresa.
Oppure dirlo così: Dai! Che sorpresa!
Luca: Fantastico!! Spero di sentirvi presto!
Le formule possono essere scritte
direttamente nel testo. Una comoda interfaccia
per la preparazione dei prompt suggerirà
all'utente il repertorio di "expressive
cues" disponibili per la voce. L'elenco
sarà strutturato secondo categorie linguistiche
intuitive, in modo che la ricerca della formula
adatta sia veloce e comoda. Sarà quindi
facile costruire messaggi, dialoghi, storie
che le voci sintetiche di Loquendo sapranno
leggere in modo efficace e convincente.
|