Namluvení textu (TTS) – české hlasy a používané modely

Přehled online služeb pro převod textu na řeč. U každé najdeš, zda podporuje češtinu, jaký má cenový model (zdarma / freemium / placené) a jaké modely/engine používá (např. Google WaveNet/Neural2, Microsoft Azure Neural TTS, ElevenLabs, OpenAI TTS). Vše spustíš rovnou v prohlížeči – ideální pro voiceovery videí, podcasty, e-learning nebo přístupnost.

Služby níže pokrývají jak realistické neurální hlasy s možností ladit intonaci, tempo a pauzy (SSML), tak i klonování vlastního hlasu (u vybraných poskytovatelů a s výslovným souhlasem). U každé položky uvádíme i použitou technologii (model/engine), aby ses rychle zorientoval v kvalitě hlasů a možnostech integrace (webové UI / API).

Tipy: jak z TTS dostat přirozenější hlas (CZ)

  1. Vyber správný hlas a model: porovnej neurální české hlasy (Google WaveNet/Neural2, Microsoft Azure Neural, ElevenLabs…). Každý má jinou výslovnost vlastních jmen, rytmus a barvu.
  2. Pracuj s interpunkcí: čárky a tečky jsou pro TTS „návod“ k pauzám. U delších vět raději rozděl.
  3. SSML = jemné ladění: zpomal/zesil pasáže, dodej pauzy a výslovnosti (viz ukázka níže).
  4. Čísla a zkratky piš srozumitelně: místo „12/09“ napiš „12. září“, místo „cca“ raději „přibližně“.
  5. Otestuj na cílovém zařízení: sluchátka vs. mobilní reprák zní jinak; dolaď hlasitost a tempo.

Ukázkové prompty (zkopíruj & uprav)

„Převeď následující český text do řeči. Použij přirozený ženský hlas, rychlost mluvy mírně pod průměrem a neutrální tón. Dbej na správnou výslovnost vlastních jmen a českých dat.“
„Vytvoř 3 varianty: (1) neutrální, (2) energická pro reklamu, (3) uklidňující. Každou s jiným tempem a délkou pauz. Porovnej srozumitelnost a přirozenost v češtině.“

SSML ukázka (kompatibilní s Google/Azure)

<speak xml:lang="cs-CZ">
Ahoj, jmenuji se <break time="200ms"/> Anna.
Dnes je <say-as interpret-as="date" format="dmy">12.09.2025</say-as>.
Zde je důležitá informace: <emphasis level="moderate">prosím zkontrolujte e-mail</emphasis>.
Mluvím trochu pomaleji: <prosody rate="90%">takhle je text srozumitelnější</prosody>.
</speak>

Pozn.: dostupné SSML tagy se liší podle služby. Některé podporují i custom voice / cloning (se souhlasem mluvčího).