Przejdź do treści
Intum Dev

Speech-to-Text API — porównanie dostawców transkrypcji rozmów telefonicznych

Aktualizacja: 4 min czytania

Po co transkrypcja rozmów?

Masz moduł VoIP, call center, nagrywasz rozmowy — ale nikt ich nie odsłuchuje. Transkrypcja zamienia audio na tekst, który można przeszukiwać, analizować i podpinać pod tickety helpdesku.

Praktyczne zastosowania:

  • Automatyczne podsumowanie rozmowy z klientem
  • Wyszukiwanie po treści rozmów (“kto rozmawiał o reklamacji?”)
  • Analiza sentymentu i jakości obsługi
  • Podpięcie transkrypcji pod ticket w helpdesku
  • Szkolenie nowych pracowników na przykładach rozmów

Dostawcy API — porównanie

Specjaliści od real-time transkrypcji

To firmy, które zbudowały własne modele specjalnie pod transkrypcję rozmów w czasie rzeczywistym.

Deepgram — najszybszy do voice agents. Jedyny dostawca z STT + TTS + voice agent orchestration w jednym API. Latencja poniżej 300ms. Dobrze rozpoznaje polski. Cena od $0.0043/min dla pre-recorded, $0.0059/min dla real-time.

AssemblyAI — najniższy Word Error Rate w benchmarkach (8.14%). Model Universal-3 Pro Streaming z latencją ~150ms. Silna diaryzacja (rozpoznawanie kto mówi). Cena od $0.01/min.

Gladia — najlepszy do rozmów wielojęzycznych. Obsługuje code-switching (zmiana języka w trakcie zdania) w 100+ językach. Wbudowana diaryzacja. Model Solaria-1 z latencją 103ms. Cena $0.0092/min ($0.55/h).

ElevenLabs STT — nowy gracz, znany głównie z TTS. Speech-to-text z dobrą jakością polskiego. Cena od $0.01/min.

Duzi gracze chmurowi

Sprawdzone rozwiązania od wielkich dostawców chmury — stabilne, dobrze udokumentowane, łatwa integracja jeśli już jesteś w ich ekosystemie.

Google Cloud Speech-to-Text — dedykowany model do rozmów telefonicznych (“phone_call” model). 125 języków, w tym polski. Cena $0.006/15s (~$0.024/min). Dobre jeśli jesteś na GCP.

Azure AI Speech — 140+ języków i dialektów. Real-time i batch. Dobra integracja z Microsoft ekosystemem. Cena od $0.01/min.

Amazon Transcribe — solidne rozwiązanie w ramach AWS. 100+ języków. Call Analytics z wbudowaną analizą sentymentu. Cena $0.024/min.

Open-source / self-hosted

OpenAI Whisper — model open-source od OpenAI. 100 języków z automatycznym wykrywaniem. Bardzo dobra jakość polskiego. Można hostować na własnych serwerach (pełna kontrola nad danymi, zero kosztów per-minute). Przez API OpenAI: $0.006/min. Idealny do transkrypcji po zakończeniu rozmowy (batch).

Tabela porównawcza

Dostawca Polski Real-time Latencja Cena/min Koszt 10 min rozmowy Diaryzacja Uwagi
Deepgram Tak Tak ~300ms $0.0059 ~$0.06 Tak STT+TTS+voice agent w jednym API
AssemblyAI Tak Tak ~150ms $0.01 ~$0.10 Tak Najniższy WER (8.14%)
Gladia Tak Tak 103ms $0.0092 ~$0.09 Tak (wbudowana) Code-switching, 100+ języków
ElevenLabs Tak Tak ~200ms $0.01 ~$0.10 Tak Nowy, dobra jakość
Google Cloud Tak Tak ~300ms $0.024 ~$0.24 Tak Model “phone_call”
Azure Speech Tak Tak ~300ms $0.01 ~$0.10 Tak 140+ języków
Amazon Transcribe Tak Tak ~500ms $0.024 ~$0.24 Tak Call Analytics wbudowane
OpenAI Whisper (API) Tak Nie batch $0.006 ~$0.06 Nie* Najtaniej, bardzo dobra jakość PL
OpenAI Whisper (self-hosted) Tak Nie** batch $0.00 $0.00*** Nie* Pełna kontrola nad danymi

* Whisper nie ma wbudowanej diaryzacji, ale można ją dodać biblioteką pyannote
** Można zrobić quasi-real-time przez streaming chunków, ale to nie jest natywne
*** Koszt to tylko infrastruktura (GPU) — przy GPU za ~$0.50/h to ~$0.08 za 10 min

Koszt miesięczny — szacunek

Przykład: firma z 500 rozmowami dziennie, średnio 5 minut każda = 2500 minut/dzień = ~75 000 minut/miesiąc.

Dostawca Koszt/miesiąc (75k min)
Deepgram ~$443
AssemblyAI ~$750
Gladia ~$690
Google Cloud ~$1 800
Azure Speech ~$750
Amazon Transcribe ~$1 800
OpenAI Whisper API ~$450
Whisper self-hosted ~$300-500 (koszt GPU)

Co wybrać?

Potrzebujesz transkrypcji na żywo (w trakcie rozmowy)?
→ Deepgram lub AssemblyAI. Najniższa latencja, najlepsza jakość real-time.

Wystarczy transkrypcja po rozmowie (batch)?
→ OpenAI Whisper (API lub self-hosted). Najtaniej, bardzo dobra jakość polskiego.

Rozmowy w wielu językach (np. klient polski, support angielski)?
→ Gladia. Jedyny z natywnym code-switching.

Jesteś na AWS/GCP/Azure i chcesz minimalną integrację?
→ Użyj usługi swojego cloud providera. Drożej, ale zero dodatkowej infrastruktury.

Zależy Ci na prywatności danych (RODO, dane medyczne)?
→ Whisper self-hosted. Dane nie opuszczają Twoich serwerów.

Integracja z VoIP

Większość dostawców oferuje WebSocket API do real-time streaming — podłączasz strumień audio z rozmowy VoIP bezpośrednio do API. Dla batch wystarczy wysłać plik nagrania po zakończeniu rozmowy.

Typowy flow:

  1. Rozmowa VoIP → nagranie audio (WAV/MP3)
  2. Wysłanie do STT API → tekst transkrypcji
  3. Zapisanie transkrypcji przy tickecie / połączeniu
  4. Opcjonalnie: podsumowanie przez LLM (np. Claude/GPT)

Czy ten wpis był pomocny?

Udostępnij

Komentarze