OpenAI lança robô que transcreve áudios em tempo real

A OpenAI lançou na quarta-feira (2) o API Whisper, robô que transcreve falas em tempo real – possivelmente a ferramenta de transcrição de áudios mais potente do mercado. Desenvolvedores podem usar o serviço por US$ 0,006 a cada minuto transcrito – o equivalente a US$ 1 para cada 2h45 de transcrição.

A plataforma de código aberto reconhece e traduz diversas línguas para o inglês em tempo real. Também aceita arquivos em vários formatos, incluindo M4A, MP3, MP4, MPEG, MPGA, WAV e WEBM.

O diferencial do robô é seu modelo de treinamento. Antes de operar, a ferramenta passou por 680 mil horas de dados multilíngues coletados da web. Isso aumentou sua capacidade de reconhecer sotaques, ruídos e jargões técnicos.

“A API Whisper é o mesmo modelo que você pode obter de código aberto, mas otimizamos ao extremo”, disse Greg Brockman, presidente da OpenAI, ao site TechCrunch. “É muito, muito mais rápido e extremamente conveniente”.

Limitações

Como qualquer outra IA (inteligência artificial), o Whisper ainda não está 100% calibrado. O fato do treinamento do sistema partir de uma grande quantidade de sons e ruídos faz com que o robô inclua palavras nas transcrições que não foram realmente ditas.

O motivo, neste caso, é um problema na previsão de texto dos áudios: o robô da OpenAI tenta “prever” o que o locutor vai falar em seguida. Por isso, pode embaralhar palavras em meio a ambientes mais barulhentos.

Outro ponto é que o Whisper não funciona bem com todos os idiomas e apresenta mais erros em algumas línguas. A OpenAI não divulgou quais ou quantos idiomas foram usados no treinamento, nem quais apresentam mais defeitos. A tendência é que o inglês seja a linguagem mais precisa, e idiomas mais baseados em fonemas (e que tenham menos conteúdo disponível na internet para treinar a IA) tenham precisão menor.

Giz Brasil.