Este artigo é parte de nossa série Fast Forward , que examina as mudanças tecnológicas, econômicas, sociais e culturais que acontecem à medida que os negócios evoluem.
LOS ALTOS, Califórnia – Sam Liang anseia por sua mãe e deseja poder recapturar as coisas que ela lhe disse quando ele estava no ensino médio.
“Eu realmente sinto falta dela”, disse ele sobre sua morte em 2001. “Esses foram momentos preciosos da vida”.
Liang, que é o principal executivo e co- fundador da Otter.ai , uma empresa iniciante no Vale do Silício, decidiu fazer algo sobre isso no futuro. Sua empresa oferece um serviço que transcreve automaticamente a fala com precisão alta o suficiente para ganhar popularidade entre jornalistas, estudantes, podcasters e trabalhadores corporativos.
Melhorias na tecnologia de software tornaram possível a transcrição automática de fala. Ao capturar grandes quantidades de fala humana, os programas de redes neurais podem ser treinados para reconhecer a linguagem falada com taxas de precisão que, nas melhores circunstâncias, se aproximam de 95% . Juntamente com o alto custo do armazenamento de dados, agora é possível usar a linguagem humana de maneiras impensáveis há alguns anos atrás.
Liang, um engenheiro elétrico formado em Stanford e membro da equipe original que projetou o Google Maps , disse que a compactação de dados tornou possível capturar a conversa de fala da vida inteira de uma pessoa em apenas dois terabytes de informação – compacta o suficiente para caber em dispositivos de armazenamento que custam menos de US $ 50.
A rápida melhoria na tecnologia de reconhecimento de fala, que na última década deu origem a assistentes de fala virtuais como o Siri da Apple , Alexa da Amazon , Google Voice , Microsoft Cortana e outros, está se espalhando para novas áreas que estão começando a ter um impacto significativo no o local de trabalho.
Esses portais de fala do consumidor já levantaram novas e extensas preocupações com a privacidade. “Os computadores têm uma capacidade muito maior de organizar, acessar e avaliar as comunicações humanas do que as pessoas”, disse Marc Rotenberg , presidente e diretor executivo do Electronic Privacy Information Center, em Washington. Em 2015 , o grupo apresentou uma queixa junto à Samsung da Federal Trade Commission , argumentando que a captura e o armazenamento de conversas por suas TVs inteligentes era uma nova ameaça à privacidade. A transcrição da fala potencialmente leva as preocupações tradicionais de privacidade para novas áreas, tanto em casa quanto no trabalho, disse ele.
Quase certamente colocará novas questões de privacidade para as empresas. Liang disse que as empresas estavam interessadas em capturar todas as conversas dos funcionários, incluindo o que acontece no refrigerador de água.
Esse é o poder dessa nova base de conhecimento para a empresa”, disse ele. “Eles reconhecem que as pessoas passam tantas horas todos os dias em reuniões, querem entender como as idéias se movem e como as pessoas realmente conversam entre si”.
Os rápidos avanços no mercado de transcrição automatizada no ano passado mostram um potencial impressionante de curto prazo em uma crescente variedade de novas aplicações. Neste outono, por exemplo, na Universidade da Califórnia, em Los Angeles, os alunos do campus que precisam de assistência em anotações, como aqueles com deficiência auditiva, estão sendo equipados com o serviço Otter .ai. O sistema foi projetado para substituir o processo atual de anotações, onde outros alunos fazem anotações durante as aulas e as compartilham.
Em maio, quando a ex-primeira dama, Michelle Obama , visitou o campus como parte de uma comemoração do dia da assinatura dos estudantes, os alunos surdos tiveram acesso a uma transcrição instantânea de seu discurso gerada pelo serviço de transcrição.
O Zoom , criador de um sistema de videoconferência baseado na Web, oferece uma opção de transcrição fornecida pelo serviço Otter.ai, que permite capturar instantaneamente uma transcrição de uma reunião de negócios que pode ser armazenada e pesquisada on-line. Um dos recursos oferecidos pelo Otter.ai e outras empresas é a capacidade de separar facilmente e rotular diferentes alto-falantes em uma única transcrição.
Empresas como a Rev , que começou em 201 0 usando trabalhadores temporários para oferecer transcrição por US $ 1 por minuto, oferece um serviço adicional automático de transcrição de fala por 10 centavos por minuto. Como resultado, a transcrição está entrando em uma variedade de novas áreas, incluindo legendas para canais do YouTube, vídeos de treinamento corporativo e empresas de pesquisa de mercado que precisam de transcrições de grupos focais.
O sistema Rev permite que o cliente escolha se deseja mais precisão ou retorno mais rápido e com menor custo, disse Jason Chicola , fundador e executivo-chefe da empresa . Cada vez mais, seus clientes corrigem textos gerados por máquina em vez de transcreverem do zero. Ele disse que, embora Rev tivesse 40.000 transcritores humanos, ele não acreditava que a transcrição automatizada pudesse dizimar sua força de trabalho. “Humanos e máquinas trabalharão juntos no futuro próximo”, disse ele.
No entanto, as tecnologias da fala estão tendo um impacto inegável na estrutura das corporações.
“Temos chatbots em execução ao vivo na produção e estão desviando muitos casos de serviço”, disse Richard Socher , cientista chefe da Salesforce , uma empresa de software baseada em nuvem. “Em grandes organizações de serviços , com milhares de pessoas, se você pode automatizar 5% das solicitações de redefinição de senha, isso causa um grande impacto nessa organização”.
No campo da medicina, a transcrição automática está sendo usada para alterar a maneira como os médicos tomam notas. Nos últimos anos, os sistemas eletrônicos de registro em saúde tornaram-se parte de uma visita de rotina ao consultório, e os médicos foram criticados por olhar para suas telas e digitar, em vez de manter contato visual com os pacientes. Agora, várias empresas iniciantes de saúde estão oferecendo serviços de transcrição que capturam texto e potencialmente vídeo na sala de exames e usam um transcritor ou remetente humano remoto para editar o texto automatizado e produzir um conjunto “estruturado” de anotações da visita do paciente.
Uma das empresas, Robin Healthcare , com sede em Berkeley, Califórnia , registra visitas a escritórios com um sistema de transcrição de fala automatizado que é anotado por uma equipe de “escribas” humanos que trabalham nos Estados Unidos, de acordo com Noah Auerhahn , empresa diretor executivo . A maioria dos escribas é formada por estudantes de medicina que ouvem a conversa do médico e, em seguida, produzem um registro finalizado dentro de duas horas da visita do paciente. O sistema Robin Healthcare está sendo usado na Universidade da Califórnia, em San Francisco , e na Duke University .
Um concorrente, DeepScribe , também baseado em Berkeley , adota uma abordagem mais automatizada para gerar registros eletrônicos de saúde. A empresa usa vários mecanismos de fala de grandes empresas de tecnologia como Google e IBM para gravar a conversa e cria um resumo do exame verificado por um ser humano. Ao confiar mais na automação da fala, o DeepScribe pode oferecer um serviço mais barato, disse Akilesh Bapu , diretor executivo da empresa.
No passado, a transcrição da fala humana era amplamente limitada aos campos legais e médicos. Este ano, o custo da transcrição automática diminuiu à medida que empresas iniciantes rivais competiam por um mercado em rápido crescimento. Empresas como Otter.ai e Descript , uma empresa rival sediada em São Francisco, iniciada pelo fundador do Groupon, Andrew Mason , estão oferecendo serviços básicos de transcrição e focando na cobrança de assinaturas que oferecem recursos aprimorados.
Um exemplo dessa nova funcionalidade é o anúncio que o Descript fez em setembro de um serviço baseado na Web destinado a permitir que podcasters editem áudio e vídeo da mesma forma que editariam texto em um processador de texto. No passado, a edição de áudio e vídeo exigia habilidades e software especiais. Agora, a Descript espera abrir a edição de áudio e vídeo para um público mais geral, disse Mason.
“A transcrição automática estava se tornando precisa o suficiente e barata o suficiente para ser realmente utilizável”, disse ele. “Pensamos, Deus, não seria legal construir apenas um editor de áudio que funcione como um processador de texto. Nós divulgamos essa ideia por alguns de nossos amigos produtores, e eles disseram: ‘Bem, sim, sim, tivemos essa ideia há 20 anos, quando vocês vão fazer isso?’ ”
Os cientistas da fala enfatizam que, embora os sistemas de transcrição automatizada sejam significativamente aprimorados, eles ainda estão longe de serem perfeitos. Embora uma precisão de 95% possa ser obtida por transcrição automática, isso é possível apenas nas melhores circunstâncias. Um sotaque, um microfone mal posicionado ou ruído de fundo pode fazer com que a precisão caia.
A esperança para o futuro é o surgimento de outra tecnologia de fala conhecida como processamento de linguagem natural, que tenta capturar o significado de palavras e frases que aumentarão a precisão do computador para os níveis humanos. Mas, por enquanto, o processamento de linguagem natural ainda permanece uma das fronteiras mais desafiadoras no campo da inteligência artificial.
Christopher Manning , cientista da computação da Universidade de Stanford, especializado em processamento de linguagem natural, abordou a questão durante um discurso recente em San Jose, Califórnia.
“Ainda há tanta coisa que os computadores não conseguem fazer que os humanos fazem sem esforço que eu tenho certeza absoluta de que não precisarei encontrar um novo campo antes de me aposentar”, disse ele .