Tendo liderado o desenvolvimento de produtos para Amazon, Dropbox, Meta, Microsoft e Yahoo, Suvrat Joshi tem experiência em primeira mão do impacto do viés em publicidade online, pagamentos e comércio. Ele explica o papel crucial da intervenção humana em minimizar o viés em nossos modelos alimentados por IA.
Embora a Veriff seja uma empresa de tecnologia, uma equipe diversa de especialistas humanos é central para nossa missão de tornar a internet mais segura para todos. Desde a pesquisa inicial, modelagem e desenvolvimento até a melhoria e refinamento do produto ao vivo, o que diferencia nossa abordagem é o uso da intervenção humana para melhorar constantemente nossa tecnologia.
Durante uma conversa recente para nossa série de podcasts Veriff Voices, nosso Vice-Presidente Sênior de Produto, Suvrat Joshi, explicou como a Veriff usa um processo conhecido como aprendizado por reforço a partir do feedback humano para melhorar constantemente a precisão de nossos sistemas baseados em inteligência artificial.
O aprendizado por reforço a partir do feedback humano (ou RLHF, em inglês) usa a inteligência humana para revisar as saídas de um modelo de aprendizado de máquina para identificar e resolver problemas.
"Há um conjunto de dados. Está rotulado, possui atributos associados, e então você executa o treinamento do modelo, e o modelo aprende. Depois, você cria um modelo, que é então executado em produção," diz Suvrat. "O ponto onde os humanos entram é a rotulagem e atribuição."
Além de preparar o conjunto de dados de entrada para treinar o modelo, especialistas humanos podem revisar e anotar o conjunto de dados de saída: "Essencialmente, você injetar humanos no loop para construir um modelo melhor," diz Suvrat.
"Os humanos podem adicionar a esse conjunto de dados rotulados para enriquecê-lo, aumentá-lo ou, às vezes, até corrigi-lo. E isso é realmente útil porque isso serve como uma nova entrada para o modelo, então o modelo se torna muito mais inteligente e a saída é muito melhor."
Esse processo de intervenção humana para revisar e alimentar dados melhorados de volta no modelo é repetido em um ciclo, daí o termo aprendizado por reforço a partir do feedback humano.
Suvrat diz que a abordagem RLHF é amplamente aplicável em setores de jogos, fintech e saúde, para casos de uso incluindo pagamentos, publicidade e abuso de redes sociais.
"Eu não chamaria de fraude, é realmente abuso ou abuso do produto," diz Suvrat. "Eu acho que é um caso realmente bom onde é amplamente utilizado. Eles precisam de muitos humanos no loop para fornecer aprendizado por reforço ou feedback para começar a capturar algumas dessas forças."
O foco central da Veriff em verificação de identidade é um candidato primário para RLHF, uma vez que a capacidade de interromper fraudes enquanto maximiza conversões depende muito da qualidade do conjunto de dados geral.
Um uso chave para RLHF é na redução do viés em modelos de aprendizado de máquina. Isso é importante porque, se não for controlado, o viés pode ser progressivamente amplificado ao longo do tempo em sistemas de IA. Como foi visto com até mesmo os modelos de IA generativa mais recentes e avançados, os resultados podem ser imprevisíveis e muitas vezes indesejáveis.
"Você pode definitivamente remover o viés," diz Suvrat. "Eu acho que alcançar uma saída de modelo perfeita o tempo todo ou ao longo do tempo é difícil, mas nunca é impossível, e é uma ótima meta a se alcançar."
No entanto, para que isso aconteça, Suvrat acredita que a entrada humana é essencial.
"Aumentação é sempre necessária. E é um aprendizado contínuo, que permite que o modelo permaneça bem posicionado ou seja melhorado ao longo do tempo."
Como Suvrat aponta, muitos produtos de verificação de identidade no mercado são quase totalmente automatizados.
"O que isso significa é que você tem um modelo, ele foi ajustado em alguns dados, e você vai jogá-lo no mundo real." diz Suvrat. "E ele funciona bem em alguns casos. Mas não funciona bem em outros."
Esse nível de qualidade pode ser aceitável para alguns casos de uso, mas quando se trata de verificação de identidade, a precisão é crucial. É aqui que um modelo aumentado com feedback humano no loop se destaca, oferecendo taxas de detecção de fraudes melhores e maior conversão.
"Oferecer isso em um espaço muito competitivo é realmente incrível," diz Suvrat. "Tendo esse feedback humano no loop, podemos fazer tudo isso muito melhor. E realmente todos os nossos clientes e todos neste espaço estão procurando por isso. Oferecemos o melhor de dois mundos e também é realmente competitivo em preço."
"Essa proposta de valor é o que o cliente está procurando. Mesmo que eles comecem com outras soluções que atendam suas necessidades de forma básica, eles rapidamente superam essas soluções. Porque percebem que essas aplicações não atendem bem às suas necessidades."
Suvrat reconhece que há um grau de suspeita natural em relação à inteligência artificial, particularmente entre o público geral. O RLHF pode ajudar a abordar as preocupações em relação ao uso de IA, tanto para os clientes da Veriff quanto para seus clientes finais.
"Eu acho que isso é uma parte essencial para construir confiança," diz Suvrat, "ajustando e melhorando para que possamos fornecer aos nossos clientes aquela garantia de que não é apenas algo que funciona sozinho."
A Veriff oferece produtos totalmente automatizados para diferentes casos de uso, mas mesmo estes se beneficiam dos conjuntos de dados de alta qualidade derivados de nosso processo de RLHF.
"O que torna nossas soluções automatizadas únicas e ricas é esse feedback humano no loop," diz Suvrat. "E, claro, usamos esse tipo de rotulagem e esse enriquecimento globalmente, de forma compatível, para melhorar esses modelos. Isso nos permite fornecer um produto superior no mercado."
Veriff só usará as suas informações para compartilhar atualizações do blog.
Você pode cancelar sua inscrição a qualquer momento. Leia nossos termos de privacidade