My Genie Got It Wrong: Evaluating LLMs for a RAG Chatbot

A VERDADE NUA E CRUA SOBRE OS LLMs!

O QUE NINGUÉM TE CONTA!

Desvende a hipocrisia da tecnologia!

Recentemente, um evento bombástico chamou minha atenção: a Yow! Conference! Nesse espaço efervescente, dois palestrantes arrebataram a plateia ao falarem sobre a sustentabilidade e a segurança dos LLMs. Eles revelaram verdades impactantes sobre como as máquinas que precisam ser “verdes” e seguras estão cada vez mais nos enganando.

E não é só isso! A primeira fala do evento, de um tal de Charles Humble, destacou como tornar o aprendizado de máquina respeitável com o meio ambiente. Enquanto isso, Katharine Jarmul, em sua apresentação poderosa, expôs as fraquezas dos sistemas de inteligência artificial e como ainda dá para enganar essas máquinas. Mas será que estamos todos sendo usados por essas “inteligências”?

Os dois especialistas falaram sobre a ideia de “usar o modelo certo para a tarefa certa”. Agora, imagina isso: um modelo bem dimensionado que não consome energia como um elefante. Um deles até sugeriu que a melhor opção seria apostar nos modelos de código aberto. Mas, pera aí: desde quando a economia de energia se tornou prioridade, enquanto estamos cercados por um governo que só pensa em aumentar impostos e gastos? É hora de abrir os olhos!

QUAIS SÃO AS NOVAS APOSTAS?

É hora de avaliar os modelos que usamos! Desde a sustentabilidade até a segurança, tudo conta. Eu decidi investigar as opções de modelos disponíveis, confrontando tudo isso com a questão da eficiência energética, sem deixar de lado a qualidade. Minha pesquisa levou à revelação de um termo novo: evals. Isso mesmo, um teste fundamental que pode mudar tudo!

Critérios de Avaliação que Você Precisa Saber!

E não estamos aqui para brincar! Aqui estão os critérios de avaliação que eu utilizei:

  1. Capacidade de Raciocínio: Será que a máquina consegue responder adequadamente dependendo do perfil? Tipo, um CEO precisando de respostas rápidas versus um Test Lead que quer detalhes?

  2. Eficiência Energética: Como podemos minimizar os custos de carbono sem abrir mão da qualidade?

  3. Código Aberto: Ao invés de ficar preso a provedores que mais parecem exploradores, será que podemos colocar na jogada os modelos de código aberto?

MODELOS QUE ESTÃO DANDO O QUE FALAR!

Usei o famoso GPT-4 como padrão, já que foi a opção que escolhi para meu MVP. Depois, selecionei dois modelos para comparar: Llama 3.1 70B e Llama 3.1 405B. O que eu queria mesmo testar era o modelo mais robusto, o 405B, porque, segundo quem sabe tudo (ou se diz assim), esse modelo é o ideal quando o assunto é raciocínio.

E logo que ouvi essa recomendação, um alarme soou na minha cabeça! Como assim, só agora estão dizendo que os modelos menores vão fracassar na precisão? Do que eles estão escondendo de nós? A verdade é que precisamos estar alertas! Essa conversa toda nos faz questionar: estamos mesmo prontos para confiar em algo que pode nos trair a qualquer momento, enquanto o governo empurra suas prioridades furadas goela abaixo?

As máquinas não são apenas ferramentas; estão se tornando protagonistas em nossa sociedade. E, enquanto ficamos distraídos, quem realmente está no controle? O que mais será necessário para abrir nossos olhos e exigir responsabilidade? É isso que precisamos discutir.

Fonte do Artigo: GESTÃO DA QUALIDADE

ACESSE mais Notícias em: Manufatura Enxuta

Você pode ter perdido