Olá pessoal,

Essa foi uma semana intensa de discussão sobre o papel dos LLMs (modelos de linguagem), como o chatGPT, no apoio ao diagnóstico de doenças.

Estou começando a ver dois grupos sendo formados:

Quem acredita que essa tecnologia pode ajudar o médico a chegar ao diagnóstico do paciente
Quem acredita que isso não faz diferença ou pode até atrapalhar

Mas quem está certo?

Ou é cedo para dizer ainda?

Tempo de leitura : 5 minutos

💬 Em pauta

Na semana passada, eu fui na escritório da Alice (healthtech - plano de saúde) para falar sobre como a IA está sendo avaliada e implementada em 3 grandes frentes de atuação:

Os cases que eu tenho visto mais sucesso são:

- Co-pilotos médicos com transcrição e sumarização da consulta
- Agentes IA apoiando com agendamento de consulta automatizada
- Processamento automatizado de guias e autorizações para planos de saúde

Agora a área de pesquisa que tem gerado mais atenção da comunidade médica e na mídia é relacionada ao uso do chatGPT para aumentar a acurácia diagnóstica.

Isso acontece porque mesmo um ganho incremental na nossa acurácia em saúde pode resultar em um impacto enorme no cuidado e custos, já que os erros diagnósticos podem chegar a 5% dos casos, afetando quase 12 milhões de pacientes só nos EUA.

Em 2023, alguns estudos foram publicados mostrando que o chatGPT e o seu primo do Google especializado em saúde, med-palm 2 (recentemente batizado de Med-Gemini), poderiam responder perguntas e casos clínicos de provas de validação de diploma médico, ou até mesmo provas de título de especialista.

Neste estudo, o med-palm 2 tirou a nota 86.5% na prova de validação do diploma médico americano, o que resultaria em uma aprovação.

Mas o que gerou uma ampla discussão foi um estudo pequeno publicado no JAMA Open em Outubro, que comparou a performance de um grupo de 50 médicos usando o chatGPT para ajudar a chegar no diagnóstico, versus as ferramentas convencionais, como Uptodate, google e artigos.

Caso clínico real que os médicos responderam:

❝

“Um homem de 76 anos procura seu médico de atenção primária queixando-se de dor nas costas e nas coxas há 2 semanas. Ele não sente dor ao sentar ou deitar, mas caminhar causa dor severa na região lombar, glúteos e panturrilhas. Ele se sente febril e cansado. O cardiologista que o encaminhou informou que seus testes recentes, realizados desde o início da dor, mostraram anemia nova e azotemia. Alguns dias antes do início da dor, ele havia se submetido a uma angioplastia coronariana. Heparina foi administrada por 48 horas.”

- Os casos também eram acompanhados de exame físico e resultados laboratoriais.

O resultado mostrou:

Quando os médicos tentavam resolver os casos sozinhos, eles acertaram 74% dos diagnósticos
Quando eles podiam pedir ajuda ao chatGPT 4o

Olha que interessante…

A mídia interpretou de 2 formas distintas:

“O chatGPT ajuda pouco os médicos para diagnosticar doenças" (Washington post)

“O chatGPT derrota os médicos no diagnóstico de doenças” (New York times)

Giphy

Acho que é a primeira vez que eu vejo um estudo considerado pequeno (50 participantes), com uma avaliação limitada (apesar de ser um ensaio clínico randomizado), ter tanta repercussão na mídia e na comunidade de saúde.

Mas afinal, como o chatGPT conseguiu ter uma performance maior que os médicos?

Precisamos falar sobre alguma limitações do estudo:

A jornada de cuidado e do diagnóstico não é tão preto no branco quanto um resumo. Na vida real temos diversas particularidades e nuances que não são refletidas diretamente na descrição.
Neste estudo, metade dos médicos eram residentes (48%), a maior parte dos médicos não tinha experiência com o chatGPT (84%) e acabavam fazendo perguntas (prompts) que não usavam o melhor da tecnologia.
Talvez essa interação não precise ser síncrona, ou seja, o médico não precisa usar a ferramenta ao mesmo tempo em que executa o seu processo decisório. Pode ser algo que já é processado de forma autônoma e chega para o médico meio que pronto, assim ele inicia a sua avaliação com esse dado extra na mão.

Ou seja, não é possível bater o martelo de que os chatGPT é melhor que médicos na avaliação diagnóstica.

De forma geral, acho que ainda temos muito para evoluir em relação ao "co-piloto médico” com apoio diagnóstico, ao contrário de algumas outras frentes, em que estamos chegando no momento de consolidação, como na transcrição, sumarização e geração de documentos.

No suporte à decisão clínica, provavelmente precisamos de mais estudos e testes antes de batermos o martelo sobre o melhor formato.

Além disso, o chatGPT não foi criado para resolver casos clínicos e chegar em diagnósticos precisos, ou seja, imagine o potencial quando tivermos plataformas que foram desenvolvidas com esse fim, evitando alucinações e erros.

Um exemplo disso é a plataforma Glass AI, que usa LLMs como base (chatGPT), mas foi criada com o intuito específico de apoiar a jornada diagnóstica.

Como você acredita que será o futuro da nossa avaliação diagnóstica?

Só me reponder direto nesse e-mail : ) Quero saber a sua opinião!

Siga no Linkedin

Posts diários sobre o mercado de saúde, inovação e tecnologia.

❇️ Recomendações

Como as pessoas vão usar Gen AI no trabalho?

Essa edição da HBR aborda detalhes sobre como as empresas estão implantando IA generativa nas tarefas diárias do escritório. Vale a leitura.

Desafio a IA generativa

Neste vídeo, o Benedict Evans, um analista independente, faz uma avaliação do papel da IA generativa na nossa sociedade e seu impacto. Ele é mais realista / pessimista, mas gostei da forma como ele traz os dados e compara a onda atual com outros movimentos de tecnologia do passado, como a internet.

💭 Citação

Eu tenho usado essa dica do Andrew Huberman para concentração. É o “white noise”, que você consegue encontrar no youtube e ajuda a manter o foco, principalmente em escritório presencial : )