Open Medical-LLM Leaderboard zur Bewertung von Health-KI

Open Medical-LLM Leaderboard zur Bewertung von Health-KI

Die Betreiber der KI-Plattform Hugging Face haben das „Open Medical-LLM Leaderboard“ vorgestellt. Der Benchmark bewertet große Sprachmodelle (Large Language Models, LLMs) danach, wie gut sie sich bei Fragen im Gesundheitswesen schlagen. Als Motivation nennt Hugging Face, dass Fehler – LLMs neigen zum Halluzinieren – im Small Talk kaum ins Gewicht fallen, aber im Gesundheitswesen eine falsche Erklärung oder Antwort schwerwiegende Konsequenzen für die Patientenversorgung oder Behandlungsergebnisse haben können. Als Beispiel führt der Blogbeitrag zur Veröffentlichung des Benchmarks eine medizinische Frage zur Versorgung einer schwangeren Patientin an, die nach einem Biss bei der Gartenarbeit über Fieber, Kopf- und Gelenkschmerzen klagt. Ein Test für Borreliose wird durchgeführt, und die Frage ist, mit welcher Medikation der Patientin am besten zu helfen ist. Die Optionen sind Ibuprofen, Tetracyclin, Amoxicillin und Gentamicin. Zwar reagiert das LLM GPT-3.5 korrekt auf die vermutliche Borreliose, wählt allerdings Tetracyclin aus, für das eine klare Kontraindikation zur Einnahme in der Schwangerschaft besteht. GPT-3.5 beruft sich dagegen darauf, dass die Einnahme nach dem ersten Trimester der Schwangerschaft sicher sei. Ein Benchmark ist daher laut Hugging Face unerlässlich, um bewerten zu können, wie weit sich welche LLMs für den Einsatz im Gesundheitswesen einsetzen lassen.

-> Weitere Infos auf heise.de <-