Arzneimittel und andere chemische Verbindungen werden in der Regel an Tieren getestet, um deren toxikologische und ökologische Risiken zu bewerten. Diese Tierversuche sind teuer, werfen ethische Bedenken auf und versagen oft, Nebenwirkungen am Menschen genau vorherzusagen. Rechnergestützte Methoden mit Machine Learning können solche Tests mittlerweile ersetzen, ohne dass die chemischen Verbindungen synthetisiert und getestet werden müssen. Allerdings sind Fachleute und Zulassungsbehörden skeptisch gegenüber den Computermodellen, da sie nicht immer nachvollziehbar und transparent sind.
Sind die Computermodelle vertrauenswürdig?
„Dies ist das wahre Albtraumszenario für Toxikologen“, sagt Sergey Sosnin, Senior Scientist in der Forschungsgruppe für Pharmakoinformatik an der Universität Wien. „Wenn ein Modell vorhersagt, dass eine Verbindung mit 99 % Sicherheit nicht toxisch ist, die Verbindung aber tatsächlich toxisch ist, gibt es keine Möglichkeit zu wissen, dass etwas falsch gelaufen ist.“
Bei der Prozentangabe handelt es sich um eine binäre Klassifikation: Ein maschinelles Lernmodell gibt eine Wahrscheinlichkeit zwischen 0 % und 100 % an, ob eine chemische Verbindung beispielsweise toxisch oder nicht toxisch ist. Diese Wahrscheinlichkeit sollte das Vertrauen des Modells in seine eigene Vorhersage widerspiegeln, weswegen es idealerweise, nur bei korrekten Vorhersagen Werte nahe 0 % oder 100 % angeben sollte. Ist sich das Modell unsicher und gibt eine Vertrauensbewertung von beispielsweise 51 % ab, sollten Forschende diese Vorhersagen verwerfen und alternative Methoden zur Risikobewertung heranziehen. Ein Problem entsteht jedoch dann, wenn das Modell falsche Vorhersagen mit hohen Wahrscheinlichkeiten wie in dem von Sosnin beschriebenen Szenario liefert.
Chemische Verbindungen auf einer 2D-Ebene
Die einzige Lösung besteht darin, jene möglichen Klassen organischer Verbindungen im Voraus zu identifizieren, bei denen das Modell blinde Flecken hat, und diese zu vermeiden. Dazu müssen Forschende, die das Modell bewerten, die vorhergesagten Ergebnisse für Tausende von chemischen Verbindungen einzeln überprüfen – eine mühsame und fehleranfällige Aufgabe.
„Um diese Forschenden zu unterstützen“, fährt Sosnin fort, „entwickelten wir interaktive grafische Werkzeuge, die chemische Verbindungen auf eine 2D-Ebene projizieren, ähnlich wie geografische Karten. Mit Farben heben wir die Verbindungen hervor, die mit hoher Sicherheit falsch vorhergesagt wurden, sodass Benutzer sie als Cluster roter Punkte identifizieren können. Die Karte ist interaktiv und ermöglicht es den Benutzern, den chemischen Raum zu untersuchen und besorgniserregende Bereiche zu erkunden.“
Die Methodik hat das Forschungsteam der Uni Wien anhand eines Modells zur Bindung an den Östrogenrezeptor getestet. Die visuelle Analyse des chemischen Raums zeigte, dass das untersuchte Modell unter anderem gut für Steroide und polychlorierte Biphenyle funktioniert, aber bei kleinen, nicht zyklischen Verbindungen völlig versagt und daher nicht für diese verwendet werden sollte. Die in diesem Projekt entwickelte Software Mol-Compass ist der wissenschaftlichen Community auf Github frei zugänglich. Sosnin hofft, dass Mol-Compass Chemikern und Toxikologen zu einem besseren Verständnis der Einschränkungen von Computermodellen verhelfen wird.