Czerniak potrafi oszukać jedno spojrzenie. Z dwoma ma już wyraźnie trudniej

Owszem, sama sztuczna inteligencja wypadła porównywalnie do dermatologów. Ale prawdziwa historia zaczyna się tam, gdzie kończy się technologiczna pycha. W poprawieniu jakości decyzji lekarza. A stawka jest wysoka, bo mowa o czerniaku – nowotworze, który przez długi czas potrafi udawać niewinny detal na skórze, a potem nagle przestaje być detalem. Wcześnie wykryty daje bardzo dobre szanse leczenia. Przeoczony potrafi zachować się jak pożar, który długo wyglądał jak iskra. Dlatego każdy wzrost trafności diagnostycznej ma tu znaczenie większe niż w wielu mniej czułych obszarach medycyny.

Najciekawsze jest to, że sama AI nie wygrywa

Badanie opublikowane w JAMA Dermatology nie jest kolejną popisówką na starannie wybranych zdjęciach z archiwum. To systematyczny przegląd i metaanaliza 11 badań prospektywnych, obejmujących ponad 2500 uczestników. I właśnie słowo “prospektywnych” jest tu kluczowe. W badaniach archiwalnych AI często dostaje świat wyprasowany jak koszula na sesję zdjęciową: dobre obrazy, wyraźne przypadki, mało bałaganu. Tymczasem prawdziwa dermatologia jest znacznie mniej uprzejma. Zmiana może być nieostra, nietypowa, częściowo zasłonięta, oglądana w pośpiechu i w kontekście pacjenta, który przynosi całą resztę historii medycznej razem ze sobą.

Autorzy porównali trzy sytuacje: samych dermatologów pracujących z dermoskopią, samą AI i dermatologów wspartych AI. Wynik? Sama AI oraz dermatolodzy osiągali porównywalną skuteczność, ale najwyższe parametry diagnostyczne pojawiały się wtedy, gdy lekarz korzystał z algorytmu jako wsparcia decyzyjnego. To trochę jak z drugim pilotem w kokpicie: nie chodzi o to, by pierwszy przestał latać, tylko by rzadziej przeoczył coś ważnego.

W liczbach wygląda to jeszcze ciekawiej. Dermatolodzy osiągali łączną czułość na poziomie 78,6% i swoistość 75,2%. Sama AI miała czułość 80,9%. i swoistość 75,6%. W części bezpośrednich porównań algorytmy wypadały nawet lepiej pod względem swoistości, czyli częściej potrafiły powiedzieć “to nie jest czerniak” bez niepotrzebnego wszczynania alarmu. To bardzo ważna cecha, bo w praktyce oznacza mniej fałszywych alarmów, mniej zbędnych biopsji i mniej pacjentów wracających do domu z głową pełną strachu, który finalnie okazuje się niepotrzebny.

Czytaj też: Wspierana przez AI baza danych ma przyspieszyć badania nad immunoterapią nowotworów

Czerniak to nie konkurs rozpoznawania obrazków

Największy problem wielu wcześniejszych doniesień o AI w dermatologii polegał na tym, że zamieniały medycynę w zawody komputerowego rozpoznawania wzorców. Tyle że dermatolog nie jest maszyną do klasyfikowania zdjęć. Ocenia całą skórę, bierze pod uwagę wiek, fototyp, historię zmian, dynamikę wzrostu, objawy towarzyszące, lokalizację, wcześniejsze nowotwory i masę niuansów, których samo zdjęcie nie niesie. To właśnie dlatego tak łatwo przesadzić z zachwytem nad “AI na poziomie lekarza”. Ona może być świetna w obrazie. Medycyna jest czymś większym niż obraz.

Kobieta u lekarza – zdjęcie poglądowe /Fot. Freepik

Nie próbujmy udawać, że algorytm nagle zrozumiał całą kliniczną rzeczywistość. AI dobrze robi to, w czym maszyny są zwykle mocne: zauważa wzorce, porządkuje podejrzenia, jest konsekwentna i nie traci koncentracji. Lekarz dokłada do tego doświadczenie, kontekst i zdolność oceny sytuacji, która nie pasuje idealnie do żadnego katalogu. Razem działają lepiej, bo każde uzupełnia cudze ślepe pole.

To trochę jak czytanie mapy przez dwóch ludzi o zupełnie innym stylu myślenia. Jeden widzi strukturę terenu i liczy drogę z aptekarską dokładnością. Drugi od razu czuje, gdzie coś “nie pasuje”, bo zna teren z praktyki. Samotnie obaj są dobrzy. Razem rzadziej skręcają źle. W dermatologii taki wspólny marsz może oznaczać realnie wcześniej wykryte nowotwory albo mniej niepotrzebnie wycinanych zmian.

To może pomóc systemowi bardziej, niż brzmi

Najbardziej oczywiste zastosowanie AI nie leży w medialnej fantazji o “cyfrowym dermatologu w telefonie”, tylko w odciążaniu systemu. W wielu krajach skierowań do oceny zmian skórnych jest dużo, specjalistów za mało, a kolejki zbyt długie. Jeśli dobrze sprawdzony system potrafi poprawić trafność decyzji albo pomóc szybciej wyłapać naprawdę podejrzane przypadki, zyskuje nie tylko pojedynczy lekarz. Zyskuje cały przepływ pacjentów. Ci, którzy wymagają pilnej diagnostyki, mogą trafić dalej szybciej. Ci, którzy nie wymagają agresywnej interwencji, nie blokują ścieżki innym.

Druga rzecz to standaryzacja. Medycyna jest sztuką ludzi, a ludzie bywają zmęczeni, ostrożni, rozproszeni, nadmiernie czujni albo czasem zbyt pewni siebie. AI nie jest wolna od błędów, ale bywa bardziej konsekwentna w samym akcie porównywania wzorców. W świecie, gdzie codziennie ocenia się setki lub tysiące zmian skórnych, taka powtarzalność może być więcej warta niż kolejna konferencja o “przyszłości diagnostyki”.

Jest też trzeci poziom, o którym mówi się rzadziej: edukacyjny. Dla mniej doświadczonych klinicystów AI może działać jak wzmacniacz czujności. Nie zamiast myślenia, ale jako dodatkowy sygnał: spójrz tu jeszcze raz, ta zmiana nie jest tak niewinna, jak wydaje się na pierwszy rzut oka. W specjalnościach obrazowych właśnie tak często zaczyna się prawdziwa zmiana jakości – nie od zastępowania ekspertów, tylko od podnoszenia średniego poziomu całego systemu.

Ale ten temat ma też kilka bardzo niewygodnych rys

Nie ma sensu robić z tego technologicznego happy endu. Sama metaanaliza bardzo wyraźnie podkreśla ograniczenia: niewielką bazę badań, dużą heterogeniczność projektów oraz wysokie ryzyko biasu w doborze pacjentów i w konstrukcji testów. To nie jest jeszcze moment, w którym można triumfalnie ogłaszać, że AI weszła do gabinetu i wszystko poprawiła. Takie rozwiązania przestały być zabawką, ale nadal wymagają znacznie twardszej walidacji.

Drugi problem to dane treningowe. Jeśli model uczył się głównie na określonych fototypach skóry, określonych typach obrazów albo populacjach z wybranych regionów, może później wypadać znacznie gorzej tam, gdzie rzeczywistość wygląda inaczej. W diagnostyce czerniaka to nie jest detal. To kwestia tego, czy system pomaga wszystkim, czy tylko tym, którzy najbardziej przypominają dane, na których go szkolono.

Jest też klasyczne ryzyko fałszywego poczucia bezpieczeństwa. Pacjent słyszy “algorytm nie widzi problemu” i może potraktować to jak pieczątkę zdrowia. Tyle że medycyna nie daje pieczątek. Daje prawdopodobieństwa, ryzyko i decyzje podejmowane w niepełnej informacji. Nawet świetna AI nie kasuje potrzeby konsultacji, jeśli zmiana rośnie, krwawi, zmienia kolor albo po prostu wygląda niepokojąco. I właśnie dlatego największą wartość ma dziś nie AI “samodzielna”, tylko AI wpięta w ręce i głowę specjalisty.

Najciekawsze jest to, że sama AI nie wygrywa

Czerniak to nie konkurs rozpoznawania obrazków

To może pomóc systemowi bardziej, niż brzmi

Ale ten temat ma też kilka bardzo niewygodnych rys

Monika Wojciechowska