Twoja elektroniczna dokumentacja medyczna może stać się kluczem do przewidzenia, jakie choroby mogą cię spotkać za 10, 15, a nawet 20 lat. Międzynarodowy zespół naukowców opracował właśnie model sztucznej inteligencji, który potrafi oszacować długoterminowe ryzyko ponad tysiąca różnych schorzeń i przewidzieć zmiany w stanie zdrowia konkretnej osoby na ponad dekadę naprzód. Pisze o tym w najnowszym numerze czasopismo "Nature". "Model jest bardzo dobry w ustalaniu osób, które mają wysokie ryzyko choroby w ciągu najbliższego roku i mogłyby skorzystać z wcześniejszej wizyty u lekarza specjalisty" - mówi RMF FM Tomas Fitzgerald z EMBL. Zdaniem autorów pracy, model umożliwi też dostawcom usług zdrowotnych lepsze planowanie zasobów potrzebnych choćby w ciągu najbliższego roku.

REKLAMA
Model AI potrafi przewidywać ryzyko przyszłych chorób

Pierwsze tak szeroko zakrojone badanie

Naukowcy z Europejskiego Laboratorium Biologii Molekularnej (EMBL), Niemieckiego Centrum Badań nad Rakiem (DKFZ) oraz Uniwersytetu Kopenhaskiego opracowali model w oparciu o algorytmy podobne do tych, które napędzają popularne generatywne modele językowe, takie jak ChatGPT. Jednak zamiast uczyć się języka, AI analizuje dane medyczne - diagnozy, hospitalizacje czy zmiany stylu życia, np. rzucenie palenia. Dzięki temu jest w stanie rozpoznać wzorce i przewidywać, jakie choroby mogą pojawić się u danej osoby w przyszłości oraz kiedy to nastąpi.

Twórcy modelu wykorzystali anonimowe dane medyczne aż 400 tysięcy uczestników brytyjskiego projektu UK Biobank oraz przetestowali swoje rozwiązanie na rekordowej liczbie 1,9 miliona pacjentów z Duńskiego Rejestru Narodowego. To pierwsze tak szeroko zakrojone badanie, które pokazuje, jak AI może modelować przebieg chorób w różnych systemach opieki zdrowotnej.

Model działa trochę jak prognoza pogody - nie daje stuprocentowej pewności, ale wskazuje prawdopodobieństwo wystąpienia określonych schorzeń w danym okresie.

Dla mężczyzn w wieku 60-65 lat ryzyko zawału serca waha się od 4 na 10 000 do nawet 1 na 100 rocznie, w zależności od wcześniejszych diagnoz i stylu życia. U kobiet ryzyko jest niższe, ale rozkład podobny.

Z tymi chorobami model radzi sobie najlepiej

Model ma swoje ograniczenia, jego prognozy krótkoterminowe są dokładniejsze niż te na wiele lat do przodu. Najlepiej radzi sobie z chorobami o przewidywalnym przebiegu - chodzi o niektóre nowotwory, zawały serca czy sepsę. Gorzej prognozuje schorzenia zależne od nieprzewidywalnych czynników, np. zaburzenia psychiczne czy komplikacje ciążowe.

Chociaż model nie jest jeszcze gotowy do bezpośredniego wykorzystania w gabinetach lekarskich, już teraz otwiera nowe możliwości dla naukowców i planistów ochrony zdrowia. Pozwala lepiej zrozumieć, jak choroby rozwijają się w czasie, jak styl życia i wcześniejsze schorzenia wpływają na przyszłe ryzyko oraz umożliwia symulowanie scenariuszy zdrowotnych na podstawie sztucznie wygenerowanych danych pacjentów. To szczególnie cenne tam, gdzie dostęp do realnych danych jest utrudniony.

W przyszłości, gdy podobne modele zostaną wytrenowane na bardziej reprezentatywnych danych - obejmujących także dzieci, młodzież i różne grupy etniczne - mogą stać się narzędziem wspierającym lekarzy w identyfikacji pacjentów wysokiego ryzyka. To szansa na wcześniejsze interwencje i lepsze planowanie wydatków w systemach ochrony zdrowia, zwłaszcza w obliczu starzejących się społeczeństw i rosnącej liczby chorób przewlekłych.

Tomas Fitzgerald

Grzegorz Jasiński: Prognoza ryzyka chorób wydaje się czymś naprawdę wyjątkowym i prawdziwym przełomem w medycynie. Proszę nam opowiedzieć, na czym polega działanie tego modelu i co on potrafi?

Twoja przeglądarka nie obsługuje standardu HTML5 dla audio

Sztuczna inteligencja przewidzi, kiedy i na co zachorujesz

Tomas Fitzgerald (EMBL): Jesteśmy naprawdę podekscytowani tym artykułem i pracą, którą wykonaliśmy. To jest współpraca między EMBL a DKFZ. Udało nam się wprowadzić prawdziwe innowacje w obszarze generatywnego modelowania AI, które pozwalają stosować podobne modele jak w przypadku dużych modeli językowych, ale do przewidywania zmian stanu zdrowia w czasie. Kluczowym elementem naszego modelu jest to, że potrafimy inaczej podejść do kwestii czasu, co pozwala nam przewidywać nie tylko, jaka choroba prawdopodobnie wystąpi na poziomie populacji i indywidualnym, ale także kiedy. Potrafimy przewidywać, kiedy to ryzyko wzrasta na poziomie jednostki, to naprawdę niezwykłe. Opracowaliśmy ten model, wytrenowaliśmy go na bardzo dużym zbiorze danych z Wielkiej Brytanii. Nasz model jest zdolny uwzględnić ponad 1200 chorób i ocenić ich ryzyko w czasie. To, co jest dla nas naprawdę istotne, to fakt, że model jest bardzo wydajny w szerokim zakresie chorób i potrafi skutecznie przewidywać na wiele lat w przyszłość.

Jakiego rodzaju danych użyliście do jego treningu?

Model opiera się na zanonimizowanych zapisach zdrowotnych z dużej bazy zwane UK Biobank. To około pół miliona osób z rozległymi danymi powiązanymi na poziomie indywidualnym. My natomiast użyliśmy jedynie wcześniejszych kodów diagnoz z elektronicznych kart zdrowia oraz kilku podstawowych informacji demograficznych, takich jak płeć, palenie papierosów, spożycie alkoholu i indeks masy ciała BMI. Mimo ograniczenia do tych danych udało nam się stworzyć model, który potrafi przewidywać bardzo szeroki zakres chorób ludzkich z naprawdę imponującą dokładnością.

Czy sprawdzaliście markery we krwi pacjentów, tego typu wyniki pomiarów?

Obecnie, w pierwszej generacji naszego modelu, nie uwzględnialiśmy rozszerzonych czy złożonych danych, takich jak biomarkery we krwi czy genetyka. Model opiera się wyłącznie na wcześniejszych zapisach zdrowotnych danej osoby, czyli chorobach, które wystąpiły do tej pory. Pracujemy jednak nad włączeniem bardziej rozbudowanych danych, takich jak biomarkery, genetyka, a może nawet wyniki obrazowania czy zapisy recept. Wszystkie te dane mają wartość i w naszym artykule szczegółowo opisaliśmy, ile dodatkowej informacji wnoszą różne typy danych. Na przykład biomarkery rzeczywiście poprawiają prognozy wielu chorób, szczególnie zauważyliśmy, że w przypadku chorób metabolicznych biomarkery w danym momencie lub w wielu punktach czasowych życia osoby mogą istotnie pomóc. I jeśli się nad tym zastanowić, to ma to sens - dane, których dostarczają biomarkery, mają istotne znaczenie dla tego typu zaburzeń metabolicznych. Ale innych też.

Jak by pan opisał dokładność prognoz zdrowotnych generowanych przez wasz model?

W naszym artykule opisujemy zdolność przewidywania dla całego zakresu chorób. Średnio dla wszystkich 1200 chorób osiągamy około 78 procent. Oczywiście istnieje zmienność między różnymi chorobami, a liczby, które podajemy, to średnia wiarygodność w różnych grupach wiekowych, co uważaliśmy za najbardziej wiarygodny sposób przedstawienia indywidualnej skuteczności. Jednak jeśli spojrzeć na precyzję przewidywań w różnych przedziałach wiekowych, to również ona różni się na poziomie poszczególnych chorób. Ogólnie mamy dla tego typu modelu naprawdę wybitne wyniki. A dla niektórych schorzeń zbliżamy się do niemal idealnej prognozy. Oczywiście zależy to też od okna czasowego, w którym chcemy dokonać przewidywania. Jeśli prognozujemy zdarzenie w ciągu najbliższych kilku miesięcy, model jest zwykle znacznie lepszy dla wszystkich chorób. Gdy patrzymy na kilka lat w przyszłość, precyzja spada, ale co nas bardzo cieszy, to fakt, że pozostaje stabilna przez wiele lat dla wielu różnych schorzeń.

W waszym artykule porównaliście model do prognozy pogody, i dla ludzi jest jasne, że nie zawsze można znać prognozę pogody na miesiąc, ale prognoza na następny dzień lub tydzień jest bardzo ważna i na jej podstawie podejmujemy decyzje. Czy wasz model jest przeznaczony dla pacjentów, by mogli robić prognozy i podejmować decyzje, czy raczej dla lekarzy, naukowców, a może firm ubezpieczeniowych?

Myślę, że to trochę jedno i drugie. Jednym z łatwych do wyobrażenia zastosowań jest wczesna interwencja zdrowotna w przypadku konkretnej osoby. Model jest bardzo dobry w segregowaniu osób, które mają wysokie ryzyko choroby w ciągu najbliższego roku i które mogłyby istotnie skorzystać na wcześniejszej wizycie u lekarza specjalisty. To bardzo czytelny przypadek użycia takiego modelu i oczekujemy, że przyniesie on poprawę w świadczeniu opieki zdrowotnej na poziomie indywidualnym, ale także umożliwi dostawcom usług zdrowotnych lepsze planowanie zasobów potrzebnych na przykład w ciągu najbliższego roku. Są wokół tego pewne oczekiwania. Model ma też wiele zastosowań badawczych. Na przykład włączenie w taki model genetyki, czy ryzyka genetycznego, by zrozumieć, na jakim etapie życia to ryzyko się ujawnia. Wiele badań dotyczy genetycznego ryzyka różnych chorób i tego, jak genetyka wpływa na ryzyko, ale do tej pory trudno było modelować to w czasie i rozumieć, kiedy w życiu różnych osób ryzyko chorób jest wyższe lub niższe.

A co z prywatnością danych? Dane, których użyliście, były anonimizowane, ale jeśli model ma pomagać pacjentom planować opiekę zdrowotną, to oczywiście dane muszą dotyczyć konkretnej osoby. A pojawia się pytanie, czy firma ubezpieczeniowa, znając takie dane, nie podniesie składek zdrowotnych, co w niektórych krajach może się zdarzyć. Zawsze jest więc problem prywatności...

To świetne pytanie i bardzo ważne, by to dobrze przemyśleć. Wytrenowaliśmy model na bazie UK Biobank, czyli zanonimizowanej grupie ludzi. Wagi wytrenowanego modelu i pochodne z niego dane nie są w żaden sposób udostępniane. Przekazujemy je z powrotem do UK Biobank, które decyduje o dostępie badaczy do tych wag, zgodnie ze swoimi politykami. Trudno sobie wyobrazić sytuację, w której same wagi modelu mogłyby posłużyć do identyfikacji osoby. Nie mówię, że jest to niemożliwe, ale istnieje aktywne pole badań nad tym, czy takie pochodne dane mogą identyfikować kogokolwiek na poziomie indywidualnym. Oczywiście jeśli mówimy o użyciu modelu by ocenić, kiedy choroba może wystąpić, to dane wejściowe do modelu są to dane indywidualne, zapisy zdrowotne konkretnych osób. Takie użycie jest regulowane przez organizacje zarządzające tymi danymi. Myślę o tym w taki sposób, że tak, tego typu modele dają więcej informacji, ale już teraz istnieje wiele testów diagnostycznych i informacji gromadzonych na poziomie indywidualnym. Lepszy wgląd w to, co może się wydarzyć, ma realny potencjał przynieść korzyści społeczeństwu i systemowi opieki zdrowotnej. Wiele organizacji zdrowotnych musi podejmować trudne decyzje dotyczące alokacji zasobów na najbliższy rok czy dwa, a my uważamy, że ten model może naprawdę pomóc w optymalizacji planowania zasobów i świadczenia opieki.

A co z samym pacjentem? Informacja - posłużmy się porównaniem do pogody - wiadomość, że za tydzień będzie burza w pobliżu domu, może nie być bardzo alarmująca, ale informacja, że za pięć lat jest bardzo wysokie ryzyko zawału serca, może być dużym stresem dla pacjenta. Jeśli nie jest to informacja stuprocentowo pewna, umożliwienie ludziom sprawdzania czegoś takiego może być dla nich dużym obciążeniem. Niektórzy mogą chcieć wiedzieć, niektórzy woleliby nie wiedzieć, niektórzy mogliby próbować zapobiegać chorobom np. dietą czy aktywnością fizyczną, ale niektórym chorobom trudno zapobiec. Co sądzi pan o możliwym włączeniu tego modelu do naszego życia, do naszego sposobu myślenia o przyszłości?

To fascynujące pytanie. Lubię analogię do pogody. Nasz model zdecydowanie podaje prawdopodobieństwa, a nie pewniki. I to musi być dobrze zrozumiane. To trochę jak prognoza 70 proc. szans na deszcz jutro. Myślę, że ludzie potrafią zrozumieć taki poziom prawdopodobieństwa. Ważne jest jednak, by pamiętać, że to są prognozy i nie chcemy straszyć ludzi czymś bezpodstawnym. Inną dobrą analogią jest genetyka czy genomika i coraz większa liczba osób znających swoje predyspozycje genetyczne. To jest dobrze znany obszar zainteresowań w środowisku, które się genetyka zajmuje. Kiedy ktoś ma zsekwencjonowany genom, mogą pojawić się nagle wyniki, których dana osoba może nie chcieć znać. Procedury zostały tu wdrożone na szeroką skalę i skutecznie, jeśli chodzi o zrozumienie tego ryzyka. Uważam, że to bardzo ważna kwestia do rozważenia, ale podkreślam, że to narzędzie dodatkowe, które daje bardziej świadomy obraz prawdopodobnego przebiegu w przyszłości. Oczywiście można mieć nadzieję, że ludzie zmienią styl życia, jeśli mają ryzyko choroby serca w ciągu roku, ale to decyzje, które ludzie podejmują codziennie. Ludzie wiedzą, że palenie zwiększa ryzyko raka płuc i w pewnym wieku mogą być narażeni na różne choroby w zależności od stylu życia. To sposób na to, by dać ludziom więcej wiedzy o sobie i o populacji jako całości, jak zmieniają się wskaźniki chorób na przestrzeni lat.

Pozwolę sobie na ostatnie pytanie o przyszłość i o możliwość trenowania modelu na danych genomowych lub dotyczących poziomów różnych markerów we krwi. Czy planujecie państwo to zrobić w ciągu roku, dwóch?

Mamy już pewne modele, które w UK Biobank, czyli w tej zanonimizowanej bazie, integrują pewne aspekty genetyki w ramach tego samego modelu. W przypadku niektórych chorób ma to istotne znaczenie dla dokładności przewidywań. To coś, nad czym aktywnie pracujemy, podobnie jak nad włączeniem biomarkerów i bardziej rozbudowanych informacji demograficznych. Są też fascynujące wyzwania techniczne i innowacje, które trzeba w modelu wprowadzić, by prezentować te informacje w sposób bardziej użyteczny. Głównym zastosowaniem pozostaje oczywiście przewidywanie chorób, ale są też inne zastosowania tych modeli, które mogą być bardzo przydatne w badaniach naukowych.