W świecie technologii prawniczych (LegalTech) panuje obecnie gorączka złota.

W świecie technologii prawniczych (LegalTech) panuje obecnie gorączka złota. Kancelarie i działy prawne prześcigają się we wdrażaniu rozwiązań opartych na dużych modelach językowych (LLM). W tej ekscytacji łatwo jednak przeoczyć jeden, techniczny detal, który z perspektywy tajemnicy adwokackiej i RODO jest bombą z opóźnionym zapłonem.
Mowa o różnicy między używaniem modelu a jego trenowaniem.
Jesteśmy przyzwyczajeni do tego, że dokumenty można zniszczyć, dane usunąć, a pliki nadpisać. W świecie generatywnej sztucznej inteligencji te zasady przestają obowiązywać w momencie, gdy wyrażamy (często nieświadomą) zgodę na wykorzystanie naszych danych do “ulepszania usług”.
W tym artykule wyjaśnimy, co dokładnie dzieje się z danymi, które trafiają do “treningu”, dlaczego stają się niemożliwe do usunięcia i w jaki sposób mogą wypłynąć w najmniej oczekiwanym momencie.
Aby zrozumieć zagrożenie, musimy najpierw zdefiniować dwa pojęcia, które często są mylone.
Większość darmowych lub tanich narzędzi AI domyślnie korzysta z drugiej opcji. Płacisz za usługę swoimi danymi.
Modele LLM nie są bazami danych. Nie przechowują tekstu w formacie Worda czy PDF-a, który można znaleźć i skasować. One przechowują wagi – matematyczne reprezentacje powiązań między słowami i konceptami.
Kiedy model trenuje się na Twoich danych (np. projekcie poufnej fuzji spółek), modyfikuje swoje wewnętrzne parametry tak, aby lepiej przewidywać kolejne słowa w podobnych kontekstach. Twoja poufna umowa przestaje być dokumentem – staje się częścią statystycznej struktury modelu.
Można to porównać do tego, jak modele radzą sobie z orzecznictwem. Każdy prawnik korzystający z ChatGPT zauważył pewnie, że model potrafi zacytować konkretną sygnaturę akt lub artykuł ustawy. Czasem robi to bezbłędnie, a czasem “zmyśla” (halucynuje), łącząc fakty z różnych spraw. Dlaczego tak się dzieje? Bo model “widział” te sygnatury podczas treningu. One “wypaliły” ślad w jego sieci neuronowej.
Dokładnie to samo stanie się z danymi Twojego klienta, jeśli trafią do zbioru treningowego. Model zacznie “kojarzyć” nazwy firm, kwoty transakcji czy nazwiska z konkretnymi kontekstami prawnymi.
Według ekspertów ds. prywatności „jeśli udostępniasz wrażliwe informacje w rozmowie z ChatGPT, Gemini lub innymi czołowymi modelami, mogą one być zbierane i używane do treningu, nawet jeśli dane zostały przesłane w osobnym pliku podczas sesji.” — Jennifer King z Stanford Institute for Human-Centered AI.
Nie są to tylko teoretyczne obawy. W USA w 2025 wniesiono pozew przeciwko LinkedIn, w którym twierdzono, że prywatne wiadomości premium użytkowników zostały użyte do trenowania modeli AI bez jasnej zgody.
Największym niebezpieczeństwem nie jest to, że ktoś włamie się do serwera dostawcy AI. Ryzykiem jest sama natura modelu.
Gdy dane zostaną wchłonięte przez model, tracisz kontrolę nad tym, kiedy i komu zostaną one “zwrócone”. Wystarczy, że inny użytkownik tego samego modelu (np. prawnik strony przeciwnej lub dziennikarz) wpisze zapytanie (prompt), które przypadkowo zadziała jak zapalnik (trigger).
Może to wyglądać niewinnie:
“Napisz mi klauzulę o zakazie konkurencji dla dyrektora w branży automotive, uwzględniając specyficzne warunki dla rynku polskiego…”
Jeśli model był trenowany na Twoich, bardzo specyficznych umowach z tej branży, istnieje niezerowe prawdopodobieństwo, że jego wagi aktywują się w taki sposób, że wygeneruje on tekst łudząco podobny do Twojego autorskiego rozwiązania, a w skrajnych przypadkach – może “wypluć” fragmenty zawierające dane osobowe lub nazwy własne, które zapamiętał.
Użytkownik po drugiej stronie nawet nie będzie wiedział, że otrzymał czyjąś tajemnicę przedsiębiorstwa. Uzna to za “kreatywność” sztucznej inteligencji.
W systemach IT, jakie znamy, usuwanie danych jest proste. Administrator wydaje komendę usunięcia rekordu z bazy SQL i dane znikają.
W przypadku wytrenowanego LLM-a, usunięcie konkretnej informacji jest technicznie niemal niemożliwe. Wiedza o Twoim kliencie jest rozproszona w miliardach parametrów modelu, jak kropla atramentu w szklance wody. Nie da się wyciągnąć atramentu z powrotem, nie wylewając całej wody.
Dyscyplina zwana Machine Unlearning (oduczanie maszynowe) jest wciąż w powijakach i nie daje żadnych gwarancji skuteczności. W praktyce, aby usunąć dane klienta z modelu, dostawca musiałby:
Bądźmy realistami – żaden globalny dostawca technologii nie zrobi tego dla jednej kancelarii z Polski. W momencie, gdy dane trafiają do treningu, tracisz nad nimi kontrolę na zawsze.
Rozumiejąc te zagrożenia, w Gaius przyjęliśmy radykalną, ale jedyną słuszną z punktu widzenia etyki prawniczej zasadę: Zero Training Policy.
Gaius-Lex został zaprojektowany jako narzędzie czysto inferencyjne.
Dzięki temu eliminujemy ryzyko, że strategia procesowa, którą opracowałeś dziś w Warszawie, wypłynie jako “sugestia AI” w kancelarii w Nowym Jorku czy Londynie.
Jesteśmy powiernikami najgłębszych sekretów naszych klientów. W erze AI musimy rozszerzyć naszą definicję należytej staranności. Nie wystarczy już zamykać szafy pancernej na klucz. Trzeba wiedzieć, czy cyfrowy asystent, któremu dyktujemy pismo, nie “uczy się” go na pamięć, by podzielić się tą wiedzą ze światem.
Zanim wgrasz kolejny plik do chmury, zadaj dostawcy jedno proste pytanie: “Czy moje dane służą do treningu modelu?”. Jeśli odpowiedź nie brzmi stanowcze “NIE”, to znaczy, że właśnie godzisz się na niekontrolowany wyciek informacji, którego nie da się cofnąć.