Wyobraźmy sobie bliską przyszłość. W pośpiechu, wychodząc z domu, rzucasz polecenie do swojego iPhonie: „Siri, znajdź mi loty do Rzymu na przyszły weekend, zarezerwuj najlepszą opcję poniżej 2000 zł w hotelu blisko Koloseum i wyślij potwierdzenie do Anny”. Na pierwszy rzut oka to szczyt wygody – jeden komunikat, który załatwia zadanie wymagające normalnie otwarcia kilku aplikacji, porównywania ofert i pisania wiadomości. Ale zatrzymajmy się na chwilę. Co, jeśli sztuczna inteligencja, Twój nowy, superinteligentny asystent, zarezerwuje bilet bezzwrotny na zły termin? Albo, co gorsza, wyśle prywatne dane rezerwacji, w tym numer karty kredytowej, do niewłaściwej Anny z Twojej listy kontaktów?
Ten hipotetyczny scenariusz doskonale ilustruje dylemat, przed którym stanęła cała branża technologiczna, a w szczególności Apple. Z jednej strony, autonomiczni agenci AI obiecują rewolucję w sposobie, w jaki korzystamy z technologii, upraszczając nasze życie w stopniu dotąd niewyobrażalnym. Z drugiej strony, każdy krok w stronę większej autonomii to krok w stronę większego ryzyka. To właśnie ten dylemat leży u podstaw jednego z najważniejszych wyzwań dla następnej generacji komputerów osobistych: jak zbudować sztuczną inteligencję, która jest wystarczająco potężna, by być użyteczną, ale jednocześnie na tyle mądra i ostrożna, by być bezpieczną? Problem bezpieczeństwa agentów AI nie jest techniczną ciekawostką, ale fundamentalną barierą dla ich masowej adopcji. Bez jej rozwiązania, asystenci AI pozostaną albo niebezpiecznymi zabawkami, albo systemami o bardzo ograniczonym zaufaniu i funkcjonalności.
Problem z „beztroskimi” agentami AI
Aby zrozumieć skalę wyzwania, trzeba najpierw pojąć, jak działają dzisiejsi agenci AI. W ostatnich latach branża technologiczna poczyniła ogromne postępy w rozwiązywaniu problemu „jak”. Nowoczesne modele potrafią nawigować po skomplikowanych interfejsach użytkownika, rozpoznawać przyciski, wypełniać formularze i wykonywać kliknięcia z rosnącą precyzją. Jednakże, w dużej mierze nierozwiązany pozostaje problem „co” i „dlaczego” – czyli zrozumienie realnych konsekwencji tych działań.
Dla obecnych modeli sztucznej inteligencji, kliknięcie przycisku „Odśwież” na portalu społecznościowym i naciśnięcie „Przelej środki” w aplikacji bankowej to technicznie bardzo podobne zadania. W obu przypadkach algorytm musi zlokalizować odpowiedni element na ekranie i wykonać na nim akcję. Brakuje mu jednak fundamentalnego, ludzkiego zrozumienia, że konsekwencje tych dwóch działań są diametralnie różne. Jedno jest trywialne i odwracalne, drugie może mieć poważne i nieodwracalne skutki finansowe.
Ten „martwy punkt” w rozwoju AI wynika częściowo z tego, jak te systemy były dotychczas trenowane. Większość badań i publicznie dostępnych zbiorów danych koncentrowała się na zadaniach o niskim ryzyku, takich jak przeglądanie stron internetowych, wyszukiwanie informacji czy prosta nawigacja w aplikacjach. Stworzyło to sytuację, w której agenci AI stali się sprawnymi operatorami interfejsów, ale pozostali nieświadomi znaczenia swoich czynów.
Fundamentalna przyczyna tego stanu rzeczy leży w samej architekturze dużych modeli językowych, które stanowią mózg tych agentów. Są one trenowane na ogromnych zbiorach danych tekstowych i graficznych, aby rozpoznawać wzorce. Ich „inteligencja” polega na statystycznym dopasowywaniu, a nie na kauzalnym, przyczynowo-skutkowym rozumieniu świata. Model może nauczyć się, że naciśnięcie przycisku z napisem „Kup teraz” często prowadzi do ekranu z potwierdzeniem zamówienia, ale nie „rozumie” pojęć własności, wartości pieniądza czy nieodwracalności transakcji w taki sposób, jak rozumie je człowiek. To fundamentalne niedopasowanie między zdolnością technologii do rozpoznawania wzorców a potrzebą rozumienia rzeczywistych, ludzkich konsekwencji sprawia, że samo dalsze „skalowanie” obecnych modeli – czyli trenowanie ich na jeszcze większej ilości danych – może nie rozwiązać problemu „beztroskich” agentów.
„Mapa Ryzyka” od Apple – Jak nauczyć AI ostrożności
Właśnie w tym krytycznym momencie na scenę wkracza Apple. W pracy badawczej zatytułowanej „From Interaction to Impact: Towards Safer AI Agents”, opublikowanej we współpracy z naukowcami z Uniwersytetu Waszyngtońskiego, firma podjęła próbę systemowego rozwiązania tego problemu. Zamiast skupiać się na poprawie mechaniki działania agentów, badacze skoncentrowali się na stworzeniu czegoś, co można nazwać „mapą ryzyka” lub swoistym „kodeksem drogowym” dla sztucznej inteligencji.
Krok 1: Stworzenie taksonomii wpływu
Pierwszym krokiem było zdefiniowanie, czym w ogóle jest „ryzyko” w kontekście interakcji z interfejsem mobilnym. W tym celu Apple zorganizowało serię warsztatów z udziałem ekspertów od bezpieczeństwa AI, projektowania interfejsów i dużych modeli językowych. Efektem ich pracy była szczegółowa „taksonomia wpływu” – ustrukturyzowana lista kontrolna, którą AI powinno „przejść” w myślach przed podjęciem jakiejkolwiek akcji.
Ta taksonomia analizuje każdą potencjalną akcję pod wieloma kątami, zadając pytania, które dla człowieka są intuicyjne, ale dla maszyny stanowią ogromne wyzwanie :
Odwracalność: Czy tę akcję można łatwo cofnąć? Usunięcie e-maila do kosza jest odwracalne jednym kliknięciem, ale jego trwałe skasowanie już nie. Przelanie pieniędzy jest zazwyczaj nieodwracalne bez angażowania dodatkowych procedur.
Wpływ finansowy: Czy ta akcja wiąże się z wydatkiem pieniędzy?
Wpływ na prywatność: Czy działanie zmienia ustawienia prywatności, udostępnia komuś moje dane lub lokalizację?
Wpływ na innych: Czy akcja dotyczy tylko mnie, czy też informuje lub wpływa na inne osoby? Zmiana statusu w komunikatorze na „zajęty” ma inny ciężar gatunkowy niż wysłanie wiadomości do grupy 200 osób.
Wpływ na interfejs i dane: Czy akcja trwale zmienia wygląd aplikacji, usuwa dane, czy tylko tymczasowo modyfikuje widok?
Stworzenie tej taksonomii to fundamentalny krok, ponieważ daje ona sztucznej inteligencji ramy pojęciowe do „rozumowania” na temat ludzkich intencji i potencjalnych negatywnych skutków.
Krok 2: Zbieranie danych wysokiego ryzyka
Sama taksonomia to jednak za mało. AI potrzebuje przykładów, aby się uczyć. Jak wspomniano, istniejące zbiory danych były zbyt „bezpieczne” i nie zawierały scenariuszy, w których coś mogłoby pójść nie tak. Aby wypełnić tę lukę, badacze Apple stworzyli symulowane środowisko mobilne i poprosili uczestników badania o wykonywanie zadań, które uznaliby za „niekomfortowe”, gdyby AI wykonała je bez ich wyraźnej zgody.
Uczestnicy nagrywali swoje interakcje w takich scenariuszach jak zmiana hasła do konta, wysyłanie potencjalnie drażliwych wiadomości, edycja danych profilowych w mediach społecznościowych czy dokonywanie transakcji finansowych. W ten sposób powstał unikalny zbiór danych, który po raz pierwszy koncentrował się nie na sukcesie wykonania zadania, ale na jego potencjalnym wpływie i ryzyku.
Inicjatywa Apple stanowi zmianę paradygmatu w ocenie sztucznej inteligencji. Dotychczasowe benchmarki dla agentów UI mierzyły głównie skuteczność – czy agent kliknął właściwy przycisk i dotarł do celu. Badanie Apple wprowadza zupełnie nowy, kluczowy wymiar oceny: zrozumienie konsekwencji. Zamiast pytać „Czy AI potrafi to zrobić?”, Apple zaczyna pytać „Czy AI rozumie, co robi?”. W ten sposób firma nie tylko próbuje rozwiązać konkretny problem, ale redefiniuje, co to znaczy „dobry” agent AI. W świecie Apple „dobry” agent to nie ten najszybszy czy najsprawniejszy, ale ten najbardziej godny zaufania. To tworzy nowy standard dla całej branży, przesuwając fokus z czystej wydajności na bezpieczeństwo i zgodność z intencjami użytkownika.
Brutalna rzeczywistość – nawet najlepsze AI oblewa test
Po stworzeniu taksonomii i zebraniu danych nadszedł czas na test. Badacze Apple postanowili sprawdzić, jak z tym nowym, trudnym zadaniem poradzą sobie najnowocześniejsze duże modele językowe, w tym różne wersje GPT-4 od OpenAI oraz Gemini od Google. Wyniki okazały się otrzeźwiające i stanowią punkt zwrotny w narracji o możliwościach dzisiejszej AI.
Nawet najlepszy z testowanych modeli – GPT-4 Multimodal – osiągnął dokładność w prawidłowej klasyfikacji ryzyka akcji na poziomie zaledwie 58%. To wynik, który w wielu kategoriach jest niebezpiecznie bliski losowemu zgadywaniu i pokazuje, jak daleka jest jeszcze droga do celu.
Analiza błędów popełnianych przez modele jest jeszcze bardziej pouczająca. Można je podzielić na dwie główne kategorie:
Nadmierna ostrożność: Modele bardzo często klasyfikowały zupełnie trywialne i bezpieczne akcje jako wysoce ryzykowne. Sztandarowym przykładem przytaczanym w badaniu jest czyszczenie historii w aplikacji kalkulatora, która i tak była pusta. Na pierwszy rzut oka taka „ostrożna stronniczość” może wydawać się bezpieczniejsza. W praktyce jednak prowadzi do stworzenia asystenta, który jest irytujący i bezużyteczny, ponieważ co chwilę prosi o potwierdzenie banalnych operacji, podważając sens automatyzacji.
Brak zrozumienia niuansów: Co znacznie bardziej niepokojące, modele miały ogromne problemy z oceną bardziej złożonych, wielowymiarowych sytuacji. Trudność sprawiało im rozstrzygnięcie, czy dana akcja jest odwracalna, jaki będzie jej dokładny wpływ na inne osoby, czy wiąże się z ukrytymi kosztami. To właśnie w tych „szarych strefach” kryje się największe zagrożenie – agent, który bez pytania usunie konto w serwisie lub wyśle poufną informację, może spowodować katastrofalne w skutkach szkody.
Ten słaby wynik nie jest jedynie informacją, że „AI potrzebuje więcej treningu”. Jest on empirycznym dowodem wspierającym szerszą krytykę dużych modeli językowych, którą zresztą formułowali w innych badaniach sami naukowcy Apple. Krytyka ta sprowadza się do tezy o „iluzji myślenia”. Sugeruje ona, że obecne modele, mimo iż potrafią generować zdumiewająco spójny i ludzko brzmiący tekst, w rzeczywistości są jedynie niezwykle zaawansowanymi systemami dopasowywania wzorców („sophisticated pattern matching”), a nie systemami zdolnymi do prawdziwego, przyczynowo-skutkowego rozumowania (w tym miejscu chcemy jednak zaznaczyć, że wielu innych badaczy negatywnie ocenia te wnioski)
Model AI „widzi” w swoich danych treningowych, że słowo „usuń” często występuje w kontekście słowa „ryzyko”. Dlatego flaguje taką akcję. Nie rozumie jednak dlaczego usunięcie ważnego pliku jest ryzykowne, a usunięcie pustej historii w kalkulatorze – nie. Brak tego fundamentalnego zrozumienia sprawia, że myli te dwie sytuacje.
To prowadzi do niepokojącego wniosku: problem bezpieczeństwa agentów AI może nie być w pełni rozwiązywalny w ramach obecnego paradygmatu technologicznego. Być może potrzebujemy nie tylko lepszych i bardziej zróżnicowanych danych treningowych, ale zupełnie nowych architektur AI. Architektury, które posiadają wbudowane „modele świata”, pozwalające im symulować i przewidywać skutki swoich działań w sposób przyczynowo-skutkowy, a nie tylko statystyczny. W tym świetle, badanie Apple jest nie tylko raportem o aktualnym stanie technologii, ale także subtelnym, lecz potężnym sygnałem o jej fundamentalnych ograniczeniach.
Jaka przyszłość nas czeka? Od aplikacji do intencji
Badania Apple nad bezpieczeństwem agentów AI to nie tylko wewnętrzna sprawa firmy. To zwiastun fundamentalnej zmiany w sposobie, w jaki będziemy wchodzić w interakcję z technologią – zmiany, która niesie ze sobą zarówno ekscytujące możliwości, jak i głębokie wyzwania społeczne i poznawcze.
Zmiana paradygmatu interakcji
Przez ostatnie dekady dominującym modelem interakcji człowiek-komputer była „manipulacja bezpośrednia”. Używaliśmy myszki i palców, aby klikać w ikony, przeciągać okna i wybierać opcje z menu. Byliśmy bezpośrednimi operatorami maszyny. Nadejście zaawansowanych agentów AI zapowiada erę „interfejsu opartego na intencjach”. Zamiast mówić komputerowi jak ma coś zrobić (kliknij tu, wpisz tam), będziemy mówić mu co chcemy osiągnąć („zarezerwuj mi podróż do Rzymu”).
To prowadzi do rewolucyjnego pytania: czy aplikacje, jakie znamy, staną się przestarzałe?. W nowym paradygmacie agent AI staje się uniwersalnym interfejsem do całego cyfrowego świata. Poszczególne aplikacje mogą zostać zdegradowane do roli „narzędzi” lub „dostawców API”, z których agent korzysta w tle, niewidocznie dla użytkownika. Użytkownik nie musi już wiedzieć, że do rezerwacji lotów służy aplikacja X, a do rezerwacji hotelu aplikacja Y. Po prostu wyraża swoją intencję, a agent orkiestruje działanie odpowiednich usług, aby ją zrealizować.
Skutki społeczne i poznawcze
Ta potężna automatyzacja nie pozostanie bez wpływu na nas samych. Delegowanie coraz bardziej złożonych zadań – planowania, researchu, porównywania, a nawet podejmowania decyzji – na sztuczną inteligencję rodzi poważne pytania o przyszłość ludzkich kompetencji.
Jednym z najczęściej dyskutowanych zagrożeń jest zjawisko „deskilling”, czyli utraty umiejętności. Analogia do pilotów samolotów jest tu niezwykle trafna. Nowoczesne systemy autopilota są w stanie technicznie zarządzać każdym aspektem lotu, od startu do lądowania. Mimo to, piloci są zobowiązani do regularnego ręcznego wykonywania najtrudniejszych manewrów, takich jak lądowanie, właśnie po to, aby nie utracić kluczowych umiejętności na wypadek awarii systemu. Jeśli całkowicie zdamy się na AI w kwestii planowania podróży, zarządzania finansami czy nawet pisania złożonych tekstów, czy nie ryzykujemy, że nasze własne zdolności w tych obszarach ulegną atrofii?
Z tym wiąże się jeszcze głębsze zjawisko psychologiczne, znane jako „wyuczona bezradność”. Badania psychologiczne pokazują, że nadmierne i stałe poleganie na zewnętrznej pomocy może prowadzić do spadku poczucia własnej skuteczności i do przekonania, że nasz wysiłek i tak nie ma znaczenia. Student, który do pisania każdej pracy używa ChatGPT, może z czasem stracić wiarę we własne zdolności intelektualne i motywację do samodzielnego myślenia. Czy wszechmocny, osobisty asystent AI, który rozwiązuje za nas problemy, zanim zdążymy się nad nimi zastanowić, nie sprawi, że staniemy się bardziej pasywni, mniej kreatywni i mniej zmotywowani do podejmowania wyzwań?
Całe praca dostępna tu – https://arxiv.org/pdf/2410.09006
