Nie tylko propaganda w sieci. Rosyjskie treści mogą zasilać AI 

Jak informuje PAP rosyjskie źródła wypełniają Wikimedia Commons materiałami o aneksji Krymu. Ekspert ostrzega, że takie treści mogą później zasilać modele AI.

Władimir PutinWładimir Putin
Źródło zdjęć: © EPA, PAP | GAVRIIL GRIGOROV / SPUTNIK / KREMLIN POOL
Anna Wajs-Wiejacka

Najważniejsze informacje

  • W wynikach wyszukiwania hasła aneksja Krymu na Wikimedia Commons ponad 40 z 51 materiałów ma pochodzić z rosyjskich źródeł.
  • Marcin Żabiński ocenia, że repozytorium jest ważne dla modeli AI, bo służy im do trenowania i pobierania wiedzy o świecie.
  • Wikimedia Polska nie potwierdza skoordynowanej rosyjskiej ingerencji i wskazuje na znaczenie otwartych licencji.

Wikimedia Commons to otwarte repozytorium zdjęć, nagrań i filmów, które działa na tej samej technologii co Wikipedia i może być edytowane przez użytkowników. Jak podaje PAP, serwis gromadzi ponad 140 mln plików. Marcin Żabiński z Instytutu Technologii Społeczno-Politycznych Kybernetes ocenia, że Rosja wykorzystuje tę przestrzeń do rozpowszechniania własnej narracji.

Przykład, na który wskazał ekspert, dotyczy wyszukiwania hasła aneksja Krymu w angielskiej wersji repozytorium. Wśród 51 wyników ponad 40 ma pochodzić z oficjalnej strony prezydenta Federacji Rosyjskiej albo z rosyjskiej Niezależnej Telewizji Sewastopol. Wśród tych materiałów są nagrania wieców poparcia dla przyłączenia Krymu do Rosji oraz treści związane z Denysem Berezowskim.

Wtedy Putin użyje broni nuklearnej. Parafianowicz tłumaczy

Dlaczego Wikimedia Commons jest ważna dla AI

Zdaniem Żabińskiego skala obecności takich materiałów nie jest przypadkowa, bo Wikimedia Commons stała się istotnym zapleczem dla sztucznej inteligencji. To ma znaczenie, bo modele korzystają już nie tylko z tekstu, ale także z obrazu, dźwięku i wideo.

Wikipedia i Wikimedia Commons stanowią jedno z najważniejszych źródeł dla trenowania, jak i dopytywania przez AI o wiedzę o realnym świecie - wyjaśnił w rozmowie z PAP.

Ten kierunek potwierdza sama Fundacja Wikimedia. Według informacji opublikowanych na jej stronie od 2024 r. przepustowość używana do pobierania multimediów z Wikimedia Commons wzrosła o 50 proc. Za wzrostem nie stali jednak zwykli czytelnicy ani media, ale zautomatyzowane programy przeszukujące katalog obrazów na otwartej licencji i przesyłające je do modeli AI.

Metadane i ukryte instrukcje w obrazach

Ekspert zwrócił uwagę, że problem nie kończy się na samym obrazie. Duże znaczenie mają też metadane, w tym opis pliku, autor i data powstania. - Dużo ciekawszą metainformacją jest krótki opis tego, co jest na zdjęciu. I to już jest bardzo duża przestrzeń do nadużyć, bo może wpływać na to, jak odbiorca lub model językowy ma interpretować plik - zaznaczył. PAP podała też, że Fundacja Wikimedia nie odpowiedziała na pytania agencji do czasu publikacji materiału.

Żabiński ostrzegł również przed steganografią, czyli ukrywaniem dodatkowych informacji w obrazach. - To mogą być instrukcje konkretnie nakazujące zmienić sposób analizy działania lub mające wywołać konkretne działanie po stronie modelu językowego - dodał.

Z kolei Wikimedia Polska w stanowisku dla PAP napisała: "Na podstawie przesłanych przykładów oraz konsultacji z aktywnymi wolontariuszami Wikimedia Commons nie widzimy podstaw, by mówić o udokumentowanej, skoordynowanej ingerencji rosyjskiej w Wikimedia Commons". Stowarzyszenie podkreśliło, że wiele rosyjskich materiałów trafia do repozytorium dlatego, że są publikowane na otwartych licencjach i mogą mieć wartość edukacyjną, co nie oznacza poparcia dla ich narracji.

Wybrane dla Ciebie