Bielik - bo jak inaczej mógłby się nazywać polski model językowy? Bielik jest owocem współpracy Akademickiego Centrum Komputerowego Cyfronet AGH oraz Fundacji SpeakLeash i już można go testować!
Wersja Bielika, którą mogą testować użytkownicy (bielik.ai), jest utrzymywana nieodpłatnie w domenie publicznej i jest wciąż udoskonalana.
Bielik powstał w efekcie prac zespołu działającego w ramach Fundacji SpeakLeash (organizacja, która połączyła ludzi bardzo różnych profesji, a za cel postawiła sobie stworzenie największego polskiego zbioru danych tekstowych wzorowanego na zagranicznych inicjatywach jak The Pile) oraz Akademickiego Centrum Komputerowego Cyfronet AGH (udostępniło właśnie zasoby obliczeniowe dwóch najszybszych aktualnie superkomputerów w Polsce - Heliosa i Atheny - do stworzenia polskiego modelu językowego). Prace zespołu nad polskim modelem językowym trwały ponad rok, a ich pierwotny zakres obejmował m.in. zbieranie danych, ich przetwarzanie oraz klasyfikację. Tak powstał Bielik: polski model z kategorii LLM (z ang. Large Language Models), tj. duży model językowy, posiadający 11 miliardów parametrów.
- Najtrudniejsze zadanie polegało na pozyskaniu danych w języku polskim. Musimy operować wyłącznie na danych źródłowych, co do których mamy pewność, jakie jest ich pochodzenie – tłumaczy pomysłodawca Bielika, Sebastian Kondracki ze SpeakLeash.
Bielikowi rozwinąć skrzydła pomogły superkomputery z Akademickiego Centrum Komputerowego Cyfronet AGH. Współpraca kadry z Akademii Górniczo-Hutniczej w Krakowie z fundacją Speakleash umożliwiła wykorzystanie odpowiednich mocy obliczeniowych niezbędnych do stworzenia modelu i wsparcie zespołu SpeakLeash niezbędną wiedzą ekspercką oraz naukową gwarantując sukces wspólnego projektu.
- Zasoby Heliosa, najszybszej aktualnie maszyny w Polsce, wykorzystaliśmy do uczenia modeli językowych – precyzuje Marek Magryś, zastępca dyrektora ACK Cyfronet AGH ds. Komputerów Dużej Mocy. – Nasza rola polega na wsparciu wiedzą ekspercką, doświadczeniem i przede wszystkim mocą obliczeniową procesu katalogowania, zbierania, przetwarzania danych oraz na wspólnym przeprowadzeniu procesu uczenia modeli językowych.
- Jeśli operujemy tak dużymi danymi jak w przypadku projektu Bielik, to oczywiście infrastruktura potrzebna do pracy przekracza zdolności zwykłego komputera. Musimy dysponować mocą obliczeniową potrzebną tylko do tego, żeby przygotowywać dane, porównywać je ze sobą, trenować modele. Bariera dostępności tego typu superkomputerów powoduje, że mało która firma jest w stanie takie prace prowadzić samodzielnie. Szczęśliwie AGH dysponuje takim zapleczem – wyjaśnia prof. Kazimierz Wiatr, dyrektor ACK Cyfronet AGH.
Bielik a chat GPT – podstawowe różnice
- Zbiór danych zasilających Bielika cały czas rośnie, jednak trudno będzie nam się ścigać z zasobami wykorzystywanymi przez inne modele, które funkcjonują w języku angielskim. Poza tym liczba treści w internecie, która funkcjonuje w języku polskim jest znacznie mniejsza niż w angielskim – wyjaśniają twórcy.
Najbardziej popularnym produktem wykorzystującym duży model językowy jest ChatGPT. Konieczność opracowywania modeli językowych w różnych innych językach znajduje jednak swoje uzasadnienie.
Marek Magryś podkreśla: - O ile ChatGPT potrafi mówić w języku polskim, to nasycony jest treściami w języku angielskim. W związku z tym ma nikłe pojęcie na temat np. polskiej kultury czy niuansów polskiej literatury. Nie do końca też sobie radzi ze zrozumieniem logiki bardziej skomplikowanych tekstów np. prawnych czy medycznych. Jeśli chcielibyśmy zastosować go w tych właśnie specjalistycznych obszarach i mieć model językowy, który dobrze rozumuje w języku polskim i odpowiada poprawną polszczyzną, to nie możemy opierać się wyłącznie na zagranicznych modelach językowych.
- Warto wiedzieć, że Bielik będzie bardzo dobrze sprawdzał się w zakresie np. streszczania treści. Już w tym momencie nasz model ma swoją użyteczność w obszarze naukowym oraz biznesowym, może służyć na przykład do usprawnienia komunikacji z użytkownikami podczas obsługi zgłoszeń w Helpdesku – wyjaśnia Szymon Mazurek z ACK Cyfronet AGH.
Opr. MT
Fragment wyjaśniający, dlaczego warto opracowywać modele językowe w językach innych niż angielski, wygenerowany przez Bielika
Opracowywanie modeli językowych w językach innych niż angielski może przynieść wiele korzyści, zarówno w badaniach lingwistycznych, jak i w praktycznych zastosowaniach technologii. Oto kilka powodów, dla których warto to robić:
- Lepsze zrozumienie różnorodności językowej: modele językowe oparte na angielskim mogą nie uwzględniać w pełni specyfiki innych języków, co prowadzi do uprzedzeń lub niedokładności w rozumieniu i tłumaczeniu treści
w innych językach. Rozwijanie modeli dla innych języków pozwala na lepsze zrozumienie ich gramatyki, słownictwa i kontekstu kulturowego. - Poprawa jakości tłumaczeń: modele językowe odgrywają kluczową rolę
w automatycznym tłumaczeniu tekstów. Opracowując modele dla mniej popularnych języków, można poprawić jakość tłumaczeń, eliminując błędy
i niejasności wynikające z braku zrozumienia specyfiki tych języków. - Wsparcie dla społeczności językowych: rozwijanie modeli językowych dla mniejszościowych języków może mieć pozytywny wpływ na te społeczności, ułatwiając komunikację i dostęp do informacji w ich rodzimym języku.
- Otwieranie drzwi do badań nad różnorodnością językową: modele językowe mogą pomóc w badaniu podobieństw i różnic między językami, co jest kluczowe dla zrozumienia ewolucji i dywergencji języków na całym świecie.
- Ulepszanie narzędzi AI: rozwój modeli językowych w różnych językach poszerza zakres zastosowań technologii AI, umożliwiając tworzenie bardziej zaawansowanych systemów wykorzystujących języki naturalne w sposób bardziej precyzyjny i trafny.
- Chronienie językowej różnorodności świata: popularyzacja języków obcych często prowadzi do marginalizacji lokalnych dialektów i języków. Rozwijanie modeli językowych dla mniej znanych języków może pomóc w ochronie różnorodności językowej na całym świecie.