Bielik.AI wprowadza dwa nowe modele draftowe, które skracają czas odpowiedzi nawet kilkukrotnie

Na zdj. Krzysztof Ociepa z Fundacji SpeakLeash | mat. prasowe

Fundacja SpeakLeash, która rozwija rodzinę modeli językowych Bielik.AI, stworzyła razem z Akademickim Centrum Komputerowym Cyfronet AGH dwa nowe modele draftowe, skracające czas odpowiedzi generowanych przez Bielika nawet kilka razy. Adaptery wykorzystują zastosowaną po raz pierwszy w Polsce technologię DFlash, zwiększając efektywność najnowszych modeli Bielik i Bielik Minitron bez utraty jakości. 

Nowe modele draftowe Bielik-11B-v3.0-DFlash oraz Bielik-Minitron-7B-v3.0-DFlash umożliwiają generowanie odpowiedzi w krótszym czasie i przy mniejszej liczbie przetwarzanych tokenów, co przekłada się na oszczędności dla biznesu. Podczas ich trenowania zastosowano autorskie podejście opracowane we frameworku ALLaMo, którego twórcą jest Krzysztof Ociepa, Head of Model Training w Bielik.AI.

Stworzyliśmy rozwiązanie oparte na algorytmie DFlash, które pozwala znacząco zwiększyć przepustowość inferencji. Jest to szczególnie istotne dla firm budujących produkty AI, które obsługują tysiące użytkowników jednocześnie. Dzięki uruchamianiu Bielika wraz z nowymi modelami draftowymi przedsiębiorstwa będą mogły kilkukrotnie skrócić czas generowania odpowiedzi oraz obniżyć koszty infrastruktury – mówi Krzysztof Ociepa, head of model training w Bielik.AI.

DFlash to jedna z najnowszych metod zaawansowanej techniki dekodowania spekulatywnego
(ang. speculative decoding), która pozwala na optymalizację sztucznej inteligencji poprzez istotne przyspieszenie działania modeli AI bez pogarszania jakości generowanych odpowiedzi. Polega ona na połączeniu pracy dwóch modeli – lekkiego modelu draftowego z modelem docelowym. Pierwszy z nich nie proponuje pojedynczych słów, lecz całe fragmenty wypowiedzi, a drugi błyskawicznie poddaje je weryfikacji, zamiast tworzyć odpowiedź od podstaw, jak to ma miejsce w przypadku standardowych rozwiązań. 

Zadaniem adapterów stworzonych przez zespół Fundacji SpeakLeash jest współpraca z większymi modelami językowymi w środowiskach obsługujących DFlash, takich jak najnowsze wersje vLLM i SGLang. Modele draftowe nie są przeznaczone do samodzielnego uruchamiania.

Publikacja modeli DFlash rozpoczyna kolejny etap rozwoju polskiego ekosystemu modeli językowych Bielik i dowodzi, że innowacje w obszarze wydajności LLM-ów powstają także poza murami globalnych laboratoriów AI – podsumowuje Krzysztof Ociepa z Fundacji SpeakLeash. 

Nowe modele draftowe Bielika można pobrać w serwisie Hugging Face:

Partnerami strategicznymi Bielik.AI są EY oraz InPost. Do grona partnerów należą również: Deviniti oraz Dell Technologies.