Узбекистан создаёт национальную языковую модель искусственного интеллекта. Что это такое и какой она будет?

В Узбекистане началась разработка национальной языковой модели искусственного интеллекта. Специалисты считают, что это обеспечит цифровой суверенитет, сохранит культурную идентичность и даст толчок развитию ИИ в медицине, образовании и других сферах. Подробнее — в материале «Газеты».

Национальная модель искусственного интеллекта появится в Узбекистане. Это предусмотрено Стратегией развития технологий искусственного интеллекта до 2030 года, принятой в октябре прошлого года. Начальник департамента Министерства цифровых технологий Сарвар Садуллаев и и. о. исполнительного директора Центрально-Азиатской ассоциации искусственного интеллекта (AICA) Хикматилла Убайдуллаев рассказали, что подразумевается под национальной моделью ИИ и зачем она нужна.

Первые шаги в направлении ИИ страна сделала в 2021 году. Активная фаза пришлась на 2024-й. 14 октября прошлого года вышло постановление президента об утверждении Стратегии по развитию технологий искусственного интеллекта в Узбекистане до 2030 года. Сарвар Садуллаев рассказал, что одним из первых шагов в рамках реализации документа министерствам и ведомствам, деятельность которых уже оцифрована, поручено предоставить в Министерство цифровых технологий реестры данных.

«Таким образом первый этап включает в себя сбор данных на узбекском языке. Это могут быть литературные, аналитические тексты, изображения, а также анонимизированные медицинские данные (например, МРТ и ПЭТ/КТ) для дальнейшего использования в проектах ранней диагностики заболеваний. Эти данные будут храниться в raw-формате и подлежат дальнейшей категоризации. После этого на их основе будут сформированы датасеты, пригодные для машинного обучения», — рассказал Сарвар Садуллаев.

По его словам, параллельно идут переговоры с экспертами по лейблингу (отметке данных). Этот процесс станет следующим шагом после сбора. Конечной целью является создание узбекской национальной языковой модели, которая сможет работать с текстами, изображениями и специализированными данными на узбекском языке. Реклама на Gazeta

Сарвар Садуллаев также сообщил, что уже инициировано более 20 проектов по внедрению ИИ в сфере здравоохранения. Для их реализации был завезён малый GPU-кластер, а в 2026 году планируется запуск большого кластера, который позволит реализовать до 100 проектов в различных отраслях.

По словам Садуллаева, одна из ключевых задач национальной модели — сохранить историческую и культурную точность в цифровой среде.

«В какой-то стране Амир Темур — это герой, в какой-то — антигерой. Глобальные языковые модели, такие как ChatGPT, могут не знать определённые факты об Узбекистане или давать искажённую информацию. Национальная модель позволит исключить такие ошибки и закрепить знания, которые Узбекистан считает корректными, включая историю, традиции, известных личностей и особенности языка», — отметил эксперт.

Представитель Минцифры подчеркнул, что при обучении модели будут использоваться исторические и культурные материалы, в том числе уникальные локальные данные, которые известны только в Узбекистане. Эти данные планируется также передавать крупным разработчикам LLM (большой языковой модели), чтобы при обучении новых версий глобальных моделей учитывалась и точка зрения Узбекистана.

Хикматилла Убайдуллаев добавил, что долгое время ChatGPT был недоступен для пользователей из Узбекистана — доступ открыли только в 2023 году, после чего интерес к ИИ значительно вырос.

Читать также:

На поддержку молодёжного предпринимательства выделят $400 млн, «Алокабанк» станет молодёжным банком

«Однако даже при работе с современными инструментами возникают искажения: например, при генерации изображений под запрос „узбек“ модель часто создаёт стереотипный или чуждый образ — мужчина в бороде и тюбетейке, женщина в покрывале. Это связано с отсутствием достаточного количества данных об узбеках и Узбекистане», — пояснил эксперт.

Он подчеркнул, что без национального набора данных невозможно добиться точного представления культуры, внешности и повседневной жизни. По словам Убайдуллаева, в Узбекистане проживает очень много разных людей, разной внешности, и модель должна это учитывать.

«Если мы пишем „Самарканд, Регистан“, сейчас ИИ более-менее понимает, как он выглядит. Но до этого были проблемы, и именно поэтому мы занимаемся сбором собственных данных», — добавил он.

Узбекистан создаёт национальную языковую модель искусственного интеллекта. Что это такое и какой она будет?

Сгенерированное ИИ изображение площади Регистан.

Сарвар Садуллаев также отметил, что развитие собственной модели важно и с точки зрения технического применения: от перевода и распознавания речи до автоматического составления медицинских протоколов, сценариев разговора в колл-центрах и работы с клиентами в банковской сфере. Национальная языковая модель должна стать универсальным инструментом, который «будет помогать развитию всех сфер изнутри».

Хикматилла Убайдуллаев добавил, что государство создаёт условия, в которых частный сектор сможет сократить расходы на внедрение ИИ.

«В отличие от аренды зарубежных серверов, которая обходится в 10−20 тысяч долларов в месяц, в Узбекистане мощности будут локальными, а значит, дешевле за счёт внутреннего трафика TAS-IX. Это особенно важно для стартапов и небольших компаний», — добавил эксперт.

Убайдуллаев подчеркнул, что локальная языковая модель необходима для работы с конфиденциальной информацией в государственных структурах. По его словам, это позволит снизить зависимость от внешних поставщиков.

Эксперт подчеркнул, что чем больше узбекистанцы общаются с ИИ на своём языке, тем быстрее модели учатся. Узбекистан не просто догоняет мировой рынок — он стремится занять в нём устойчивое и самостоятельное место, выстраивая архитектуру цифровой независимости на основе национальных интересов. В странах региона — Казахстане, Таджикистане — также идут работы по созданию собственных моделей.

Узбекистан создаёт национальную языковую модель искусственного интеллекта. Что это такое и какой она будет?

Посмотрите наш другой контент

Новое на сайте