Мы – команда GigaChat Data, готовим данные для обучения всей линейки моделей LLM GigaChat (GigaChat, GigaChat Vision, GigaChat Audio и др.). Мы специализируемся на создании и улучшении промптов (prompt-engineering), которые помогут нам развивать наши продукты, повышая качество взаимодействия моделей с пользователями.
Задачи:
разрабатывать сложные запросы и сценарии (prompt-engineering) для оптимального взаимодействия с моделями
совершенствовать структуру промптов, тестировать различные подходы к их формулированию
проводить эксперименты с метриками качества (например, точность, релевантность) и использовать результаты для улучшения промптов
общаться с AI, проверять достоверность и этичность ответов, проводить фактчекинг и редактировать тексты
создавать и систематизировать данные, обеспечивая качество обучающих выборок для различных сервисов
анализировать статистику по уже собранным датасетам, выделять узкие места и исправлять их
работать со смежными командами AI-тренеров, ML-инженерами, специалистами по данным и экспертами для улучшения процессов обучения и оптимизации моделей.
Мы ждем от тебя:
высшее техническое образование по специализации Computer Science, Artificial Intelligence, Data Science или смежным дисциплинам
опыт в создании обучающих датасетов, работе с нейросетями, prompt-инжиниринге и других смежных направлениях
навыки разметки и подготовки обучающих датасетов для больших языковых моделей
опыт работы с AI-моделями
знания в области prompt-инжиниринга, базовые знания в области AI и ML
понимание принципов работы нейросетей, этапов обучения моделей и понимание базовых статистических метрик, которые применяются в ML