Обязанности | Мы - команда GigaChat Pretrain Data, готовим pretrain данные для GigaChat и GigaChat Vision. Данных много. Очень много (40+ Пб сырого хаоса). Если хочется не просто тренировать модели, а работать с реально большими данными, то вот твой шанс. Обязанности чистить данные по узким доменам (аниме, игры, сериалы, книги, фильмы) -> LLM-парсинг + Code Execution Feedback; генерить синтетические данные; разбираться с токенизацией; кластеризовать данные; писать дедупликацию на Rust; оптимизировать MapReduce -> Spark, тысячи ядер; экспериментировать с SFT и RL -> DPO, DRPO, увеличиваем качество синтетики. Ожидания от кандидата выпускник Факультета компьютерных наук/Факультета инноваций и высоких технологий имеешь коммерческий релевантный опыт в роли NLP Engineer от двух лет. Будет Плюсом навыки работы с генеративными AI-моделями; опыт создания AI-агентов и использования их в работе будет преимуществом опыт использования GigaChat, Kandinsky и аналогов в продуктах, навыки создания и использования AI-агентов инструментальное владение AI для анализа, генерации и автоматизации. Условия комфортный современный офис ул. Розы Люксембург 56а возможность выбрать удобный график - офис/гибрид/удаленка ежегодный пересмотр зарплаты и годовая премия корпоративный спортзал и зоны отдыха более 400 образовательных программ СберУниверситета для профессионального и карьерного развития расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров вознаграждение за рекомендацию друзей в команду Сбера. |