Habr.com

Syndicate content Хабр
Все публикации подряд на Хабре
Updated: 22 min 43 sec ago

От сырого кликстрима к чистым датасетам: как мы в Lamoda Tech варим данные

Wed, 07/02/2025 - 12:10

Привет, Хабр! Это тимлид DS группы ранжирования и поиска Дана Злочевская и тимлид группы разработки Михаил Нестеров из Lamoda Tech. 

Как и у любой крупной e-commerce платформы, данные — наш главный актив. Они помогают бизнесу принимать обоснованные решения, а пользователям — получать персонализированный, качественный опыт во всех продуктах Lamoda.

Поэтому в продакшене ежедневно работают десятки ML-пайплайнов, а в Airflow запускаются сотни DAG-воркфлоу. Данные готовят и используют более 100 специалистов из самых разных команд: аналитики, дата-сайентисты, ML-инженеры, маркетологи — у каждой свои задачи и логика работы с ними. 

Однако с ростом команд, задач и инфраструктуры мы начали сталкиваться с рядом системных проблем:

Разрозненные подходы к подготовке данных. Каждая команда собирала данные «под себя», по своим правилам и в своем формате, что приводило к дублированию информации и нерациональному использованию вычислительных ресурсов.

Дублирование логики. Одни и те же преобразования выполнялись в разных пайплайнах с минимальными отличиями — это не только неэффективно, но и увеличивает риск ошибок.

Сложности с переиспользованием. Найти нужные данные, понять, как они были получены, и интегрировать их свой пайплайн — становилось нетривиальной задачей.

Рост time-to-market. На каждый новый ML-продукт или эксперимент у команд уходило всё больше времени просто на «разогрев»: сбор данных, выравнивание форматов, отладка пайплайна.

Тогда мы поняли, что пора систематизировать наш подход к хранению и работе с датасетами, и реализовали собственный фреймворк на основе Apache Spark — Feature Storage, который сейчас является стандартом в компании. А позже мы выделили отдельное решение для специфичных кликстрим-данных — Action Storage.

В этой статье мы хотим поделиться нашим опытом построения этих инструментов и рассказать, как со временем эволюционировал наш подход к хранению данных в Lamoda Tech. Надеемся, он будет вам полезен и подарит парочку интересных идей.

Читать далее

Ты учишь AI, AI учит тебя

Wed, 07/02/2025 - 12:08

Yarrow AI учит языкам и в своей основе это не LLM, а логическая машина. Такие системы эффективны, но их очень сложно наполнить данными: приходится каждое знание/правило вносить в базу данных вручную. Это было одной из причиной их вымирания 30 лет назад. Мне удалось решить эту проблему попутно убив одним выстрелом еще пару зайцев.

Изначально я сгенерировал курс английского языка с помощью GPT, он содержал море галлюцинаций. Были наняты профессиональные переводчики для выверки, но они пропускали много ошибок и быстро отваливались: "Это работа не для естественного интеллекта". И вот, редакторами стали сами пользователи приложения: я объединил их в большую команду с помощью ядра Yarrow AI, а вместо зарплаты они получают возможность учиться бесплатно.

Читать далее

Kaypro II. Удивительная история любимого компьютера Артура Кларка

Wed, 07/02/2025 - 12:07

В мире существует как минимум несколько десятков производителей вычислительной техники, в разное время выпускавших портативные компьютеры, — и все они на слуху. В этом ряду особое место занимает компания Kaypro, чьи переносные персоналки когда-то были сверхпопулярны, имели обширную аудиторию верных поклонников, и считались чуть ли не эталоном компьютеров для деловых людей. Но потом все это вдруг куда-то исчезло, и про Kaypro с ее продукцией сегодня помнят лишь единицы, интересующиеся историей IT. О том, почему это произошло — наш сегодняшний рассказ.
Читать дальше →

Письмо на публичный ключ: переизобретаем систему адресов в электронной почте

Wed, 07/02/2025 - 12:04

Привет, Хабр!

Это команда Eppie. Мы разрабатываем p2p почту, в которой пользователи владеют своими адресами и данными. Про данные мы уже говорили, сегодня остановимся на адресах.

Читать далее

Импортозамещение в моделировании авиационных систем: переносим математическую модель ГТД из Simulink в Engee

Wed, 07/02/2025 - 12:02

Кажется, никому из читателей Хабра не нужно объяснять, насколько сложным процессом является разработка авиационной техники и комплектующих. Мы часто читаем об этом. Понятно что, длительность процессов разработки, высокие требования к безопасности, строгие формальные процедуры, сложность конструкции и многодисциплинарность научных подходов – вот причины, по которым средний цикл разработки воздушных судов (ВС) составляет 5-10 лет и не всегда заканчивается успешно.

Читать далее

Визуализация данных для начинающих: что почитать, чем вдохновиться и на кого подписаться

Wed, 07/02/2025 - 12:01

Привет! Это команда курса «Аналитик данных» в Яндекс Практикуме. Собрали подборку полезных ресурсов для тех, кто только начинает осваивать визуализацию данных или хочет расширить арсенал инструментов и источников вдохновения. Здесь вы найдёте книги, статьи, онлайн-ресурсы и телеграм-каналы, которые помогут разобраться, как правильно, наглядно и красиво представлять данные.

Читать далее

Что в чёрной коробочке? Выясняем самостоятельно, не привлекая внимания коллег

Wed, 07/02/2025 - 12:00

Всем привет, меня зовут Миша, и я разрабатываю платформу Яндекс Еды. Первые компоненты были написаны почти 10 лет назад (когда Еда ещё была стартапом Foodfox), и у нас накопилось много кода, который просто хорошо работает, а иногда даже «работает — не трогай». Но в процессе развития и устоявшиеся части системы нужно трогать, про что мои коллеги уже писали — как мы повышали версию PHP, пилили монолит и снимали нагрузку с БД

Наконец настал черёд рассказать про процессинг заказов доставки еды из кафе и ресторанов (а также продуктов из магазинов и многого другого). За годы эволюционного развития он значительно разросся, что стало заметно затруднять дальнейшее развитие — например, изменения, связанные с выходом на новые рынки, — а также влиять на надёжность. 

Поэтому мы решили вынести процессинг заказа в отдельный специализированный сервис. Чтобы определить, что выносить, а что оставлять, нужно было составить исчерпывающий и актуальный список процессов, которые происходят с заказом. И здесь мы столкнулись с вызовом: это знание распределено по многим людям и документам, поскольку на протяжении долгого времени в процессинг заказов вносили изменения многие команды. И перед нами встал вопрос — как собрать нужную информацию о системе с заметной долей легаси быстро, да так, чтобы информация была актуальна?

Читать далее

Глобус Набокова

Wed, 07/02/2025 - 11:55

Глобус Набокова это глобус Земли, который размещен таким образом, чтобы условия его освещения Солнцем совпадали с условиями освещения Земли в космическом пространстве. Глобус Набокова дает возможность видеть терминатор и его движение по поверхности Земли, найти подсолнечную точку и примерно оценить местное время в любой точке Земли.

Читать далее

Как я создал свой мини-завод по созданию контента на Make

Wed, 07/02/2025 - 11:22

Вы когда-нибудь задумывались, как автоматизировать планирование контента? Ну типа вообще всё: от тем до готового текста с эмодзи, ссылками и заголовками? Я — да. И решил, что хватит тратить часы на повседневные дела. Сделал себе схему. Мини-заводик. Суперпростая логика: Google Таблицы → ChatGPT → Google Таблицы обратно.

Читать далее

C++ Event System от идеи до реализации

Wed, 07/02/2025 - 11:16

Event System на C++: реализация без макросов, сложной обвязки и непонятного синтаксиса. Только чёткий и управляемый код.

Читать далее

За кулисами атак: социальная инженерия

Wed, 07/02/2025 - 11:11

Атаки социальной инженерии являются одной из самых опасных форм кибератак, поскольку они эксплуатируют человеческий фактор, а не технические уязвимости. В прошлом году стратегии злоумышленников усложнились и стали еще хитроумнее. В этой статье мы рассмотрим основные текущие тренды социальной инженерии и предложим способы защиты от них.

Читать далее

Прикладное руководство по настройке приёмников ГНСС для FPV

Wed, 07/02/2025 - 11:03

Привет, решил немного отвлечься от Java и поделиться своим опытом в любительском дроностроении, а именно в настройке приёмников ГНСС, с помощью которых птица сможет вернуться домой при обрыве сигнала или по крайней мере передать свои последние координаты. Это сильно облегчит поиск, особенно, если вы всё сделали правильно, передаёте координаты в телеметрии* и пишете их в лог в вашем пульте ;)

Полетели

[Перевод] Обработка исключений в рабочих процессах с использованием Flowable

Wed, 07/02/2025 - 11:02

Исключения являются частью любого процесса. Разработчики, создающие бизнес-процессы, должны уметь обрабатывать исключения в бизнес-кейсе, чтобы гарантировать, что сам процесс устойчив и может продолжаться после возникновения сбоев. Логика обработки исключений различается в зависимости от вашей задачи и инструментов, которые у вас есть в распоряжении. В этой заметке я попытался определить различные методы обработки исключений, используя язык паттернов. Каждый паттерн следует определённой структуре, называемой Контекст (общая ситуация, в которой проблема повторяется), Проблема (формулировка), Условия (условия, при которых можно рекомендовать предложенные решения) и Решение. Итак, давайте приступим.

Читать далее

Как построить зрелый FinOps в облаках: опыт одного из крупнейших онлайн-ритейлеров и рекомендации для ИТ-директоров

Wed, 07/02/2025 - 11:00

FinOps — это не просто модный термин. Это ответ на боль тысяч компаний, которые внедрили облака, а потом с ужасом смотрят на счета. Главная проблема — не только в размере итоговой суммы, но и в отсутствии прозрачности. Вы видите огромный счет, но не понимаете почему столько и за что именно платите. 

FinOps помогает ИТ-директору не только обосновать необходимость инвестиций через бизнес-результаты, но и, что особенно важно на начальных этапах, объяснить текущий объем расходов. Если завтра CEO спросит: «Почему мы платим столько за облако?» — вы хотя бы сможете показать, куда уходят деньги и за что именно платит компания. На низком уровне зрелости FinOps речь идет не об окупаемости, а о базовой прозрачности и возможности не выглядеть некомпетентным перед финансовым директором (CFO). FinOps — это ваш новый must have, если вы хотите выйти из режима «платим непонятно за что» и взять расходы под контроль.

В статье собрали ключевые тезисы из практики управления FinOps для ИТ-руководителей. При подготовке статьи опиралась на свой опыт в ITSM, материалы по FinOps фреймворк, исследования Gartner и McKinsey и практический опыт практиков FinOps.

Читать далее

Cloud4Y строит свои ЦОД

Wed, 07/02/2025 - 10:57

Привет! Продолжаем понемногу рассказывать о том, как мы строим собственные ЦОД. Под катом — пятая часть истории. О предыдущих этапах строительства и других интересных событиях рассказывали тут: раздватри, четыре.

Читать далее

Автоматическая станция обслуживания дрона: архитектура и принципы работы

Wed, 07/02/2025 - 10:52

С ростом числа задач, решаемых беспилотными летательными аппаратами (дронами), возрастает необходимость в полностью автономной системе их обслуживания. Такая станция должна выполнять:

Читать далее

Как тестировать хуки в React с @testing-library/react-hooks

Wed, 07/02/2025 - 10:19

Привет, Хабр!

Сегодня рассмотрим, как тестировать React‑хуки с помощью @testing-library/react-hooks.

Читать далее

Почему идеальные ИИ-тексты убивают понимание

Wed, 07/02/2025 - 10:16

Как чистая информация без эмоциональной ткани превращает нас в безмолвных библиотекарей собственного разума

Читать далее

Обновление MikroTik по SSH: Python-скрипт с автоматическим RouterBOARD upgrade

Wed, 07/02/2025 - 10:15

Обновление MikroTik — та ещё боль. То не влезешь по SSH, то забыл сделать routerboard upgrade, то устройство «уходит в себя» и не возвращается. Особенно, когда устройств не одно, а десятки. Вручную это превращается в спорт на выносливость и крепкие нервы.

Я решил, что хватит. Написал скрипт на Python, который делает всю грязную работу за меня: подключается, проверяет обновления, ставит новые пакеты, делает routerboard upgrade и даже ждёт, пока устройство снова появится в сети. Главное — всё логируется и работает аккуратно, как системный администратор в хорошем настроении.

В этой статье:

Читать далее

Как убить игру парой слов?

Wed, 07/02/2025 - 09:35

Я уже несколько лет провожу геймджемы и постоянно вижу холивары вокруг судейского фидбека. Да что за сын маминой подруги этот «фидбек», почему за ним так гоняются?

Читать далее

Who's online

There are currently 1 user and 2 guests online.