CloudTroop Newsletter

MLflow em escala empresarial: as novidades do SageMaker AI

MLflow para empresas: nova era de escalabilidade automática

A AWS anunciou recentemente Amazon SageMaker AI com MLflow, agora incluindo uma capacidade serverless que gerencia dinamicamente provisionamento de infraestrutura, escalabilidade e operações para tarefas de desenvolvimento em inteligência artificial e aprendizado de máquina (IA/ML). O destaque principal é que os recursos aumentam durante experimentos intensivos e reduzem a zero quando não estão em uso, diminuindo significativamente o overhead operacional.

A nova versão traz funcionalidades de nível empresarial como controle de acesso simplificado com compartilhamento entre contas, atualizações automáticas de versões e integração com capacidades do SageMaker AI, como customização de modelos e pipelines. O melhor: não exige configuração de administrador e não tem custo adicional, permitindo que cientistas de dados comecem imediatamente a rastrear experimentos, implementar observabilidade e avaliar desempenho de modelos sem delays relacionados a infraestrutura.

Recursos empresariais do SageMaker AI com MLflow

A nova capacidade serverless do MLflow no SageMaker AI oferece gerenciamento de nível empresarial com escalabilidade automática, provisionamento padrão, atualizações de versão perfeitas, autorização simplificada de AWS Identity and Access Management (IAM), compartilhamento de recursos através do AWS Resource Access Manager (AWS RAM), e integração com Amazon SageMaker Pipelines e customização de modelos.

Imagem original — fonte: Aws

A terminologia mudou: "MLflow Apps" agora substitui a designação anterior de "servidores de rastreamento MLflow", refletindo uma abordagem simplificada e focada em aplicações. Cientistas de dados acessam a nova página MLflow Apps no Amazon SageMaker Studio.

Um MLflow App padrão é provisionado automaticamente ao criar um domínio SageMaker Studio, simplificando todo o processo de configuração. Já sai pronto para uso empresarial, sem exigir provisionamento ou configuração adicional. O MLflow App escala elasticamente conforme o uso, eliminando a necessidade de planejamento manual de capacidade. Cargas de trabalho de treinamento, rastreamento e experimentação recebem automaticamente os recursos necessários, simplificando operações enquanto mantém desempenho.

Atualizações automatizadas e versionamento

Administradores podem definir uma janela de manutenção durante a criação do MLflow App, período no qual ocorrem atualizações in-place da versão. Isso garante que o MLflow App permaneça padronizado, seguro e constantemente atualizado, minimizando overhead de manutenção manual. A versão 3.4 do MLflow é suportada neste lançamento, estendendo a plataforma para aplicações de IA generativa e cargas de trabalho com agentes.

Controle de identidades simplificado com MLflow Apps

A AWS simplificou o controle de acesso e permissões IAM para equipes de aprendizado de máquina com o novo MLflow App. Um conjunto de permissões racionalizado, como sagemaker:CallMlflowAppApi, agora cobre operações comuns — desde criar e buscar experimentos até atualizar informações de rastreamento — tornando o controle de acesso muito mais direto de aplicar.

Ao ativar limites de permissões IAM simplificados, usuários e administradores de plataforma podem padronizar papéis IAM entre equipes, personas e projetos, facilitando acesso consistente e auditável a experimentos e metadados do MLflow. Para configurações completas de permissão e políticas IAM, a documentação disponibiliza detalhes em Set up IAM permissions for MLflow Apps.

Compartilhamento entre contas AWS usando AWS RAM

Administradores frequentemente desejam gerenciar centralmente sua infraestrutura MLflow enquanto provisionam acesso em diferentes contas AWS. Os MLflow Apps suportam compartilhamento entre contas para desenvolvimento empresarial colaborativo em IA. Usando AWS RAM, essa funcionalidade permite que administradores de plataforma de IA compartilhem um MLflow App perfeitamente entre cientistas de dados em contas consumidoras separadas.

Imagem original — fonte: Aws

Administradores de plataforma mantêm um domínio SageMaker centralizado e governado que provisiona e gerencia o MLflow App, enquanto cientistas de dados em contas consumidoras separadas podem iniciar e interagir com o MLflow App com segurança. Combinado com as novas permissões IAM simplificadas, empresas podem iniciar e gerenciar um MLflow App a partir de uma conta AWS administrativa centralizada. Usando o MLflow App compartilhado, um cientista de dados consumidor downstream pode registrar suas experimentações MLflow e cargas de trabalho de IA generativa mantendo governança, auditabilidade e conformidade a partir de um único plano de controle do administrador de plataforma. Para saber mais sobre compartilhamento entre contas, consulte Getting Started with AWS RAM.

Integração entre SageMaker Pipelines e MLflow

Amazon SageMaker Pipelines está integrado ao MLflow. Trata-se de um serviço serverless de orquestração de fluxo de trabalho construído especificamente para automação de MLOps (operações de aprendizado de máquina) e LLMOps (operações com modelos de linguagem grande). Você pode construir, executar e monitorar fluxos de trabalho ML repetíveis de ponta a ponta de forma perfeita, usando interface arrastar-e-soltar intuitiva ou SDK Python.

A partir de um pipeline SageMaker, um MLflow App padrão é criado automaticamente se não existir, um nome de experimento MLflow pode ser definido, e métricas, parâmetros e artefatos são registrados no MLflow App conforme definido no código do pipeline SageMaker.

Imagem original — fonte: Aws

Customização de modelos SageMaker e integração com MLflow

A customização de modelos SageMaker integra-se com MLflow por padrão, oferecendo vinculação automática entre trabalhos de customização de modelos e experimentos MLflow. Ao executar trabalhos de fine-tuning (ajuste fino) de customização de modelos, o MLflow App padrão é utilizado, um experimento é selecionado, e métricas, parâmetros e artefatos são registrados automaticamente.

Na página de trabalho de customização de modelos do SageMaker, você pode visualizar métricas provenientes do MLflow e acessar métricas adicionais na interface do MLflow.

Imagem original — fonte: Aws

Próximos passos

Essas funcionalidades preparam os novos MLflow Apps no SageMaker AI para cargas de trabalho ML e IA generativa em escala empresarial com mínimo peso administrativo. Para começar, existem exemplos disponíveis no repositório de exemplos no GitHub e em workshop AWS.

Os MLflow Apps estão geralmente disponíveis nas regiões AWS onde o SageMaker Studio está disponível, com exceção das regiões China e US GovCloud. Para explorar a nova capacidade, você pode visitar a página de detalhes do produto SageMaker AI com MLflow e consultar a documentação sobre aceleração de desenvolvimento de IA generativa usando MLflow gerenciado no Amazon SageMaker AI. Para feedback, a AWS disponibiliza AWS re:Post para SageMaker ou canais usuais de suporte AWS.

Fonte

Scaling MLflow for enterprise AI: What's New in SageMaker AI with MLflow (https://aws.amazon.com/blogs/machine-learning/scaling-mlflow-for-enterprise-ai-whats-new-in-sagemaker-ai-with-mlflow/)