R e Python no local de trabalho

Se você está no início de sua jornada de ciência de dados, uma de suas primeiras decisões é escolher R ou Python como sua linguagem de script preferida. O consenso geral é aprender os dois quando você precisar. Use R para o que R faz melhor e Python para o que o Python faz melhor.

Que tal decidir introduzir o R ​​ou Python no seu local de trabalho? Em primeiro lugar, por que você deseja aplicar a ciência de dados no trabalho? A apresentação de suas idéias sobre ciência de dados pode colocá-lo como o defensor da tomada de decisão baseada em dados em sua empresa. Desenvolver suas habilidades durante o horário de trabalho e depois equivale a avançar mais adiante. Mas lembre-se de abraçar uma árvore ou colher folhas, ou o que as pessoas fazem lá fora.
Abaixo estão algumas considerações ao selecionar R ou Python no local de trabalho. Sua escolha será prática, embora muitas vezes você possa ser cutucado ou furado na maneira de trabalhar.

Use o que está disponível no trabalho

Ouvi o seguinte de colegas no passado: ‘”A TI não me permite instalar o R ​​/ Python no trabalho”. Seu departamento de TI pode controlar cuidadosamente os programas instalados em sua máquina de trabalho. Sou solidário – a TI tem razões válidas para mitigação de riscos, mas cria uma barreira para explorar ferramentas de código aberto.
Se você não conseguir instalar o R ​​ou o Python, precisará se contentar com as ferramentas de análise permitidas. Seu local de trabalho pode usar SAS, SAP, SPSS ou mesmo Matlab se preferir pagar por software que não comece com “S”. Atualmente, o plano de carreira em ciência de dados requer R, Python ou ambos. No futuro, veremos o surgimento de plataformas GUI de ciência de dados .
A instalação do R geralmente é acompanhada pela instalação do fantástico IDE RStudio, que facilita o uso do R e é uma delícia. Todo mundo usa o RStudio com R, exceto aquele cara estranho que gosta de tornar a vida mais desafiadora para si. Instale o Python com o Anaconda , uma distribuição de código aberto do Python (e R) que simplifica o gerenciamento de pacotes.
Se você não pode instalar plataformas de código aberto, ou seu chefe simplesmente diz não, então explore em sua própria máquina com seus próprios conjuntos de dados no seu próprio tempo por enquanto. Todos nós queremos trabalhar para uma empresa que abraça a ciência de dados, e tive ex-colegas demitidos quando esse desejo não foi atendido.

faça seu discurso

Às vezes, não basta dizer que há uma maneira melhor de fazer as coisas, você precisa mostrar às pessoas. Encontre alguém, de preferência seu gerente, que possa apoiar sua abordagem de ciência de dados para um projeto. Impressione-os primeiro com o R / Python, para que eles possam convidar outras pessoas para você apresentar seu trabalho. Mostre como você pode coletar dados, agrupar, analisar, modelar e apresentar insights. Pontos de bônus se você pode automatizar o processo. O argumento é economizar tempo e dinheiro, gerar insights e automatizar relatórios.
Construa um protótipo. Antes de apresentar novos métodos e técnicas, construo um pequeno protótipo que pode mostrar aos interessados ​​como a nova iniciativa poderia funcionar. Ao trabalhar em uma função que não adotava a tomada de decisão baseada em dados, eu construía protótipos no Excel usando o VBA para organizar os dados e aplicar a lógica. O protótipo VBA leu os dados atualizados e classificou os clientes em “prioridade de necessidade”, com base em recursos demográficos e circunstanciais. Impressionei minha audiência de funcionários não técnicos – assistindo em tempo real como um programa poderia automatizar o processo de organização de dados. Agora, eu combino o R e o software de visualização Power BI para prototipagem. Ao fazer sua apresentação, enfatize uma mensagem clara do seu protótipo funcional – há uma maneira de economizar tempo, esforço e erro. Devo acrescentar – não use o VBA para suas necessidades de ciência de dados. Escolha R, escolha Python!
Infelizmente, não há garantia de que seu trabalho seja bem recebido. Um ex-colega meu apresentou resultados de uma análise da cesta de mercado, destacando quais produtos on-line os clientes compraram juntos (use a biblioteca R “arules” para análise de cesta de mercado dos dados das transações). Ela havia descoberto algumas associações interessantes que poderiam melhorar os negócios online. O idoso perguntou: “Como você pretende usar esses resultados?”. Ela respondeu que poderíamos reconstruir o site da loja – quando um cliente coloca um item no carrinho de compras, a página pode sugerir o produto adquirido com frequência frequente enquanto o cliente continua comprando on-line. O idoso disse: “Isso não vai acontecer tão cedo”. O desenvolvimento da Web requer recursos que ela não estava em condições de solicitar, mesmo que fosse uma implementação óbvia que pudesse gerar vendas. Em vez de, sua análise poderia produzir um relatório mostrando aos comerciantes quais compras de produtos ocorrem em um determinado momento. A análise foi potencialmente útil, mas a solução desejada para o site não pôde ser concretizada. Gerencie suas expectativas – um relatório não é tão ruim. Ele ainda transmite sua mensagem de ciência de dados.

Use o que seus colegas estão usando e usarão

Seus colegas de equipe influenciarão a escolha entre R ou Python. Se seus colegas usam Python e você está trazendo R para a tabela de códigos, aprenda Python. Fale o mesmo idioma que seus colegas.
Considere os colegas que você ainda não tem. Atualmente, estou escrevendo código R para organizar dados a serem apresentados como painéis. Eu tenho milhares de comentários abertos que gostaria de organizar em “tópicos” e quantificá-los por tópico. Não tive tempo nem tenacidade para ler cada comentário e mostrar a qual tópico um determinado comentário pertencia. Em vez disso, apliquei uma abordagem de modelagem de tópicos chamada “Latent Dirichlet blogAllocation” (LDA) para organizar os comentários usando Python. Meu gerente questionou se eu poderia codificar o LDA no R. A resposta foi sim, existem exemplo de código tanto para Python e R . “Por que você prefere que eu codifique em R?” Eu perguntei. Ele respondeu: “Não há necessidade de introduzir outro idioma no pipeline, se você não precisar”.
Da minha perspectiva pessoal, desde que estou aprendendo Python, teria sido ótimo criar um novo produto de dados Python. Do ponto de vista comercial, não era uma ótima idéia por dois motivos. A primeira foi que, quando explicamos meu pipeline de dados para outras pessoas, elas podem desafiar os vários idiomas. Simplicidade é fundamental para a produção. A segunda é que passarei o conhecimento de como o pipeline de dados funciona para um colega no futuro. Posso economizar tempo para essa pessoa limitando o número de idiomas e ferramentas que eu uso.

Use o que vem mais naturalmente

É impressionante quando você está começando na ciência de dados. R, Python, SQL, Tableau, Power BI, Hadoop, Spark (e muito mais). O caminho através de um novo campo deve ter menos resistência. Um ditado comum é que aqueles com formação acadêmica ou estatística podem preferir R, aqueles com ciência da computação ou engenharia podem preferir Python. Isso certamente é verdade para mim. Eu usei o ambiente de computação numérica Matlab durante minha pesquisa de doutorado. Anos depois, participei de um curso on-line de ciência de dados que usava R e, desde então, utilizo principalmente R no local de trabalho. A primeira opção de linguagem de programação pode definir a semente para o crescimento.
R veio naturalmente para mim porque havia semelhanças com o Matlab. Por exemplo, ambos podem usar vetorização. Considere esta publicação de blogueiros do R mostrando três métodos diferentes em R para substituir valores em uma coluna do quadro de dados. É tentador usar um loop for para percorrer cada linha e substituir o valor. Uma alternativa mais rápida é aplicar a vetorização usando um vetor de pesquisa. O vodu da vetorização pode não ser o mais adequado. Admito que ainda uso loops quando provavelmente não deveria, porque são mais fáceis de interpretar e codificar quando sonolentos.
Use a linguagem mais natural para você e você entenderá a ciência de dados na linguagem R ou Python. Depois de entender a ciência de dados, você poderá escolher o outro idioma posteriormente. O ” Machine Learning AZ” aqui no SuperDataScience usa os dois idiomas. Posso aproveitar meu entendimento de R para Python, pois os princípios de disputa de dados e ciência de dados são os mesmos.

Use o que é mais fácil

Estou fazendo uma distinção entre o que vem naturalmente e o que quero dizer com “mais fácil”. Nesse contexto, ao brincar com a ciência de dados, é comum aplicar abordagens que não são necessariamente a abordagem mais fácil, porque você pode não estar ciente de que existe uma abordagem mais fácil. Fui encarregado de criar painéis que pudessem ser distribuídos aos funcionários da minha empresa. Inicialmente, codifiquei os painéis Shiny com R. Criei alguns painéis personalizados muito legais e fiquei preso à zona de criação de visualizações do ggplot2. No entanto, era demorado e desafiador compartilhar os painéis para os usuários. Um colega (o mesmo colega que realizou a análise da cesta de mercado) sugeriu que eu tentasse criar painéis com o Power BI.
Foi muito mais fácil.
Ainda traço com o ggplot2, mas não construí um painel Shiny desde então. Provavelmente, existe uma maneira mais fácil de atingir seu objetivo por meio de outra abordagem, e espero que esteja disponível como código aberto. Ao perguntar e explorar novas técnicas, você pode apontar para a solução mais fácil que economizará tempo e esforço.
O argumento é o mesmo com pacotes e bibliotecas. Se uma biblioteca Python puder executar uma ação melhor que um pacote R, use Python e vice-versa. Escolha fácil.
Como eu uso principalmente o R, eu queria saber o que o Python faz melhor do que o R, de acordo com os usuários do Python. Como não conduzi uma pesquisa, fui à fonte de informações na internet: Reddit (e Quora – o primo esquelético do Reddit que faz você se registrar antes de ler as postagens). Como discerni pelos comentários dos usuários, o Python é mais fácil de aprender do que o R [1, 2], com análise de dados e aprendizado de máquina facilitados com “pandas” e “scikit-learn”. Python é uma linguagem de programação orientada a objetos de uso geral, enquanto R é um ambiente de programação complexo que você precisa dominar [3]. Sendo de uso geral, os usuários já podem estar familiarizados com o Python ao codificar sites e outros aplicativos, enquanto o R está focado na análise de dados. O ecossistema Python é melhor para produção do que para casos de uso pontuais [1]. Portanto, a linguagem Python pode ser usada para desenvolvimento e análise, aliviando a necessidade de alternar entre linguagens ao fazer a interface entre diferentes partes do projeto, reduzindo a sobrecarga [3]. Os cientistas de dados usam a melhor ferramenta para o trabalho – R pode ser usado para prototipagem, mas o Python é para produção no mundo real [1, 4, 5]. Python é geralmente mais rápido que R [6], pelo menos quando se usa for-loops [7]. O Python vence o R quando se trata de APIs [1, 8], raspagem de dados da web [9], processamento de linguagem natural [6, 10] e para aprendizado profundo [6]. Isso não quer dizer que essas tarefas não sejam possíveis com R. Ambos R e Python tornaram-se linguagens / ambientes completos para ciência de dados, com o Os cientistas de dados usam a melhor ferramenta para o trabalho – R pode ser usado para prototipagem, mas o Python é para produção no mundo real [1, 4, 5]. Python é geralmente mais rápido que R [6], pelo menos quando se usa for-loops [7]. O Python vence o R quando se trata de APIs [1, 8], raspagem de dados da web [9], processamento de linguagem natural [6, 10] e para aprendizado profundo [6]. Isso não quer dizer que essas tarefas não sejam possíveis com R. Ambos R e Python tornaram-se linguagens / ambientes completos para ciência de dados, com o Os cientistas de dados usam a melhor ferramenta para o trabalho – R pode ser usado para prototipagem, mas o Python é para produção no mundo real [1, 4, 5]. Python é geralmente mais rápido que R [6], pelo menos quando se usa for-loops [7]. O Python vence o R quando se trata de APIs [1, 8], raspagem de dados da web [9], processamento de linguagem natural [6, 10] e para aprendizado profundo [6]. Isso não quer dizer que essas tarefas não sejam possíveis com R. Ambos R e Python tornaram-se linguagens / ambientes completos para ciência de dados, com ofraquezas percebidas em cada uma delas sendo abordadas com pacotes . Assim, algumas das declarações de usuário que parafraseei aqui podem ter se tornado desatualizadas com as melhorias subsequentes em R e Python.

Conclusão

Se puder, defenda a ciência de dados no local de trabalho. A maioria das indústrias está ansiosa por informações a partir da massa de dados que estão sendo coletados e armazenados. Se houver alguém no trabalho que esteja conduzindo as iniciativas de ciência de dados, descubra se e como você pode contribuir. Caso contrário, considere como você se tornará a pessoa que introduzirá a ciência de dados no seu local de trabalho.
Share on facebook
Facebook
Share on twitter
Twitter
Share on linkedin
LinkedIn
Share on skype
Skype
Share on telegram
Telegram
Share on whatsapp
WhatsApp
Share on email
Email

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *