Helix: o Futuro dos Robôs Humanoides da Figure AI

Helix: A Revolução na Robótica com Visão, Linguagem e Ação Unificadas

A Figure AI acaba de anunciar um avanço significativo no campo da robótica: o Helix, um modelo generalista de Visão-Linguagem-Ação (VLA). Este modelo inovador unifica a percepção, a compreensão da linguagem e o controle aprendido, abrindo novas possibilidades para a interação entre humanos e robôs.

A Figure AI e sua Missão:

A Figure AI é uma empresa de robótica que busca desenvolver robôs humanoides de propósito geral. Sua missão é criar robôs que possam auxiliar humanos em diversas tarefas, desde trabalhos repetitivos em indústrias até cuidados pessoais em domicílios. A empresa tem atraído investimentos significativos e conta com uma equipe de especialistas em robótica, inteligência artificial e engenharia.

O que é o Helix?

O Helix é um modelo de inteligência artificial projetado para superar desafios complexos na robótica. Ele combina três capacidades essenciais:

  • Visão: O Helix pode “ver” e interpretar o mundo ao seu redor, reconhecendo objetos, pessoas e ambientes.
  • Linguagem: Ele compreende a linguagem humana, permitindo que os robôs recebam e executem comandos verbais.
  • Ação: O Helix controla os movimentos do robô, permitindo que ele execute tarefas complexas com precisão.

Principais Inovações:

  • Unificação de capacidades: Ao integrar visão, linguagem e ação, o Helix permite que os robôs compreendam o contexto e ajam de forma autônoma.
  • Aprendizado aprimorado: O modelo utiliza técnicas avançadas de aprendizado de máquina para melhorar continuamente seu desempenho.
  • Aplicações versáteis: O Helix pode ser aplicado em diversas áreas, desde a manufatura e logística até a assistência domiciliar e exploração espacial.
  • Robôs Humanoides: A Figure AI, tem como meta a criação de robôs humanoides, de forma que os mesmos possam auxiliar os humanos em seus trabalhos, e afazeres, com o objetivo de facilitar a vida das pessoas.

Impacto na Robótica:

O Helix representa um marco importante na evolução da robótica. Ele tem o potencial de:

  • Tornar os robôs mais inteligentes e adaptáveis.
  • Facilitar a interação entre humanos e robôs.
  • Automatizar tarefas complexas em diversos setores.

Considerações Técnicas:

  • O modelo VLA do Helix representa um avanço na área de IA, pois imita de forma mais fidedigna a forma como os humanos aprendem e executam tarefas.
  • A capacidade de juntar Visão-Linguagem-Ação, possibilita que os robos possam aprender com maior facilidade, e agirem de forma mais dinamica.
  • A empresa Figure AI está empenhada em desenvolver robôs que possam trabalhar em conjunto com humanos, em ambientes de trabalho.
Vídeo 1: Armazenamento colaborativo de mantimentos. Um único conjunto de pesos de rede neural Helix é executado simultaneamente em dois robôs enquanto eles trabalham juntos para guardar mantimentos que nenhum robô jamais viu antes.

“Expandindo os Limites da Robótica Humanoide para o Lar

O espaço doméstico é o maior obstáculo para a robótica. Diferente de cenários industriais supervisionados, as residências são compostas por uma infinidade de itens – frágeis utensílios de vidro, vestimentas enrugadas, brinquedos dispersos – cada qual com formas, dimensões, tonalidades e superfícies variáveis. Para que os robôs se tornem ferramentas eficazes em lares, eles necessitarão da capacidade de produzir novas ações inteligentes imediatamente, particularmente com relação a objetos inéditos.

A tecnologia robótica atual não conseguirá se adaptar ao ambiente doméstico sem uma transformação profunda. Instruir robôs a realizar uma única nova tarefa exige um esforço humano considerável: seja através de longas horas de programação manual por especialistas com doutorado, ou através de milhares de demonstrações. Ambas as abordagens são inviáveis, dada a complexidade e a vastidão do ambiente doméstico.”

Figura 1: Curvas de escala para diferentes abordagens para aquisição de novas habilidades de robô. Na manipulação heurística convencional, as habilidades crescem com PhDs que as escrevem manualmente. No aprendizado de imitação de robô convencional, as habilidades escalam com dados coletados. Com o Helix, novas habilidades podem ser especificadas rapidamente com a linguagem

“Contudo, outros campos da Inteligência Artificial já alcançaram a maestria na generalização imediata. Imaginemos a possibilidade de transpor o vasto conhecimento semântico presente nos Modelos de Visão-Linguagem (VLMs) diretamente para o repertório de ações dos robôs. Essa inovação teria um impacto transformador na evolução da robótica (Figura 1). Habilidades que anteriormente demandavam inúmeras demonstrações poderiam ser adquiridas de forma instantânea, através de simples comandos verbais em linguagem natural. O desafio central reside em como extrair esse conhecimento intuitivo dos VLMs e convertê-lo em um sistema de controle robótico adaptável. O Helix foi desenvolvido com o propósito de suprir essa necessidade.”

“Helix: Um Modelo VLA “Sistema 1, Sistema 2” para Controle Integral do Tronco Superior

Helix representa um avanço sem precedentes, um modelo VLA “Sistema 1, Sistema 2” concebido para o controle ágil e meticuloso de toda a estrutura superior do corpo de um autômato humanoide.

As abordagens tradicionais se deparam com um dilema crucial: os núcleos VLM ostentam generalidade, mas carecem de rapidez, enquanto as políticas visuomotoras robóticas primam pela velocidade, mas pecam pela abrangência. Helix supera essa contradição por meio de dois sistemas complementares, instruídos de forma integrada para viabilizar a comunicação:

Sistema 2 (S2): Um VLM pré-instruído na internet, operando a uma frequência de 7-9 Hz, destinado à interpretação de cenários e à compreensão linguística, propiciando uma vasta capacidade de generalização entre objetos e contextos. Sistema 1 (S1): Uma política visuomotora reativa veloz, que converte as representações semânticas latentes geradas por S2 em ações robóticas contínuas e precisas, executadas a 200 Hz. Essa arquitetura desmembrada possibilita que cada sistema opere em sua escala de tempo ótima. S2 pode deliberar de forma ponderada sobre metas de alto nível, enquanto S1 age com agilidade para realizar e ajustar ações em tempo real. A título de ilustração, durante um comportamento de colaboração (conforme demonstrado no Vídeo 2), S1 se adapta prontamente às oscilações de movimento de um robô parceiro, mantendo os objetivos semânticos estabelecidos por S2.

Vídeo 2: Helix faculta ajustes motores rápidos e minuciosos, indispensáveis ao reagir a um colaborador, ao mesmo tempo em que persegue novos objetivos semânticos.

A concepção do Helix apresenta diversas vantagens primordiais em relação às metodologias preexistentes:

Velocidade e Generalização: Helix equipara a velocidade das políticas de clonagem de comportamento especializadas em tarefas singulares, ao mesmo tempo em que generaliza de forma imediata para milhares de novos objetos de teste. Escalabilidade: Helix gera diretamente controle contínuo para espaços de ação de alta dimensão, dispensando esquemas complexos de tokenização de ação empregados em abordagens VLA anteriores, que obtiveram sucesso limitado em configurações de controle de baixa dimensão (por exemplo, pinças paralelas binarizadas), mas enfrentam desafios de escalonamento com controle humanoide de alta dimensão. Simplicidade Arquitetural: Helix emprega arquiteturas padronizadas – um VLM de código aberto e peso aberto para o Sistema 2 e uma política visuomotora simples baseada em transformador para S1. Separação de Funções: O desmembramento de S1 e S2 permite aprimorar cada sistema individualmente, sem as limitações impostas pela busca de um espaço de observação unificado ou representações de ação.

Detalhes do Modelo e Treinamento

Dados Compilamos um conjunto de dados de alta qualidade, multi-robô e multi-operador, abrangendo diversos comportamentos teleoperados, totalizando aproximadamente 500 horas. Para gerar pares de treinamento condicionados por linguagem natural, utilizamos um VLM de rotulagem automática para criar instruções retrospectivas. O VLM processa clipes de vídeo segmentados das câmeras embarcadas nos robôs, com o seguinte comando: “Que instrução você teria dado ao robô para realizar a ação exibida neste vídeo?” Todos os itens manipulados durante o treinamento são excluídos das avaliações, a fim de evitar qualquer tipo de contaminação.

Arquitetura Nosso sistema é composto por dois elementos fundamentais: S2, um núcleo VLM, e S1, um transformador visuomotor latente-condicional. S2 é construído sobre um VLM de 7 bilhões de parâmetros, de código aberto e peso aberto, pré-treinado em dados de escala da internet. Ele processa imagens monoculares dos robôs e informações sobre o estado dos robôs (abrangendo a pose do pulso e as posições dos dedos), após projetá-los no espaço de incorporação de visão-linguagem. Em conjunto com comandos de linguagem natural que especificam os comportamentos desejados, S2 destila todas as informações semânticas relevantes para a tarefa em um único vetor latente contínuo, que é transmitido para S1 para condicionar suas ações de baixo nível.

S1, um transformador codificador-decodificador de atenção cruzada de 80 milhões de parâmetros, é responsável pelo controle de baixo nível. Ele se baseia em um núcleo de visão totalmente convolucional e multi-escala para processamento visual, inicializado a partir de um pré-treinamento realizado inteiramente em simulação. Embora S1 receba as mesmas entradas de imagem e estado que S2, ele as processa em uma frequência mais elevada, a fim de possibilitar um controle de circuito fechado mais responsivo. O vetor latente de S2 é projetado no espaço de tokens de S1 e concatenado com as características visuais do núcleo de visão de S1 ao longo da dimensão da sequência, fornecendo o condicionamento da tarefa.

S1 gera controle integral do tronco superior humanoide a 200 Hz, incluindo as poses de pulso desejadas, o controle de flexão e abdução dos dedos e os alvos de orientação do torso e da cabeça. Acrescentamos ao espaço de ação uma ação sintética de “porcentagem de conclusão da tarefa”, permitindo que o Helix preveja sua própria condição de término, o que simplifica a sequência de diversos comportamentos aprendidos.

Treinamento Helix é treinado de forma totalmente integrada, mapeando pixels brutos e comandos de texto para ações contínuas, por meio de uma perda de regressão padrão. Os gradientes são retropropagados de S1 para S2 através do vetor de comunicação latente empregado para condicionar o comportamento de S1, permitindo a otimização conjunta de ambos os componentes. Helix não exige adaptação específica para cada tarefa; ele mantém um único estágio de treinamento e um conjunto único de pesos de rede neural, dispensando cabeças de ação separadas ou etapas de ajuste fino por tarefa.

Durante o treinamento, introduzimos um deslocamento temporal entre as entradas de S1 e S2. Esse deslocamento é calibrado para coincidir com a diferença entre a latência de inferência implantada de S1 e S2, garantindo que os requisitos de controle em tempo real durante a implantação sejam refletidos com precisão no treinamento.

Inferência de Streaming Otimizada A concepção de treinamento do Helix possibilita a implantação paralela de modelo eficiente em robôs Figure, cada um equipado com GPUs incorporadas duplas de baixo consumo de energia. O pipeline de inferência é dividido entre os modelos S2 (planejamento latente de alto nível) e S1 (controle de baixo nível), cada um executado em GPUs dedicadas. S2 opera como um processo de fundo assíncrono, consumindo a observação mais recente (câmera embarcada e estado do robô) e comandos de linguagem natural. Ele atualiza continuamente um vetor latente de memória compartilhada, que codifica a intenção comportamental de alto nível.

S1 é executado como um processo de tempo real separado, mantendo o loop de controle crítico de 200 Hz, necessário para a ação suave de todo o tronco superior. Ele recebe tanto a observação mais recente quanto o vetor latente S2 mais recente. A diferença de velocidade inerente entre a inferência de S2 e S1 resulta naturalmente em S1 operando com uma resolução temporal mais elevada nas observações do robô, criando um loop de feedback mais preciso para o controle reativo.

Essa estratégia de implantação espelha intencionalmente o deslocamento temporal introduzido no treinamento, minimizando a discrepância na distribuição treinamento-inferência. O modelo de execução assíncrona permite que ambos os processos sejam executados em suas frequências ideais, possibilitando a execução do Helix tão rapidamente quanto nossas políticas de aprendizado por imitação de tarefa única mais velozes.

Resultados Vídeo 3: O VLA do Helix controla todo o tronco superior humanoide, um marco no aprendizado de robôs.

Controle VLA preciso de todo o tronco superior

“Helix destaca-se pela sua velocidade e capacidade de generalização, igualando o desempenho de políticas especializadas de clonagem de comportamento, enquanto se adapta a milhares de objetos novos sem treinamento prévio. Sua escalabilidade é notável, gerando controle contínuo para ações complexas, superando as limitações de abordagens anteriores com tokenização de ações. A simplicidade arquitetural do Helix, utilizando VLMs de código aberto e transformadores visuomotores padrão, facilita a implementação. A separação de funções entre os sistemas S1 e S2 permite otimizações independentes.

O treinamento do Helix baseia-se em um conjunto de dados de alta qualidade, coletado de robôs e operadores diversos, totalizando cerca de 500 horas. Para instruções de linguagem natural, um VLM de rotulagem automática gera comandos retrospectivos, evitando contaminação por itens de treinamento. A arquitetura consiste em um VLM (S2) de 7 bilhões de parâmetros para compreensão de cena e linguagem, e um transformador visuomotor (S1) de 80 milhões de parâmetros para controle de baixo nível. S2 destila informações semânticas em um vetor latente, que S1 utiliza para gerar ações contínuas a 200Hz, controlando todo o tronco superior do robô.

O treinamento é feito de ponta a ponta, mapeando pixels e texto para ações, com otimização conjunta de S1 e S2. Um deslocamento temporal entre as entradas de S1 e S2 é calibrado para simular a latência de inferência real. A inferência otimizada utiliza GPUs paralelas, com S2 operando em segundo plano para planejamento de alto nível e S1 executando controle em tempo real a 200Hz. Essa estratégia minimiza a diferença entre treinamento e inferência, permitindo que o Helix opere com a mesma velocidade das políticas de aprendizado por imitação mais rápidas.”

Controle Robótico Superior Detalhado via VLA

Helix opera em um espaço de ação de 35 DoF a 200Hz, refinando movimentos de dedos, trajetórias de ferramentas, focos de visão e posturas do tronco. O controle de cabeça e tronco, antes problemático devido a alterações de alcance e visão, é agora estável graças ao Helix. Vídeo 3 demonstra essa coordenação, com o robô ajustando postura e foco enquanto mantém precisão no manuseio. A precisão em espaços de ação complexos, antes um desafio, é agora realidade, superando sistemas VLA anteriores.

Vídeo 4: Manipulação Robótica Colaborativa Precisa.

Coordenação Multi-Robô Sem Treinamento Prévio

Em um teste rigoroso, Helix coordenou dois robôs Figure em armazenamento de mantimentos, manipulando itens inéditos com sucesso. Vídeo 1 destaca a capacidade de generalização e a coordenação via linguagem natural, sem treinamento específico para cada robô.

“Pegar Qualquer Objeto” Emergente

Robôs com Helix pegam objetos domésticos com comandos simples, demonstrando capacidade de manuseio em ambientes desordenados, sem programação prévia. A habilidade de interpretar comandos conceituais, como “Pegar o item do deserto” e executar ações precisas, mostra a integração entre compreensão de linguagem e controle robótico.

Vídeo 5: Interpretação de Comandos Conceituais em Ações Robóticas.

Discussão

Treinamento Eficiente do Helix

Com apenas 500 horas de dados, Helix demonstra forte generalização, superando sistemas que exigem mais recursos e etapas de treinamento.

Modelo Unificado

Helix, com um único conjunto de pesos, realiza diversas tarefas, desde manipulação de objetos até operações complexas, mostrando versatilidadeConclusão

Helix, pioneiro em controle robótico via VLA, permite manipulação complexa e colaborativa sem programação específica. A capacidade de generalizar e manusear objetos inéditos destaca o potencial do Helix em ambientes domésticos.

Conclusão:

O Helix é um avanço promissor que pode transformar a forma como interagimos com os robôs. À medida que a tecnologia continua a evoluir, podemos esperar que os robôs desempenhem um papel cada vez mais importante em nossas vidas.

Fontes Confiáveis:

2 thoughts on “Helix: o Futuro dos Robôs Humanoides da Figure AI

  1. Otimo artigo parabéns… Essa empresa vai ser uma nova Apple , uma nova Microsoft da robótica, não só ela mas tem umas outras que estão com muita tecnologia avançada e robôs que só víamos em filmes de ficção científica. A coisa está cada vez mais bizarra. É uma corrida de gigantes da tecnologia com IA

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *